案例1 RSR77-XA NAT功能偶发失效

一、故障现象描述

某客户使用RSR77-XA路由器部署NAT功能,在割接完成后,NAT业务测试均正常,但是现场进行灾备演练过程中,发现从二卡Ge2/2/0(outside)接口收到的报文没有按照NAT规则执行目的地址转换,操作删除一卡Ge1/3/1.109(inside)子接口的ip nat inside配置后NAT转换恢复正常。

二、故障排查分析

  1. 检查路由器NAT配置,均正确。
  1. 查看流表出入接口均正确,当x.x.6.113访问下x.x.199.37时,但未执行NAT转换。x.x.199.37并未转换成x.x.100.195。
  1. 怀疑接口下NAT函数未挂载成功,查看接口挂载函数:
命令:execute diagnose-cmd slot 2 at efd ef-coreframe-cfks-show-cf-intf Index(对应接口索引)
发现控制面NAT函数已经挂载成功,但是数据面的比特位缺失一位,判断数据面NAT函数未挂载。
  1. 将Ge1/3/1.109接口上的ip nat inside配置删除之后,NAT正常转换。Ge2/2/0接口数据面NAT函数成功挂载。

三、故障根因说明

在RSR77-XA多张业务线卡都配置有NAT业务,本卡配置NAT的业务端口UP的时候,由于软件逻辑问题,NAT业务标记会无法同步到其他业务板卡,造成其他业务板卡的NAT挂载函数引用计数值小于本卡,当对本卡的NAT的业务端口进行删除配置或者DOWN操作时,NAT业务标记可以同步到其他业务板卡,造成其他业务卡的NAT挂载函数引用计数值清零,该卡NAT失效。

四、故障解决方案

1、应急业务恢复方式:
重启数据转发层面的EFD进程(会导致业务闪断,请在业务低峰期并取得客户授权后实施),方法如下。
  Ruijie#debug suppport //进入debug support模式 Ruijie(support)#execute diagnose-cmd slot 2 ps -A efd //查看efd进程号
  3045 ? 11-20:31:09 efd_frame.elf
  Ruijie(support)#execute diagnose-cmd slot 2 kill -9 3045 //重启efd进程
  Ruijie(support)#execute diagnose-cmd slot 2 ps -A efd //重启后查看efd进程号,数值变化说明重启成功
  31825 ? 00:07:56 efd_frame.elf
2、故障解决方案:
升级RSR77-XA版本或者打补丁彻底解决。
上一篇 有什么cmd命令是重置网络配置的?
下一篇 华为CE交换机-配置ARP安全功能