一、故障现象描述
NAT端口映射删除了仍然生效,检查发现主控的端口映射配置已经删除,但是线卡中仍然有相关端口映射的配置,导致NAT不生效。
场景拓扑
不涉及
二、故障排查分析
-
判断是否是IPC消息丢失。主控删除的配置,将会通过IPC消息和线卡进行通信,删除线卡的相关的配置。但因为该IPC消息缺少确认机制,可能存在线卡配置删除不掉的情况。多次复现未命中,通过版本优化,增加主控线卡的确认机制后,又再次出现了同样的故障。故排除IPC消息丢失的可能。
-
检查客户的配置和故障现象。检查发现客户配置的是前后都带vrf的端口映射配置,但是残留的配置却是只有后面有vrf的端口映射配置。内部复现发现重启前保存的端口映射配置,在重启后线卡里面会出现两个相似的端口映射(一个是和主控一致的前后都有vrf的映射,另一个是额外生成的只有后面有vrf的端口映射配置)。此时删除其中一个,线卡也会删除相同的映射。但是还会残留后面有vrf的端口映射配置。

三、故障根因说明
定位软件问题。重启整机后,会自动刷一遍配置,同时也会触发热插拔逻辑再刷一遍配置。热插拔通过消息下配置到线卡,但是由于软件逻辑异常,下成了单vrf信息的端口映射,导致线卡检测到热插拔下的是新配置,所以线卡上此时会新增一条单vrf的映射配置;因此,线卡会出现两条映射,一条双vrf,一条单vrf。此时,用户主控删除双vrf的映射配置,线卡也正常删除了相同的双vrf的配置,但还残留了单vrf的配置。该问题影响范围:重启前保存的映射配置就会出这种情况,重启后新配的就不会。
四、故障解决方案
临时解决方案:临时进入线卡删除多余的端口映射配置;
彻底解决方案:升级指定版本解决,热插拔逻辑修订vrf下配置信息为正确信息,避免线卡下新配置。