S9700产品S9712(V200R001C00SPC300版本)ARP报文跨板转发出现故障

问题描述

杭研一期桌面云CNA节点hghvdi043cna(172.20.6.91,XXXX-XXXX-d0cf)与新扩容的存储业务ip 172.20.4.122(XXXX-XXXX-604d)不通,到该存储设备的其他业务ip正常;同时其他CNA节点到该IP正常;涉及的网络拓扑如下:

处理过程

分析与对策

1、            因为存储设备是新扩容,检查存储设备的配置,及与S5752交换机的连线,没有发现问题。

2、            检查S5752交换机的VLAN配置以及上联的跳线,没有发现问题。

3、            杭研以前出现过类似情况,当时发现是服务器上联的S6724交换机芯片的问题,更换服务器上联到S6724的端口即可解决;故将该服务器上联S6724交换机的端口由XG0/0/7与XG1/0/7更换为XG0/0/18与XG1/0/18;更换之后,故障未解决,将端口还原为原来的端口。

4、            关闭S6724下连hghvdi043cna的XG1/0/7端口,确保流量从XG0/0/7上面走,同时对XG0/0/7端口进行报文分析,发现有ARP报文发出,但无回包;

5、            对S6724上行的端口XG0/0/20进行报文分析,发现该端口也发出了ARP报文;

6、            分别对存储设备上连的S5752交换机的上连端口和下联端口进行报文分析,发现均有ARP回包,故确定ARP报文是在回来的时候被丢弃。

7、            对S9712的对应端口(XG5/0/1和XG7/0/11)进行报文分析,发现无法获取到报文;故对S9712的端口匹配MAC地址进行流统(rule permit source-mac X-X-604d destination-mac  X-X-d0cf);发现XG7/0/11的inbound和outbound方向都有匹配,而XG5/0/1没有匹配,故确定ARP报文是S9712跨板转发时被丢弃。

8、            对该流量进行重定向,重定向设置之后,hghvdi043cna依然不能访问该存储业务IP 172.20.4.122。

9、            最终确认是报文跨板转发的时候,S9712备用主控板哈希链路问题导致回传的arp报文被丢弃,属于硬件问题,故拔下S9712备用主控板,更换备件。

10、        换下来的主控板返回研发分析故障原因。

阅读剩余
THE END
阿里云ECS特惠活动
阿里云ECS服务器 - 限时特惠活动

云服务器爆款直降90%

新客首单¥68起 | 人人可享99元套餐,续费同价 | u2a指定配置低至2.5折1年,立即选购享更多福利!

新客首单¥68起
人人可享99元套餐
弹性计费
7x24小时售后
立即查看活动详情
阿里云ECS服务器特惠活动