S5700(V200R003C00SPC300)因收到大量STP TC报文导致CPU升高

问题描述

客户反馈某库部份操作台扫码机扫码不稳定,扫码失败率较高,已影响到现场正常作业。

告警信息

查询设备告警记录:CPU出现使用超过阈值告警,CPU使用率高达97%

处理过程

1、执行命令display cpu-usage,查询S5700的CPU信息,S5700最近曾出现CPU升高的记录,CPU占用率最高达到了97%。

<S5700> display cpu-usage

CPU Usage Stat. Cycle: 60 (Second)
CPU Usage            : 18% Max: 97%

2、查询设备日志,有大量TC报文日志产

Jul 31 2016 11:06:20-05:13 S5700 %%01INFO/4/SUPPRESS_LOG(l)[15]:Last message repeated 1 times.(InfoID=1092489232, ModuleName=MSTP, InfoAlias=RECEIVE_MSTITC)
Jul 31 2016 11:05:19-05:13 S5700 %%01INFO/4/SUPPRESS_LOG(l)[16]:Last message repeated 3 times.(InfoID=1092489232, ModuleName=MSTP, InfoAlias=RECEIVE_MSTITC)
Jul 31 2016 11:04:12-05:13 S5700 %%01INFO/4/SUPPRESS_LOG(l)[17]:Last message repeated 3 times.(InfoID=1092489232, ModuleName=MSTP, InfoAlias=RECEIVE_MSTITC)

3、发现S5700上联至汇聚的GigabitEthernet0/0/51、GigabitEthernet0/0/52端口Send方向大量的TC报文计数增涨,初步判断TC报文由应由此设备产生。

<S5700> display stp tc-bpdu statistics

-------------------------- STP TC/TCN information --------------------------
MSTID Port                        TC(Send/Receive)      TCN(Send/Receive)
0     GigabitEthernet0/0/51       8196/1123             0/0
0     GigabitEthernet0/0/52       8343/136              0/0

 4、查汇聚端设备的端口TC信息

继续查询核心交换机S5720,发现与之GigabitEthernet0/0/52相连的GigabitEthernet0/0/2端口收到大量的TC报文,而由此可以判断该TC报文不是汇聚设备产生的。

<S5720> display stp tc-bpdu statistics

-------------------------- STP TC/TCN information --------------------------
MSTID Port                        TC(Send/Receive)      TCN(Send/Receive)
0     GigabitEthernet0/0/1        12495/13               0/0
0     GigabitEthernet0/0/2        135/8349               0/0
0     GigabitEthernet0/0/3        13430/19               0/0
0     GigabitEthernet0/0/4        13784/14               0/0
0     GigabitEthernet0/0/5        14200/17               0/0
0     GigabitEthernet0/0/6        14687/10               0/0

 5、查接入设备接口信息

发现接入设备S5700其TC报文只有在出方向上不断有增长计数,由此可判断该TC报文为接入S5700设备产生。此时执行命令display stp topology-change查询该TC报文的信息。从以下回显可以看出,该设备GigabitEthernet0/0/51端口不断由阻塞变为转发后,由于状态变为detected而触发拓扑变化。

<S5700> display stp topology-change

CIST topology change information
Number of topology changes             :8233
Time since last topology change        :0 days 0h:0m:26s
Topology change initiator(detected)    :GigabitEthernet0/0/51
Number of generated topologychange traps :   9852
Number of suppressed topologychange traps:   13

执行命令display interface brief查询该接入设备端口信息,发现该设备GigabitEthernet0/0/51端口入方向有大量错包,隔一段时间后,再次查询该设备的端口信息,GigabitEthernet0/0/51端口入方向还是有大量错包。查看接口收发光正常,可能为光模块或光纤跳线问题,最后更换光纤跳线问题解决。端口没有错误包。业务也恢复问题。

<S5700> display interface brief

PHY: Physical
*down: administratively down
^down: standby
(l): loopback
(s): spoofing
(E): E-Trunk down
(b): BFD down
(e): ETHOAM down
(dl): DLDP down
(d): Dampening Suppressed
InUti/OutUti: input utility/output utility
Interface                   PHY   Protocol InUti OutUti   inErrors  outErrors
........
GigabitEthernet0/0/51       up    up       0.01%  0.02%   38068638          0

根因

接入和汇聚设备互连端口因链路质量不好,导致设备STP频繁收敛,产生大量TC报文,导致收到此TC报文的设备部分CPU升高,影响业务正常运行。

解决方案

接口产生大量错误包,更换光纤跳线解决,

建议与总结

汇聚设备,全局配置stp tc-protection命令,配置后可以保证设备频繁收到TC报文时,每2秒周期内最多只处理1次表项刷新。从而减少MAC、ARP表项频繁刷新对设备造成的负担。

阅读剩余
THE END