S9700千兆业务单板出现CPU使用率高达99%的故障
问题描述
S9700设备千兆光口单板通过光模块和服务器等设备对接,该单板出现CPU使用率高达99%的问题。
告警信息
查看CPU统计信息,显示bmLINK.0任务占用率最高,如下表所示,bmLINK任务是设备上扫描端口link状态的任务,该任务定时扫描所有端口的状态,当端口状态发生变化时刷新相关转发表项。同时为了加快端口up、down上报速率,降低端口状态变化时丢包率,设备上开启了芯片硬件中断,当芯片上报中断后,CPU查询端口状态,当芯片持续上报中断后,CPU占用率会增高。
[DCB-YWQ-DS]display cpu-usage slot 3
CPU Usage Stat. Cycle: 60 (Second)
CPU Usage : 99% Max: 99%
CPU Usage Stat. Time : 2018-12-20 17:14:38
CPU utilization for five seconds: 99%: one minute: 99%: five minutes: 59%
Max CPU Usage Stat. Time : 2018-12-20 17:13:24.
TaskName CPU Runtime(CPU Tick High/Tick Low) Task Explanation
bmLINK.0 81% 3/6656f9aa tS14
bcmCNTR.0 7% 0/4da5b839 tS11
OS 5% 0/35a4e8ff Operation System
MACRESTORE 3% 0/246795e6 tS15
bcmPortMon.0 3% 0/29efeaa7 tS0f
VIDL 1% 0/ aba94ff DOPRA IDLE
ACL 0% 0/ 12389a ACL Access Control List
ADPT 0% 0/ 0 ADPT
如下所示,查询芯片记录的中断信息,发现3号槽持续有中断产生,这是因为芯片接收信号不稳定导致。逐一将光纤拔掉,同时查询芯片中断信息,发现XG3/0/2和XG3/0/6接口接收信号不稳定,将这两个端口光纤拔掉后,没有新增芯片中断,CPU恢复,重新插入光纤后故障立即发生。
[DCB-YWQ-DS-diagnose]lsw-command slot 3 chip-id 0 by-string phyhw record //芯片持续上报中断信息
Time record:
( 0 S) c7aac722ed total 0 us
( 1 %) c7aac7322c + 13 us total 13 us
( 2 L) c7bbc37efa + 949900 us total 949913 us
( 3 %) c7bbc38f6d + 14 us total 949927 us
( 4 L) c7c2d6e3f1 + 395691 us total 1345618 us
( 5 %) c7c2d6f3c2 + 13 us total 1345632 us
( 6 L) c7c6a03612 + 211737 us total 1557370 us
( 7 %) c7c6a04671 + 13 us total 1557384 us
( 8 L) c7e2c83f58 + 1574605 us total 3131989 us
( 9 %) c7e2c8504e + 14 us total 3132004 us
( 10 L) c7f97170c0 + 1267275 us total 4399279 us
( 11 %) c7f971811f + 13 us total 4399293 us
( 12 L) c81723cb6a + 1660745 us total 6060039 us
( 13 %) c81723db8b + 13 us total 6060053 us
( 14 L) c81cff40c0 + 327547 us total 6387600 us
( 15 %) c81cff5108 + 13 us total 6387614 us
( 16 L) c81d4da765 + 17113 us total 6404727 us
处理过程
- 暂时将端口shutdown或光纤拔掉。
- 待服务器安装好操作系统和网卡驱动后,再插入光纤和undo shutdown端口。
根因
对端服务器设备发送信号异常,导致芯片持续上报中断,引起CPU高。
云服务器爆款直降90%
新客首单¥68起 | 人人可享99元套餐,续费同价 | u2a指定配置低至2.5折1年,立即选购享更多福利!