S9700千兆业务单板出现CPU使用率高达99%的故障

问题描述

S9700设备千兆光口单板通过光模块和服务器等设备对接,该单板出现CPU使用率高达99%的问题。

告警信息

查看CPU统计信息,显示bmLINK.0任务占用率最高,如下表所示,bmLINK任务是设备上扫描端口link状态的任务,该任务定时扫描所有端口的状态,当端口状态发生变化时刷新相关转发表项。同时为了加快端口up、down上报速率,降低端口状态变化时丢包率,设备上开启了芯片硬件中断,当芯片上报中断后,CPU查询端口状态,当芯片持续上报中断后,CPU占用率会增高。

[DCB-YWQ-DS]display cpu-usage  slot 3

CPU Usage Stat. Cycle: 60 (Second)

CPU Usage        : 99% Max: 99%

CPU Usage Stat. Time : 2018-12-20  17:14:38

CPU utilization for five seconds: 99%: one minute: 99%: five minutes: 59%

Max CPU Usage Stat. Time : 2018-12-20 17:13:24.

 

TaskName          CPU  Runtime(CPU Tick High/Tick Low)  Task Explanation

bmLINK.0          81%         3/6656f9aa       tS14

bcmCNTR.0           7%         0/4da5b839       tS11

OS                5%         0/35a4e8ff       Operation System

MACRESTORE          3%         0/246795e6       tS15

bcmPortMon.0         3%         0/29efeaa7       tS0f

VIDL               1%         0/ aba94ff       DOPRA IDLE

ACL               0%         0/  12389a       ACL Access Control List

ADPT              0%         0/    0       ADPT

如下所示,查询芯片记录的中断信息,发现3号槽持续有中断产生,这是因为芯片接收信号不稳定导致。逐一将光纤拔掉,同时查询芯片中断信息,发现XG3/0/2和XG3/0/6接口接收信号不稳定,将这两个端口光纤拔掉后,没有新增芯片中断,CPU恢复,重新插入光纤后故障立即发生。

[DCB-YWQ-DS-diagnose]lsw-command slot 3 chip-id 0 by-string phyhw record //芯片持续上报中断信息

Time record:

(  0 S)       c7aac722ed                                   total          0 us

(  1 %)       c7aac7322c        +            13 us        total        13 us

(  2 L)       c7bbc37efa        +         949900 us        total      949913 us

(  3 %)       c7bbc38f6d        +            14 us        total     949927 us

(  4 L)       c7c2d6e3f1        +         395691 us        total     1345618 us

(  5 %)       c7c2d6f3c2        +            13 us        total     1345632 us

(  6 L)       c7c6a03612        +         211737 us        total      1557370 us

(  7 %)       c7c6a04671        +            13 us        total     1557384 us

(  8 L)       c7e2c83f58        +         1574605 us        total     3131989 us

(  9 %)       c7e2c8504e        +            14 us        total     3132004 us

( 10 L)       c7f97170c0          +         1267275 us        total     4399279 us

( 11 %)       c7f971811f          +            13 us        total     4399293 us

( 12 L)       c81723cb6a          +         1660745 us        total     6060039 us

( 13 %)       c81723db8b          +            13 us        total     6060053 us

( 14 L)       c81cff40c0          +         327547 us         total     6387600 us

( 15 %)       c81cff5108          +            13 us        total     6387614 us

( 16 L)        c81d4da765          +          17113 us        total     6404727 us

处理过程

  1. 暂时将端口shutdown或光纤拔掉。
  1. 待服务器安装好操作系统和网卡驱动后,再插入光纤和undo shutdown端口。

根因

对端服务器设备发送信号异常,导致芯片持续上报中断,引起CPU高。

阅读剩余
THE END
阿里云ECS特惠活动
阿里云ECS服务器 - 限时特惠活动

云服务器爆款直降90%

新客首单¥68起 | 人人可享99元套餐,续费同价 | u2a指定配置低至2.5折1年,立即选购享更多福利!

新客首单¥68起
人人可享99元套餐
弹性计费
7x24小时售后
立即查看活动详情
阿里云ECS服务器特惠活动