S9706交换机单板重启问题
问题描述
9706交换机1槽位EH1D2X16SFC0接口板发生复位。
查看日志信息display logbuffer
Apr 30 2016 18:23:26+08:00 XXXX BASETRAP/4/ENTITYRESET:OID 1.3.6.1.4.1.2011.5.25.129.2.1.5 Physical entity is reset. (Index=67371017, Severity=6, ProbableCause=153, EventType=4, ContainedIn=67371013, PhysicalName=LPU Board 1, RelativeResource=, ReasonDescription=Reset for memory use out)
复位后单板重新注册成功,但该单板于5月1日凌晨2:43再次发生单板复位。
查看日志信息display logbuffer
May 1 2016 02:50:27+08:00 XXXX BASETRAP/4/ENTITYRESET:OID 1.3.6.1.4.1.2011.5.25.129.2.1.5 Physical entity is reset. (Index=67371017, Severity=6, ProbableCause=153, EventType=4, ContainedIn=67371013, PhysicalName=LPU Board 1, RelativeResource=, ReasonDescription=Reset for memory use out)
告警信息
Apr 30 2016 18:23:26+08:00 XXXX BASETRAP/4/ENTITYRESET:OID 1.3.6.1.4.1.2011.5.25.129.2.1.5 Physical entity is reset. (Index=67371017, Severity=6, ProbableCause=153, EventType=4, ContainedIn=67371013, PhysicalName=LPU Board 1, RelativeResource=, ReasonDescription=Reset for memory use out)
处理过程
1.查看信息,1槽位单板共复位过两次,两次记录的复位原因都是memory use out,也就是单板内存不足而导致的复位。
查看日志信息display logbuffer
The LPU frame[1] board[1]'s reset total 2, detailed information:-- 1. 2016/05/01 02:50:27, Reset No.:2 Reason: Reset for memory use out-- 2. 2016/04/30 18:23:26, Reset No.: 1 Reason: Reset for memory use out
同时在该时间点上,设备也向网管上报了单板由于内存耗尽而导致的告警信息,这里可以确认单板是由于内存耗尽导致的复位,下面需要对问题发生时故障单板的内存使用情况进行分析.
查看日志信息display logbuffer
Apr 30 2016 18:23:26+08:00 xxxx BASETRAP/4/ENTITYRESET:OID 1.3.6.1.4.1.2011.5.25.129.2.1.5 Physical entity is reset. (Index=67371017, Severity=6, ProbableCause=153, EventType=4, ContainedIn=67371013, PhysicalName=LPU Board 1, RelativeResource=, ReasonDescription=Reset for memory use out.
May 1 2016 02:50:27+08:00 xxxx BASETRAP/4/ENTITYRESET:OID 1.3.6.1.4.1.2011.5.25.129.2.1.5 Physical entity is reset. (Index=67371017, Severity=6, ProbableCause=153, EventType=4, ContainedIn=67371013, PhysicalName=LPU Board 1, RelativeResource=, ReasonDescription=Reset for memory use out)
2.进一步分析设备的内存情况,在单板复位前,从内存申请的统计数据来看:
查看内存状态:display memory
Block Memory Status
Block Size 32 Free 365 Used 30098 Total 30463
Block Size 64 Free 519 Used 32726 Total 33245
Block Size 128 Free 60 Used 23370 Total 23430
Block Size 256 Free 153 Used 33078 Total 33231
Block Size 512 Free 19 Used 29766 Total 29785
Block Size 1024 Free 50 Used 56170 Total 56220
Block Size 2048 Free 39 Used 674 Total 713
Block Size 4096 Free 10 Used 95 Total 105
-----------------------------Summary-------------------
Used(Byte)100586296 Free 1215 Used 205977 Total 207192
Memory total used size: 100586296 Used Ratio For Memory : 98%
Dos Memory Status
Memory Usage:
Block Size > 4096 Free 6 Used 562 Total 568
-----------------------------Summary-------------------
Used(Byte)59592924 Free 6 Used 562 Total 568
Memory total used size: 59592924 Used Ratio For Memory : 91%
3.设备的Block内存分区的大部分被32至1024字节的内存块所占用。再从设备上各个模块的内存统计数据来看,发现绝大多数被FF82模块所申请。
查看命令:display inspect mem-debug-info 29 0 0 0
FF82模块为单板底层发包模块,此时可以确认底层发包模块占用了设备上的大量内存信息,初步怀疑单板发包存在异常。
根因
该问题的故障原因为单板DMA器件个体失效,致使单板发包持续失败,进出引起设备内存持续挤压,最终导致单板内存耗尽复位。
解决方案
该问题系单板器件个体失效导致,现场请使用备件更换故障单板解决问题。
云服务器爆款直降90%
新客首单¥68起 | 人人可享99元套餐,续费同价 | u2a指定配置低至2.5折1年,立即选购享更多福利!