设备风扇故障导致温度过高与业务中断
问题描述
一台华为S7703核心交换机在夜间业务低峰期突然重启,并伴有持续告警。网管系统收到大量“Temperature over limit”和“Fan failed”的告警信息。设备重启后,业务暂时恢复,但设备面板上的风扇告警灯常亮黄色。
处理过程
1.信息收集:登录设备,使用 display device 命令查看设备状态,发现其中一个风扇模块(Fan 1)状态为“Abnormal”。
2.环境检查:使用 display temperature all 命令查看设备温度,发现部分板卡的温度接近甚至偶尔超过临界值。
3.日志分析:使用 display logbuffer 查看历史日志,发现在设备重启前,有记录“The fan is faulty, slot=1, fan=1”和“The device temperature exceeds the upper limit, device will reset”的日志。这表明风扇故障在先,温度过高导致设备保护性重启在后。
4.物理检查:对设备进行下电(在业务窗口期)后,打开机箱,发现编号为1的风扇模块积灰严重,尝试手动转动扇叶,存在明显阻力。
5.更换验证:更换新的同型号风扇模块后,设备上电,风扇运行正常,告警灯熄灭。使用 display temperature 命令观察一段时间,设备温度稳定在正常范围内。
根因
设备运行环境灰尘过多,导致风扇轴承被灰尘和油污淤塞,转动阻力增大,最终停止工作。风扇失效后,设备散热能力不足,内部芯片温度超过安全阈值,触发了设备的过热保护机制,强制重启以避免硬件损坏。
解决方案
1.立即更换故障的风扇模块。
2.对机房环境进行清洁,改善设备防尘条件。
3.制定计划,对其他同类设备的风扇进行预防性检查和清洁。
建议与总结
1.定期巡检:应定期(如每季度)通过网管系统和命令行检查风扇状态(display fan)和设备温度(display temperature)。
2.环境维护:机房环境是设备稳定运行的基础,必须严格控制温度、湿度和洁净度。
3.备件管理:对于核心设备,必须储备关键硬件备件,如风扇、电源等,以便故障时能快速更换。