鲲鹏服务器 raid卡9560-8i频繁通讯丢失告警问题
问题描述
客户运维管理平台近期多次出现服务器bmc告警同类型告警,提示raid卡通讯连接丢失告警。
Communication between the iBMC and PCIe card 2 (9560-8i) failed。
且大部分通过重启后均可恢复。
处理过程
1、通过客户收集的多份bmc sel日志中,均发现相同的报错信息。

2、查看RAID卡日志,均为多次reset 硬盘后出现BMC与raid卡通信失败告警。

3、检查硬盘smart信息,均为正常,无故障。

4、以上现象及日志信息显示和博通RAID卡控制卡复位故障硬盘导致TM 资源耗尽导致RAID卡挂死的问题一致,为博通RAID卡共性问题。

5、通过开启RAID卡OCR (Online Controller Reset)开关完成自愈,检查客户raid配置显示OCR是关闭状态.

根因
博通RAID卡复位 IO超时不响应的硬盘时,有一定概率触发了TM资源耗尽是博通RAID卡共性问题,该问题触发后,可以通过开启了RAID卡OCR (Online Controller Reset)开关,RAID控制卡则会通过重新加载FW进行恢复。由于客户的机器OCR开关未开启,不能完成自愈,最终导致现场告警机器,需要重启解决(重启相当于重新加载FW)。
解决方案
1、开启raid卡ocr自愈功能,开启自愈功能后,恢复时间在30s-60s之间,对上层应用影响较小,恢复后服务器bmc界面的告警信息会自动消除。
ocr开启方法:使用博通raid的工具storcli64,命令行为:./storcli64 /c0 set ocr=on
2、定期对服务器硬盘进行深度巡检,提前巡检排查出存在硬件故障的硬盘。
阅读剩余
版权声明:
作者:SE_Gao
链接:https://www.cnesa.cn/9012.html
文章版权归作者所有,未经允许请勿转载。
THE END