华为V5服务器报错“the disk DISK0 failure”
V5服务器报错“the disk DISK0 failure”
问题现象描述
客户2框V5服务器出现相同报错“the disk DISK0 failure”。
关键过程、根本原因分析
(1)前期验证
1)客户现场配置与合同配置一样,没有差异。
2)客户采用3008 IT RAID卡。
3)出现告警后,客户将2框DISK0硬盘交换后,故障服务器故障现象依旧。交叉验证结果表明,故障现象与硬盘无关。
(2)日志分析
iBMC一键收集日志,分析发现DISK告警与RAID卡相关。
告警原因:
3008IT RAID卡接直通背板时,Enclosure ID分配为0xffff,该ID与Hdd对象中配置的默认无效ID相同。
在硬盘和RAID卡点灯确认对应关系后,在OS重启或者硬盘插拔重新识别时,由于已经保存的识别信息中Enclosure ID为0xffff,被认为是无效值,因此会继续识别。
而在后面识别过程中,识别函数会动态检查是否有对应关系建立,这里只会判断RAID卡PD List中的值是否和保存的相等,不区分是否为0xffff,这里会判断为已经识别,所以识别过程直接略过,所以函数最终返回的识别状态仍然为默认的不成功状态。这样导致硬盘Missing告警产生。
解决方法:
在SML lib层修改 get_pd_list接口,对于硬盘Eid为0xffff的情况,将该ID转换成另外一个非0xffff的值,并且保证与PD List中的其他Eid不重复
结论、解决方案及效果
结论:
V5服务器配置3008 IT时,概率性出现BMC误报disk failure现象。
解决方案:
3008 IT卡升级FW解决。
阅读剩余
版权声明:
作者:SE_Zhang
链接:https://www.cnesa.cn/6946.html
文章版权归作者所有,未经允许请勿转载。
THE END