华为V5服务器报错“the disk DISK0 failure”

                       V5服务器报错“the disk DISK0 failure”

问题现象描述

客户2框V5服务器出现相同报错“the disk DISK0 failure”。

关键过程、根本原因分析

(1)前期验证

1)客户现场配置与合同配置一样,没有差异。

2)客户采用3008 IT RAID卡。

3)出现告警后,客户将2框DISK0硬盘交换后,故障服务器故障现象依旧。交叉验证结果表明,故障现象与硬盘无关。

(2)日志分析

iBMC一键收集日志,分析发现DISK告警与RAID卡相关。

华为V5服务器报错“the disk DISK0 failure”

告警原因:

3008IT RAID卡接直通背板时,Enclosure ID分配为0xffff,该ID与Hdd对象中配置的默认无效ID相同。

在硬盘和RAID卡点灯确认对应关系后,在OS重启或者硬盘插拔重新识别时,由于已经保存的识别信息中Enclosure ID为0xffff,被认为是无效值,因此会继续识别。

而在后面识别过程中,识别函数会动态检查是否有对应关系建立,这里只会判断RAID卡PD List中的值是否和保存的相等,不区分是否为0xffff,这里会判断为已经识别,所以识别过程直接略过,所以函数最终返回的识别状态仍然为默认的不成功状态。这样导致硬盘Missing告警产生。

解决方法:

在SML lib层修改 get_pd_list接口,对于硬盘Eid为0xffff的情况,将该ID转换成另外一个非0xffff的值,并且保证与PD List中的其他Eid不重复

结论、解决方案及效果

结论:

V5服务器配置3008 IT时,概率性出现BMC误报disk failure现象。

解决方案:

3008 IT卡升级FW解决。

阅读剩余
THE END