2288H V5服务器RAID卡下所有硬盘在位状态出现异常

           2288H V5服务器RAID卡下所有硬盘在位状态出现异常

问题现象描述

2288H V5服务器运行过程中突然报多块硬盘在位状态异常。

2288H V5服务器RAID卡下所有硬盘在位状态出现异常

关键过程、根本原因分析

  1. 现象分析

    从告警日志记录中,可以看到disk0-disk11(前置12盘硬盘背板)、disk40-43(后置IO模组1和2)全部都出现在位状态异常记录,1秒钟内removed再installed。顺序从disk0-disk43依次出现。

  2. 日志分析

    IBMC中日志没有发现有当前时间点的硬件故障报错。且RAID卡日志记录只有记录到问题发生前一天的,没有当前记录。

    初步判断非RAID卡硬件故障引起。

    当前服务器版本信息:

2288H V5服务器RAID卡下所有硬盘在位状态出现异常

3.原理分析

BMC中呈现硬盘出现在位状态异常,是通过查询CPLD寄存器值体现的。怀疑CPLD寄存器地址出现异常变更引起。

拉通CPLD、BMC分析,得出非CPLD问题。如果是CPLD寄存器出现异常,那么不可能这么规律。同时不可能所有硬盘都出现问题。因为GPIO信号如果受到干扰,是随机的,体现的就是硬盘是随机出现不在位。

经过BMC等各领域讨论,最终确认问题原因:BMC旧版本bug。BMC存储模块重启,代码重新设置硬盘的在位属性,造成SEL日志的打印。

结论、解决方案及效果

结论:

BMC旧版本2.70 bug:BMC存储模块重启,代码重新设置硬盘的在位属性,造成SEL日志的打印。

解决方案:

升级BMC版本至2.94及以上版本。

阅读剩余
THE END