RAID卡产生Multi-bit ECC错误但iBMC无告警

问题描述

客户一台RH5885 V3服务器系统挂死,重启系统后看到RAID卡报Multi-bit ECC Error错误,但在iBMC上没有看到相关告警,客户询问没有告警的原因。

1.png

处理过程

有两种方法可以确认RAID卡产生了Multi-bit ECC Error。

1.  系统挂死,重启系统后,能看到RAID卡报Multi-bit ECC Error。

1.png

2.  系统挂死,重启系统后,收集iBMC一键收集日志,在LSI_RAID_Controller_info日志里能看到Multi-bit ECC Error事件。

3.jpg

问题原因说明:

RAID卡具备ECC(Error Correcting Code)这种内存校验机制,采用奇偶性校验的方法,出现的ECC错误分为Single-bit ECC Error和Multi-bit ECC Error两种。

Single-bit ECC Error只有单个bit出现了错误,能通过奇偶性校验恢复,因此RAID卡能容许出现一定次数的Single-bit ECC Error。iBMC会从RAID卡获取出现错误的次数和产生告警的门限,当次数≥门限时,iBMC会产生告警并记录维护日志。

Multi-bit ECC Error有多个bit出现了错误,不能通过奇偶性校验恢复,因此RAID卡通常会出现挂死,进而导致系统挂死甚至系统重启。RAID卡挂死后,iBMC无法通过RAID卡检测到产生了Multi-bit ECC Error,因此iBMC无法产生告警。系统重启后,Multi-bit ECC Error可能恢复,此时iBMC可以从RAID卡获取到一次Multi-bit ECC Error事件,并记录在LSI_RAID_Controller_info里,这个是在multi-bit ECC Error发生且系统重启之后延迟记录的。

解决方案

Single-bit ECC Error处理方法参考案例http://3ms.huawei.com/hi/group/1004825/thread_7719709.html?mapId=9502473

Multi-bit ECC Error处理方法参考案例https://support.huawei.com/enterprise/zh/knowledge/KB1000097818

免责声明:本案例仅供参考不提供专业意见。

版权声明:
作者:youlijiang
链接:https://www.cnesa.cn/680.html
来源:正群欣世
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>