RH5485光通路诊断板MEM告警处理
RH5485光通路诊断板MEM告警处理
问题现象:
-
开机,POST(Power On Self Test)到内存初始化阶段,如图5-86所示。
- 之后出现内存初始化失败的提示,光通路诊断板MEM灯亮,即图5-87红圈所示LED灯被点亮。图5-88中所示操作员信息面板中,系统错误指示灯亮。
图5-89 内存扩展卡指示灯与按钮
关键过程、根本原因分析
关键过程:
- 首先检查内存系统的故障类型。
假设其中一块内存卡有告警,连同卡上的内存条一起,更换内存卡的槽位。若故障现象跟随内存卡,则说明内存卡或者内存存在物理故障;若故障现象不跟随内存卡,则说明内存或者内存卡没有物理故障。
- 若内存或者内存卡没有物理故障,则改变内存卡上的内存配置。
假设告警的内存卡上原配4条内存,可减少或者增加内存条;或者服务器原配内存卡超过2块,则可以减少或者增加内存卡。在内存配置更改后,重新启动服务器。此时,系统会重新计算服务器的能耗等参数,再做一次内存校验,并激活原先被Disable掉的内存,使告警消失。告警消失后,恢复原来的内存配置即可。
- 若内存或者内存卡存在物理故障,则继续定位。
- 当内存错误指示灯成对点亮时,比如,当DIMM1和DIMM8的Error LED被点亮时,可以交换DIMM1和DIMM3:
- 若交换后,只有DIMM3 Error LED被点亮 ,则说明原来的DIMM1,也就是交换后在DIMM3上的内存条故障。
- 若交换后,还是DIMM1和DIMM8上的Error LED点亮,则再交换DIMM6和DIMM8。若交换后,只有DIMM6 Error LED被点亮,则说明原来的DIMM8,也就是交换后在DIMM6上的内存条故障。
- 若再次交换后,还是DIMM1和DIMM8的Error LED被点亮,则可排除内存条本身的问题,需要更换内存卡。
- 当内存错误灯单个点亮时,比如,当DIMM1 Error LED被点亮时,可以交换DIMM1和DIMM3 :
- 若交换后,只有DIMM3 Error LED被点亮,说明原来的DIMM1,交换后,在DIMM3上的内存条故障。
- 若交换后,还是DIMM1 Error LED被点亮,则可排除内存条本身的问题,需要更换内存卡。
结论、解决方案及效果
解决方案:
- 对物理损坏的内存卡,申请备件更换。
- 对非物理损坏的内存卡,常见解决方法如下:
- 可以更改内存配置(改变内存卡或者内存卡上的内存数量),使服务器在重启时,重新计算用电情况,并重新做一次内存校验,使能被禁用的内存槽位。
- 可以卸下主板CMOS电池,复位系统时钟,再重新装上电池。系统重启时也会重新做一次内存校验,使能被禁用的内存槽位。
- IBM在2011年Q2的固件中修正内存不能在UEFI中Enable的问题。在最新的固件中,UEFI提供了Enable内存的选项,而不用再去拆卸主板CMOS电池。
- 还有一种很少见的内存告警现象,是由内存条的兼容性问题导致。在这一情景中,内存系统无物理故障,但存在内存告警,且告警现象会跟随告警的内存卡(带内存)。此时,可以将内存卡上的内存条顺序打乱重插即可消除告警。
经验总结、预防措施和规范建议
内存或内存卡物理故障的机率比较小,多数内存告警是由于接触不良等导致内存自检时出现校验错误,系统自动禁用相关槽位的内存条所致。
阅读剩余
版权声明:
作者:SE_Zhang
链接:https://www.cnesa.cn/5870.html
文章版权归作者所有,未经允许请勿转载。
THE END