RH5485光通路诊断板MEM告警处理

                       RH5485光通路诊断板MEM告警处理

问题现象:

  1. 开机,POST(Power On Self Test)到内存初始化阶段,如图5-86所示。RH5485光通路诊断板MEM告警处理
  2. 之后出现内存初始化失败的提示,光通路诊断板MEM灯亮,即图5-87红圈所示LED灯被点亮。图5-88中所示操作员信息面板中,系统错误指示灯亮。RH5485光通路诊断板MEM告警处理

RH5485光通路诊断板MEM告警处理

RH5485光通路诊断板MEM告警处理

图5-89 内存扩展卡指示灯与按钮

RH5485光通路诊断板MEM告警处理

关键过程、根本原因分析

关键过程:

  1. 首先检查内存系统的故障类型。

    假设其中一块内存卡有告警,连同卡上的内存条一起,更换内存卡的槽位。若故障现象跟随内存卡,则说明内存卡或者内存存在物理故障;若故障现象不跟随内存卡,则说明内存或者内存卡没有物理故障。

  2. 若内存或者内存卡没有物理故障,则改变内存卡上的内存配置。

    假设告警的内存卡上原配4条内存,可减少或者增加内存条;或者服务器原配内存卡超过2块,则可以减少或者增加内存卡。在内存配置更改后,重新启动服务器。此时,系统会重新计算服务器的能耗等参数,再做一次内存校验,并激活原先被Disable掉的内存,使告警消失。告警消失后,恢复原来的内存配置即可。

  3. 若内存或者内存卡存在物理故障,则继续定位。
    • 当内存错误指示灯成对点亮时,比如,当DIMM1和DIMM8的Error LED被点亮时,可以交换DIMM1和DIMM3:
  • 若交换后,只有DIMM3 Error LED被点亮 ,则说明原来的DIMM1,也就是交换后在DIMM3上的内存条故障。
  • 若交换后,还是DIMM1和DIMM8上的Error LED点亮,则再交换DIMM6和DIMM8。若交换后,只有DIMM6 Error LED被点亮,则说明原来的DIMM8,也就是交换后在DIMM6上的内存条故障。
  • 若再次交换后,还是DIMM1和DIMM8的Error LED被点亮,则可排除内存条本身的问题,需要更换内存卡。
    • 当内存错误灯单个点亮时,比如,当DIMM1 Error LED被点亮时,可以交换DIMM1和DIMM3 :
  • 若交换后,只有DIMM3 Error LED被点亮,说明原来的DIMM1,交换后,在DIMM3上的内存条故障。
  • 若交换后,还是DIMM1 Error LED被点亮,则可排除内存条本身的问题,需要更换内存卡。

结论、解决方案及效果

解决方案:

  • 对物理损坏的内存卡,申请备件更换。
  • 对非物理损坏的内存卡,常见解决方法如下:
    • 可以更改内存配置(改变内存卡或者内存卡上的内存数量),使服务器在重启时,重新计算用电情况,并重新做一次内存校验,使能被禁用的内存槽位。
    • 可以卸下主板CMOS电池,复位系统时钟,再重新装上电池。系统重启时也会重新做一次内存校验,使能被禁用的内存槽位。
    • IBM在2011年Q2的固件中修正内存不能在UEFI中Enable的问题。在最新的固件中,UEFI提供了Enable内存的选项,而不用再去拆卸主板CMOS电池。
  • 还有一种很少见的内存告警现象,是由内存条的兼容性问题导致。在这一情景中,内存系统无物理故障,但存在内存告警,且告警现象会跟随告警的内存卡(带内存)。此时,可以将内存卡上的内存条顺序打乱重插即可消除告警。

经验总结、预防措施和规范建议

内存或内存卡物理故障的机率比较小,多数内存告警是由于接触不良等导致内存自检时出现校验错误,系统自动禁用相关槽位的内存条所致。

 

阅读剩余
THE END