RH5485光通路诊断板LINK告警处理
RH5485光通路诊断板LINK告警处理
问题现象描述
硬件配置:
RH5485,4颗CPU,2个QPI合并卡。
问题现象:
RH5485光通路诊断板上LINK告警灯被点亮。
光通路诊断板如图5-83和图5-84所示。红框中标注的即为LINK告警灯。


关键过程、根本原因分析
关键过程:
RH5485光通路诊断板上LINK灯点亮,说明服务器QPI链路存在问题。RH5485的系统结构图如图5-85所示,如果服务器上安装了两个以上的微处理器,那么必须在服务器中安装两个QPI合并卡。

- 当QPI链路发生问题时,先检查QPI合并卡是否正常。交换左右QPI卡看故障现象是否跟随卡,若跟随,则QPI卡有问题,若没有,则检查其他部件。再检查微处理器板,着重注意CPU底座是否有弯针的现象,若有弯针现象,则是CPU板问题,需要更换CPU板。
- 尝试交换1/2和3/4号CPU的安装位置再进行测试,如果故障一样出在同一个QPI插口,则可能CPU板故障;如果交换后报错QPI插口改变,则可能是CPU问题。
从CPU板物理结构上看CPU 1和4在一个通道,2和3在一个通道,机箱后的QPI卡分别负责1/2和3/4的数据交换。另外,QPI Link和CPU的对应关系是反过来的,即QPI Link 1/2/3/4对应CPU 4/3/2/1。
结论、解决方案及效果
定位结论:
光通路诊断板上LINK告警,说明服务器QPI链路存在问题。
解决方案:
需要检查与QPI链路相关的硬件:CPU、CPU板、I/O板和QPI合并卡。通过排查,确认故障的硬件后,将故障的硬件更换即可。
阅读剩余
版权声明:
作者:SE_Zhang
链接:https://www.cnesa.cn/5865.html
文章版权归作者所有,未经允许请勿转载。
THE END