华为2288V5插上自购的GPU卡,无法正常上电的现象

华为2288V5插上自购的GPU卡,无法正常上电的现象

V5服务器前期均能正常上电,出现插上自购的GPU卡,无法正常上电的现象。通过查看服务器,发现出现U10告警。

华为2288V5插上自购的GPU卡,无法正常上电的现象

关键过程、根本原因分析

(1)U10告警解析

通过查询《华为机架服务 精准告警处理 (iBMC) 》手册,发现其为非standby电源异常

华为2288V5插上自购的GPU卡,无法正常上电的现象

(2)日志分析

告警时maintenance有上电异常的打印,怀疑是GPU供电异常导致主板无法上电。

建议排查GPU的兼容性,以及是否正常确安装GPU卡。

华为2288V5插上自购的GPU卡,无法正常上电的现象

(3)GPU兼容性

GPU型号为Tesla M10,为客户自行采购,没在合同中。但在华为器件兼容性列表中。

华为2288V5插上自购的GPU卡,无法正常上电的现象

(4)GPU安装

根据华为兼容性列表的备注事项可知:

GPU插到riser卡上,可以支持2张M10 GPU卡,每个GPU需要一根04150627-001(GPU专用线缆)。线缆不要选错,要华为专用线缆,不能乱插到主板上。

GPU正确安装方法如图5-334所示。

图5-334 04150627-001电源线缆在机箱上的布置图

华为2288V5插上自购的GPU卡,无法正常上电的现象
经分析,客户为自行采购GPU,采用的业界标准电源线,非华为专用电源线缆。如果用业界标准线,而非华为专用线缆,会出现VCC_12V0与地短路,导致无法上电

解决方案:

GPU电源线替换为华为专用电源线缆。

阅读剩余
THE END