V5服务器反复上下电3508 RAID卡概率初始化失败问题

                  V5服务器反复上下电3508 RAID卡概率初始化失败问题

问题现象描述 SAS3508 RAID卡在做长期ORT可靠性测试时发现,在多次AC上下电情况下(模拟暴力上下电)小概率出现初始化失败,OS无法正常启动,需要手动干预。 触发条件: 使用了3508 RAID卡的控制节点。 3508 RAID卡的PCB版本号为.A。 3508 RAID卡的“当前写策略”为“Write Back”或“Write Back with BBU”。 整框上下电或插拔单板。

故障现象和判断方法 服务器启动时无法找到启动项,OS无法正常启动,

如下图所示:

V5服务器反复上下电3508 RAID卡概率初始化失败问题

判断方法: 从网设文档中获取刀片或者2288服务器iBMC的IP地址,然后登录web界面,默认用户名/密码:Administrator/Admin@9000;

V5服务器反复上下电3508 RAID卡概率初始化失败问题

在管理界面的“信息”栏下点击“系统信息”,选择“存储”菜单,查看RAID卡类型是否为LSI SAS3508,如果是,需要继续下一步确认,否则不涉及该预警。

V5服务器反复上下电3508 RAID卡概率初始化失败问题

查看RAID卡的PCB版本,如果显示.A,需要继续下一步确认,否则不涉及该预警。

V5服务器反复上下电3508 RAID卡概率初始化失败问题

进入下图界面,查看RAID卡的“当前写策略”,显示为“Write Back”或“Write Back with BBU”则涉及此预警,否则不涉及预警。

V5服务器反复上下电3508 RAID卡概率初始化失败问题

关键过程、根本原因分析

根本原因

SAS3508 RAID卡由于芯片存在一致性问题,在反复AC上下电触发下,信号小概率出现亚稳态 (0、1 状态随机),导致raid软件没有进入掉电保护的处理流程,初始化失败。

3508RAID卡FW默认配置BIOS模式为stop on error,当在此模式时,FW在遇到任何错误或者配置变更,启动过程都会将UEFI Driver设置为Not healthy,必须要客户进入F11-Device Manager界面进行修复,才能正常进入操作系统。

阅读剩余
THE END