V5服务器反复上下电3508 RAID卡概率初始化失败问题

    V5服务器反复上下电3508 RAID卡概率初始化失败问题

问题现象描述

SAS3508 RAID卡在做长期ORT可靠性测试时发现,在多次AC上下电情况下(模拟暴力上下电)小概率出现初始化失败,OS无法正常启动,需要手动干预。

触发条件:

  1. 使用了3508 RAID卡的控制节点。
  2. 3508 RAID卡的PCB版本号为.A。
  3. 3508 RAID卡的“当前写策略”为“Write Back”或“Write Back with BBU”。
  4. 整框上下电或插拔单板。

故障现象和判断方法

服务器启动时无法找到启动项,OS无法正常启动,如下图所示:

V5服务器反复上下电3508 RAID卡概率初始化失败问题

判断方法:

  1. 从网设文档中获取刀片或者2288服务器iBMC的IP地址,然后登录web界面,默认用户名/密码:Administrator/Admin@9000

V5服务器反复上下电3508 RAID卡概率初始化失败问题

2.在管理界面的“信息”栏下点击“系统信息”,选择“存储”菜单,查看RAID卡类型是否为LSI SAS3508,如果是,需要继续下一步确认,否则不涉及该预警

V5服务器反复上下电3508 RAID卡概率初始化失败问题

V5服务器反复上下电3508 RAID卡概率初始化失败问题

4.进入下图界面,查看RAID卡的“当前写策略”,显示为“Write Back”或“Write Back with BBU”则涉及此预警,否则不涉及预警。

V5服务器反复上下电3508 RAID卡概率初始化失败问题

关键过程、根本原因分析

根本原因

SAS3508 RAID卡由于芯片存在一致性问题,在反复AC上下电触发下,信号小概率出现亚稳态 (0、1 状态随机),导致raid软件没有进入掉电保护的处理流程,初始化失败。

3508RAID卡FW默认配置BIOS模式为stop on error,当在此模式时,FW在遇到任何错误或者配置变更,启动过程都会将UEFI Driver设置为Not healthy,必须要客户进入F11-Device Manager界面进行修复,才能正常进入操作系统。

 

阅读剩余
THE END