V5服务器反复上下电3508 RAID卡概率初始化失败问题
V5服务器反复上下电3508 RAID卡概率初始化失败问题
问题现象描述
SAS3508 RAID卡在做长期ORT可靠性测试时发现,在多次AC上下电情况下(模拟暴力上下电)小概率出现初始化失败,OS无法正常启动,需要手动干预。
触发条件:
- 使用了3508 RAID卡的控制节点。
- 3508 RAID卡的PCB版本号为.A。
- 3508 RAID卡的“当前写策略”为“Write Back”或“Write Back with BBU”。
- 整框上下电或插拔单板。
故障现象和判断方法
服务器启动时无法找到启动项,OS无法正常启动,如下图所示:
判断方法:
- 从网设文档中获取刀片或者2288服务器iBMC的IP地址,然后登录web界面,默认用户名/密码:Administrator/Admin@9000
2.在管理界面的“信息”栏下点击“系统信息”,选择“存储”菜单,查看RAID卡类型是否为LSI SAS3508,如果是,需要继续下一步确认,否则不涉及该预警
4.进入下图界面,查看RAID卡的“当前写策略”,显示为“Write Back”或“Write Back with BBU”则涉及此预警,否则不涉及预警。
关键过程、根本原因分析
根本原因
SAS3508 RAID卡由于芯片存在一致性问题,在反复AC上下电触发下,信号小概率出现亚稳态 (0、1 状态随机),导致raid软件没有进入掉电保护的处理流程,初始化失败。
3508RAID卡FW默认配置BIOS模式为stop on error,当在此模式时,FW在遇到任何错误或者配置变更,启动过程都会将UEFI Driver设置为Not healthy,必须要客户进入F11-Device Manager界面进行修复,才能正常进入操作系统。
阅读剩余
版权声明:
作者:SE_Zhang
链接:https://www.cnesa.cn/6949.html
文章版权归作者所有,未经允许请勿转载。
THE END