-
X3850 X6 SSH 登录到IMM CLI 界面
X3850 X6 SSH 登录到IMM CLI 界面
SE_Zhang 2025-12-31
30 0 0 -
RH2288H V2 新增磁盘阵列
RH2288H V2 新增磁盘阵列 第一步:开机显示自盘内容信息按Ctrl+H进入raid配置界面(每台服务器进入raid配置界面的方法可能不一样) 进入配置界面,之后点击`Configuration Wizard`配置 点击 Add`Configuration 点击Manual Configuration 上图显示 virtual driver1新增磁盘完成,重启验证
SE_Zhang 2025-12-26
74 0 0 -
RH5485光通路诊断板LINK告警处理
RH5485光通路诊断板LINK告警处理 问题现象描述 硬件配置: RH5485,4颗CPU,2个QPI合并卡。 问题现象: RH5485光通路诊断板上LINK告警灯被点亮。 光通路诊断板如图5-83和图5-84所示。红框中标注的即为LINK告警灯。 图5-83 光通路诊断面板 关键过程、根本原因分析 关键过程: RH5485光通路诊断板上LINK灯点亮,说明服务器QPI链路存在问题。RH5485的系统结构图如图5-85所示,如果服务器上安装了两个以上的微处理器,那么必须在服务器中安装两个QPI合并卡。 图5-85 系统结构图 当QPI链路发生问题时,先检查QPI合并卡是否正常。交换左右QPI卡看故障现象是否跟随卡,若跟随,则QPI卡有问题,若没有,则检查其他部件。再检查微处理器板,着重注意CPU底座是否有弯针的现象,若有弯针现象,则是CPU板问题,需要更换CPU板。 尝试交换1/2和3/4号CPU的安装位置再进行测试,如果故障一样出在同一个QPI插口,则可能CPU板故障;如果交换后报错QPI插口改变,则可能是CPU问题。 从CPU板物理结构上看CPU 1和4在一个通道,2和3在一个通道,机箱后的QPI卡分别负责1/2和3/4的数据交换。另外,QPI Link和CPU的对应关系是反过来的,即QPI Link 1/2/3/4对应CPU 4/3/2/1。 结论、解决方案及效果 定位结论: 光通路诊断板上LINK告警,说明服务器QPI链路存在问题。 解决方案: 需要检查与QPI链路相关的硬件:CPU、CPU板、I/O板和QPI合并卡。通过排查,确认故障的硬件后,将故障的硬件更换即可。
SE_Zhang 2025-12-23
40 0 0 -
2288H V5获取不到进风口、出风口温度和RAID卡温度告警案例
问题信息 表5-235 问题的基本信息 信息名称 信息内容 问题来源 2288H V5 该案例适用于 2288H V5 输出时间 2018-05-21 关键词 进风口温度 出风口温度告警 RAID卡温度 问题现象描述 硬件配置: 2288H V5服务器. 现象描述:RH2288H V5 RAID卡温度和入风口出风口温度获取失败告警,重启不恢复,故障如下图1 2288H V5告警日志. 图5-337 2288H V5告警日志 关键过程、根本原因分析 BMC读取不到进风口、出风口的温度以及RAID卡的温度,从原理分析BMC通过I2C读取他们的温度或信息,怀疑该链路上的部件故障导致,建议排查该链路上的部件。 排查步骤如下: 拔掉左挂耳(进风口的温度传感器在左挂耳上)到主板上的线缆,上电检查是否还有读取不到主板出风口温度和 RAID 主板温度告警,若没有则说明故障是左挂耳或左挂耳到主板上的线缆问题导致,若故障存在,则进行如下2操作。 拔掉硬盘背板到主板上的信号线缆,上电检查服务器是否还有读取不到出风口的温度告警和RAID卡温度温度告警,如果没有说明硬盘背板故障或硬盘背板到主板的线缆故障,如果依旧有读取不到主板上出风口和RAID卡温度,则进行步骤3操作。 下电拔掉RAID卡,上电检查服务器是否还有读取不到主板上出风口温度告警,如果没有说明故障在RAID,如果故障依旧存在, 则进行更换主板,说明故障部件为主板导致。 结论、解决方案及效果 结论: 硬盘背板上I2C链路上器件有问题,导致I2C链路信号异常,造成服务器无法获取进风口、出风口、RAID卡温度信息。 备注
SE_Zhang 2025-12-12
9 0 0 -
华为V5服务器恢复管理员账户
V5服务器恢复管理员账户 问题信息 表5-234 问题的基本信息 信息名称 信息内容 问题来源 1288H&2288H V5 该案例适用于 1288H&2288H V5 输出时间 2017-12-01 关键词 1288H&2288H V5 管理员、恢复、账户 问题现象描述 V5服务器的Administrator用户在iBMC页面给删除了,现在登陆不了iBMC页面,需要恢复账号。 关键过程、根本原因分析 如果仅有的管理员账户误删除,导致登陆不了iBMC页面。如何恢复呢? 有两种解决方案: 1)恢复IBMC默认配置 服务器连接串口,通过命令”ctrl+b“进入uboot,在uboot下输入命令”datafs_reset“,恢复服务器出厂设置。从而恢复管理员Administrator用户和密码,但其他的ibmc配置就会还原。 2)带内通道用户 可在OS侧通过发送标准的IPMI命令为iBMC添加本地用户。 结论、解决方案及效果 结论: 管理员管理员账号被误删除。 解决方案: 恢复iBMC默认配置或者通过带内管理添加用户。
SE_Zhang 2025-12-11
19 0 0 -
V5服务器IBMC用户密码设置问题
V5服务器IBMC用户密码设置问题 问题信息 表5-233 问题的基本信息 信息名称 信息内容 问题来源 2288H V5 该案例适用于 V5服务器 输出时间 2018-3-14 关键词 IBMC 密码 问题现象描述 客户忘记IBMC密码,一线远程指导客户在BIOS下修改IBMC密码,发现以下问题: 1)在BIOS setup中修改IBMC密码,发现默认密码Admin@9000无法修改为Admin@1000、 Admin@2000、Admin@900等。 2)可以把默认密码Admin@9000修改为Huawei12#$或者Admin12#$。当设置成功后,IBMC密码可以修改成默认密码Admin@9000。 关键过程、根本原因分析 (1)IBMC密码规则 根据IBMC用户指南可以确认,目前IBMC密码有以下规则。 IBMC用户密码设置主要遵循2个规则:密码复杂度检查和弱口令字典。 密码复杂度检查 当密码复杂度检查开启时,会校验密码是否满足密码复杂度。如果不满足,无法设置成功。默认状态为启用。 弱口令字典 如果密码在弱口令字典中,密码无法设置成功。弱口令字典默认为启用。 密码复杂度和弱口令两个没有相关性,为两个独立规则。 密码复杂度开,会校验密码复杂度;关闭,不会校验。 弱口令enable,不能设置弱口令里面的密码。弱口令disable,可以设置弱口令里面的密码。 (2)原因分析 1)问题现象一:默认密码Admin@9000无法修改为Admin@1000、 Admin@2000、Admin@900等。 密码复杂度要求中有一条:新旧口令至少在2个字符位上不同。而密码复杂度默认是开启状态,修改密码时会校验。问题现象一中修改的密码不符合要求,所以密码无法修改成功。 2)问题现象二:可以把默认密码Admin@9000修改为Huawei12#$或者Admin12#$。当设置成功后,IBMC密码可以修改成默认密码Admin@9000。 将默认密码Admin@9000修改为Huawei12#$或者Admin12#$可以成功,是因为修改后的密码符合复杂度要求。 但当……
SE_Zhang 2025-12-10
12 0 0 -
华为管理软件常见问题
iBMC升级后,原root用户无法登录WEB UI 问题信息 表5-232 问题的基本信息 信息名称 信息内容 问题来源 RH2288H V3 该案例适用于 机架服务器 输出时间 2018-1-29 关键词 IBMC 账号 登录 问题现象描述 20台RH2288 V3服务器,使用SmartKit升级iBMC,从2.0.6升级到2.66版本,原来的root/Root@123无法登陆iBMC web,只能登陆iBMC后台uboot。 关键过程、根本原因分析 (1)uboot添加账号和密码 在IBMC uboot下,添加账号和密码,发现无法添加。 (2)uboot下刷新BMC版本 IBMC升级完成后, 1)旧账号密码无法使用root/Root@123 2)服务器初始账号密码也无法使用root/Huawei12#$ 3)服务器IP可以ping通 4)可以登录到后台UBOOT,但无法登录IBMC web界面 (3)版本分析 IBMC 2.02升级到最新版本2.66,版本升级方法没有问题。旧版本2.02没有升级版本兼容性问题。 经确认,2.66版本为定制化版本,不兼容普通版本。当升级为该版本后,对应的默认账号和密码与普通服务器不一样。 服务器IBMC版本升级到定制版本,导致前期账号和密码不可使用,默认的账号和密码也无法使用。 结论、解决方案及效果 结论: 服务器IBMC版本升级到定制版本,导致前期账号和密码不可使用,默认的账号和密码也无法使用。 解决方案: BMC 2.66版本不是通用版本。 1)18台服务器从2.66降为2.62后,还原为初始账号和密码,恢复正常,可以继续使用。 2)2台服务器在2.66版本上还原出厂配置后,重新降为2.62,发现只能主IBMC为2.62,备IBMC依然为2.66,无法刷新。 A)提供主备切换命令ipmcset -d rollback,进行刷新操作。 B)采用键盘、鼠标、显示器,现场实操,进BIOS配置账号和密码
SE_Zhang 2025-12-09
17 0 0 -
3416 IT卡使用sas3ircu工具导致CPU configuration Error
问题信息 表5-229 问题的基本信息 信息名称 信息内容 问题来源 RH2288H V5、3416 IT卡 该案例适用于 3416 IT卡 输出时间 2018-05 关键词 3416 IT卡、sas3ircu工具、CPU configuration Error 问题现象描述 问题分析: 日志分析 Sas3ircu查询命令执行后可以正常执行,执行后在BMC SEL出现CPU UCE和configuration error告警。 FDM中出现CPU的VTD fatal告警 原因分析 2.VTD报错,从intel官方文档分析,是CPU识别到了非法请求导致 和BroadCom厂商确认,sas3ircu工具不适用与3416IT卡,属于兼容性导致的问题。 结论、解决方案及效果 解决方案 推荐客户使用storcli工具对RAID卡进行命令行操作,问题解决。
SE_Zhang 2025-12-08
5 0 0 -
华为V5服务器报错“the disk DISK0 failure”
V5服务器报错“the disk DISK0 failure” 问题信息 表5-226 问题的基本信息 信息名称 信息内容 问题来源 1288H&2288H V5 该案例适用于 1288H&2288H V5 输出时间 2018-1-9 关键词 1288H&2288H V5 DISK 问题现象描述 客户2框V5服务器出现相同报错“the disk DISK0 failure”。 关键过程、根本原因分析 (1)前期验证 1)客户现场配置与合同配置一样,没有差异。 2)客户采用3008 IT RAID卡。 3)出现告警后,客户将2框DISK0硬盘交换后,故障服务器故障现象依旧。交叉验证结果表明,故障现象与硬盘无关。 (2)日志分析 iBMC一键收集日志,分析发现DISK告警与RAID卡相关。 告警原因: 3008IT RAID卡接直通背板时,Enclosure ID分配为0xffff,该ID与Hdd对象中配置的默认无效ID相同。 在硬盘和RAID卡点灯确认对应关系后,在OS重启或者硬盘插拔重新识别时,由于已经保存的识别信息中Enclosure ID为0xffff,被认为是无效值,因此会继续识别。 而在后面识别过程中,识别函数会动态检查是否有对应关系建立,这里只会判断RAID卡PD List中的值是否和保存的相等,不区分是否为0xffff,这里会判断为已经识别,所以识别过程直接略过,所以函数最终返回的识别状态仍然为默认的不成功状态。这样导致硬盘Missing告警产生。 解决方法: 在SML lib层修改 get_pd_list接口,对于硬盘Eid为0xffff的情况,将该ID转换成另外一个非0xffff的值,并且保证与PD List中的其他Eid不重复 结论、解决方案及效果 结论: V5服务器配置3008 IT时,概率性出现BMC误报disk failure现象。
SE_Zhang 2025-12-05
12 0 0 -
华为V5服务器windows下出现一大批未知设备“base systm device
V5服务器windows下出现一大批未知设备“base systm device 表5-224 问题的基本信息 信息名称 信息内容 问题来源 2288H V5 该案例适用于 V5服务器 输出时间 2018-3-5 关键词 base systm device 问题现象描述 NA客户2288H V5服务器安装了windows 2012 R2,在OS下发现了一大批未知设备“base systm device”。客户确认已经安装华为support发布的chipset芯片组驱动。 (1)未知设备类型分析 客户反馈未知设备列表,如下所示。基本上所有的设备都是8086类型,安装驱动类型就是chipset芯片组驱动。 ---- -------- Base System Device PCI\VEN_8086&DEV_208F&SUBSYS_400319E5&REV_04\3&2411E6FE&... Base System Device PCI\VEN_8086&DEV_208F&SUBSYS_400319E5&REV_04\3&2411E6FE&... …… (2)驱动指导安装 1)根据客户服务器配置情况,提供华为support最新驱动,并重新安装完所有的OS驱动后,并确保OS已经重启的情况下,问题现象依然存在。 选择点击搜索驱动安装,无法安装成功。 (3)联合intel分析 Intel针对8086未知设备的device ID进行分析,得出结论:怀疑与BIOS配置项相关。 根据intel反馈信息,对比正常服务器和异常服务器的BIOS设置项,确认出以下5个差异点。 经OS和BIOS分析和验证,确认: 1)当DFXEnable配置项为默认项disable时,服务器正常。 2)当DFXEnable配置项修改为enable时,服务器出现相同问题现象,OS下出现一大批未知8086设备,且device ID一样。 DFXEnable配置选项在FDM故障注入调试或者需要使用DMA 调试功能时,才需要开启,默认是关闭的。 结论、解决方案及效果 结论: BIOS配置项DFXEnable被设置为enable,导致OS下出现未知设备。 解决方案: BIOS配置项DFXEnable修改为disable。 远程在客户服务器……
SE_Zhang 2025-12-03
8 0 0
