服务器 - 第3页

服务器

服务器

鲲鹏服务器 raid卡9560-8i频繁通讯丢失告警问题

问题描述客户运维管理平台近期多次出现服务器bmc告警同类型告警，提示raid卡通讯连接丢失告警。 Communication between the iBMC and PCIe card 2 (9560-8i) failed。且大部分通过重启后均可恢复。处理过程 1、通过客户收集的多份bmc sel日志中，均发现相同的报错信息。 2、查看RAID卡日志，均为多次reset 硬盘后出现BMC与raid卡通信失败告警。 3、检查硬盘smart信息，均为正常，无故障。 4、以上现象及日志信息显示和博通RAID卡控制卡复位故障硬盘导致TM 资源耗尽导致RAID卡挂死的问题一致，为博通RAID卡共性问题。 5、通过开启RAID卡OCR (Online Controller Reset)开关完成自愈，检查客户raid配置显示OCR是关闭状态. 根因博通RAID卡复位 IO超时不响应的硬盘时，有一定概率触发了TM资源耗尽是博通RAID卡共性问题，该问题触发后，可以通过开启了RAID卡OCR (Online Controller Reset)开关，RAID控制卡则会通过重新加载FW进行恢复。由于客户的机器OCR开关未开启，不能完成自愈，最终导致现场告警机器，需要重启解决（重启相当于重新加载FW）。解决方案 1、开启raid卡ocr自愈功能，开启自愈功能后，恢复时间在30s-60s之间，对上层应用影响较小，恢复后服务器bmc界面的告警信息会自动消除。 ocr开启方法：使用博通raid的工具storcli64，命令行为：./storcli64 /c0 set ocr=on 2、定期对服务器硬盘进行深度巡检，提前巡检排查出存在硬件故障的硬盘。

SE_Gao 2025-11-24

30 0 0
服务器

鲲鹏服务器raid卡电容反复上线问题

问题描述陆续收到客户报修设备日志中多次打印The PCIe card 3 (9560-8i) BBU is present 。告警信息 The PCIe card 3 (9560-8i) BBU is present 。处理过程 1、在客户提供的日志信息中，raid卡日志发现设备运行过程中存在多次的BBU 的disabled 和enabled状态。如此在WB和WT两个模式下反复切换，会影响设备磁盘读写性能及稳定性。 2、查看raid卡及电容BBU的固件版本。根因 1、通过查询存在相关通告，PSOC版本为异常版本，建议升级。结合以上信息，PSOC异常导致9560-8i RAID卡搭配电容时，会出现BBU反复掉线、上线的现象。解决方案 1、按照要求更新配套的PSOC和FW的固件版本。

SE_Gao 2025-11-21

22 0 0
服务器

鲲鹏服务器组建ceph群集顺序写性能问题

问题描述客户使用12台鲲鹏服务器搭建ceph群集，群集规模： 12个服务器节点，每个节点12块盘，public平面带宽 50000Mb/s，cluster平面带宽50000Mb/s 12台客户端，前11台客户端每台7个卷,最后1台客户端1个卷，共计78个卷预期结果:12*50000/(3-1)*0.8/8=30000MB/S 而多次都未达到理论值的70%:30000*0.7=21000MB/S 实际测试结果:18977.07MB/S ，不达标无法正式上线。处理过程 1、检查CPU负载情况 2、通过服务器网卡打流，检查网卡打流结果均正常； 3、修改服务器numa，由4numa改为2numa，后重新测试依旧无效果； 4、通过修改加大测试脚本的线程数，测试略有提升但不明显。 5、通过与客户沟通了解到ceph群集组网情况，发现服务器存在跨交换机组网的情况，建议联系网络人员查看一下网络侧的性能情况。通过对交换机接口性能检查发现，互联端口收发负载不平衡。根因分析得出ceph群集跨交换机组网，因配置问题产生网络瓶颈，导致ceph群集性能下降。解决方案网络工程师对交换机配置检查后，通过优化网络配置后，上联端口负载平衡后，ceph群集再次测试顺序读写性能提升，达到指标值。建议与总结在构建ceph群集系统时建议尽可能不要跨交换机组网，如果无法避免时，一定要做好网络规划和配置检查，减少网络瓶颈对性能的影响。

SE_Gao 2025-11-20

13 0 0
服务器

2288V5服务器报错“the disk DISK0 failure

2288V5服务器报错“the disk DISK0 failure （1）前期验证 1）客户现场配置与合同配置一样，没有差异。 2）客户采用3008 IT RAID卡。 3）出现告警后，客户将2框DISK0硬盘交换后，故障服务器故障现象依旧。交叉验证结果表明，故障现象与硬盘无关。（2）日志分析 iBMC一键收集日志，分析发现DISK告警与RAID卡相关。告警原因： 3008IT RAID卡接直通背板时，Enclosure ID分配为0xffff，该ID与Hdd对象中配置的默认无效ID相同。在硬盘和RAID卡点灯确认对应关系后，在OS重启或者硬盘插拔重新识别时，由于已经保存的识别信息中Enclosure ID为0xffff，被认为是无效值，因此会继续识别。而在后面识别过程中，识别函数会动态检查是否有对应关系建立，这里只会判断RAID卡PD List中的值是否和保存的相等，不区分是否为0xffff，这里会判断为已经识别，所以识别过程直接略过，所以函数最终返回的识别状态仍然为默认的不成功状态。这样导致硬盘Missing告警产生。解决方法：在SML lib层修改 get_pd_list接口，对于硬盘Eid为0xffff的情况，将该ID转换成另外一个非0xffff的值，并且保证与PD List中的其他Eid不重复结论： V5服务器配置3008 IT时，概率性出现BMC误报disk failure现象。解决方案： V5服务器配置3008 IT时，概率性出现BMC误报disk failure现象。解决方案： 3008 IT卡升级FW解决。

SE_Zhang 2025-11-14

97 0 0
服务器

机房供电异常导致服务器电源频繁产生AC Lost告警

机房供电异常导致服务器电源频繁产生AC Lost告警问题现象描述问题现象：某局点多台RH2288 V2（配置750W金牌电源）反复出现电源AC lost告警产生与恢复事件，如图5-94所示，业务运行正常。图5-94 电源AC lost告警产生与恢复关键过程、根本原因分析关键过程：管理软件iMana读取到电源寄存器0X04信息为input loss，如图5-95所示，对外上报AC LOST，以提示用户排查设备供电环境是否正常。通过示波器接入客户现场供电环境进行检测，组网示意图如图5-96所示。通过分析捕获到的电源波形，如图5-97所示，发现两个问题： L-N输入电压的波形畸变比较严重，超过了电源能承受的10%的规格范围。 N-PE线之间的电压峰峰值达到20.6V，说明零线与地线电压差畸变极大（即机房接地条件差），导致电源0x04寄存器状态频繁检测到input loss，触发iMana AC lost告警，结论、解决方案及效果定位结论：机房电源输入端零线和地线电压差畸变过大导致电源AC Lost告警。解决方案: 优化机房接地，确保零线和地线电压差稳定在2V以内。经验总结、预防措施和规范建议排除iMana误告警的情况下，需要排查供电环境，包括但不限于电源线缆、PDU插座、UPS等供电部件。

SE_Zhang 2025-11-12

75 0 0
服务器

RAID 1主盘有坏块导致重构失败

RAID 1主盘有坏块导致重构失败问题现象描述硬件配置： RH2285服务器+LSISAS1078卡+300G SAS*2。问题现象：两块盘做RAID1，有块硬盘故障，申请新盘替换，重构失败，新更换硬盘亮黄灯。关键过程、根本原因分析关键过程：使用megacli工具收集RAID卡日志信息，发现重构的时候报错： 2218: 14-07-02,02:08:12 Info:State change on PD 03(e0xfc/s3) from HOT SPARE(2) to REBUILD(14) 2219: 14-07-02,02:09:36 Info:Unexpected sense: PD 00(e0xfc/s0) Path 5000cca043200d71, CDB: 28 00 01 c9 3f 00 00 00 80 00, Sense: F0 00 03 01 C9 3F 0C 18 00 00 00 00 11 14 00 80 00 8A 00 00 F7 CC 00 00 00 19 AA 01 08 B6 00 00 2220: 14-07-02,02:09:36 FATAL:Unrecoverable medium error during rebuild on PD 00(e0xfc/s0) at 1c93f0c 2221: 14-07-02,02:09:36 FATAL:Puncturing bad block on PD 03(e0xfc/s3) at 1c93f0c 2257: 14-07-02,02:10:41 WARNING:Error on PD 03(e0xfc/s3) (Error 02) 2258: 14-07-02,02:10:41 Info:State change on PD 03(e0xfc/s3) from REBUILD(14) to FAILED(11) 2259: 14-07-02,02:10:41 CRITICAL:Rebuild failed on PD 03(e0xfc/s3) due to target drive error 根本原因分析：分析日志，发现在重构失败的时候，系统报主盘有坏块，导致重构失败。结论、解决方案及效果解决方案：这种情况可以有两种处理方式：把数据备份，然后重新申请两块硬盘做RAID1，之后把数据拷贝回去，缺点是需要重新安装操作系统以及应用软件。使用dd或者DiskGenius等工具，直接把整个盘数据拷贝到新的RAID组里面，优点是不需要再重新安装操作系统以及软件。经验总结、预防措施和规范建议和1078卡或者2208卡相关问题，一定要使用megacli工具收集RAID……

SE_Zhang 2025-11-11

92 0 0
中间件

关于3650m4memory battery problems were detected的问题

关于3650m4memory battery problems were detected的问题第一种输入：windows按回车 ESC推出第二种操作前，建议把机器的重要数据做好备份。具体解决办法—— ※对于已经做好系统的机器，为了防止数据丢失，以下步骤中的第1,2,7,8步尤其重要关机，拔掉机器的电源线，让机器保持在断电的状态。拔掉机器所有的硬盘，记住硬盘原来所在的槽位。（做好阵列的硬盘，槽位一定不能打乱！）开机，在开机自检的时候按ctrl+H，进入webbios的界面选择配置向导的选项：选择清楚配置信息：退出webbios的界面关机，拔掉机器的电源线，让机器保持在断电的状态。按原槽位把机器的所有硬盘接回，重启机器即可。

SE_Zhang 2025-11-05

36 0 0
服务器

查看服务器硬盘型号，raid配置

查看服务器硬盘型号，raid配置有些情况下系统不是自己装的，raid也不是自己配置的，远程登录系统后可能就不知道系统是否有做raid，raid级别？因此稍微总结一下Linux下查看软、硬raid信息的方法。软件raid：只能通过Linux系统本身来查看 cat /proc/mdstat 可以看到raid级别，状态等信息。依靠Linux本身的话一般是两种方式： # dmesg |grep -i raid # cat /proc/scsi/scsi 上面这两个命令很有用哦！个人比较倾向于用cat /proc/scsi/scsi + fdisk –l 来查看硬盘信息第二行显示raid级别为5 Model: ST3600057SS 显示硬盘型号，查后得知为希捷15K 600G硬盘一共4块，组成raid后总容量应该（4-1）*600=1.8T 我们验证下执行fdisk –l 结果显示和我之前的判断一致。还可以用hdparm -i /dev/sda 命令来显示硬盘信息

SE_Zhang 2025-11-03

54 0 0
服务器

哪些方法可以提高DNS服务器的性能

提高 DNS 服务器性能的核心在于减少查询延迟、降低重复解析压力和优化资源利用，除了配置转发器，还有以下实用方法（以 CentOS/RHEL 上的 BIND 服务为例）：一、启用并优化 DNS 缓存（最有效） DNS 缓存能存储已解析的域名结果，避免重复向外部服务器查询，直接返回本地缓存，大幅提升响应速度。确认 BIND 默认缓存机制BIND 默认启用缓存，缓存文件路径在/etc/named.conf的options区块中定义： ini options { // 缓存文件路径（默认已配置） dump-file "/var/named/data/cache_dump.db"; // 缓存大小限制（默认无上限，建议设置） max-cache-size 100m; // 限制缓存最大100MB }; 优化缓存相关参数在options中添加以下参数，延长缓存有效期（根据业务调整）： ini // 最小缓存时间（秒），低于此值的TTL会被强制提升 min-cache-ttl 300; // 5分钟 // 最大缓存时间（秒），超过此值强制失效 max-cache-ttl 86400; // 24小时验证缓存效果连续两次查询同一域名，第二次响应时间应显著缩短： bash # 第一次查询（无缓存） time dig example.com @127.0.0.1 # 第二次查询（命中缓存） time dig example.com @127.0.0.1 二、合理配置 TTL（生存时间） TTL 决定域名记录在缓存中的保留时间，优化 TTL 可减少无效查询，平衡 “实时性” 和 “缓存效率”。全局默认 TTL：在named.conf中设置默认 TTL（适用于未指定 TTL 的记录）： ini options { default-ttl 3600; // 默认为1小时 }; 针对记录类型调整：静态记录（如企业官网）：TTL 设为86400（24 小时），减少重复解析。动态记录（如电商活动域名）：TTL 设为300（5 分钟），保证及时更新。三、……

SE_Yang 2025-10-31

201 0 0
服务器

如何在CentOS/RHEL系列服务器中配置DNS服务器的转发器

在 CentOS/RHEL 系列服务器中配置 DNS 服务器（BIND 服务）的转发器，主要是通过修改 BIND 的主配置文件，指定当本地 DNS 无法解析域名时，将查询请求转发到其他 DNS 服务器的规则。以下是详细操作步骤：一、环境准备安装 BIND 服务（若未安装）： bash # 安装BIND主程序和工具 yum install -y bind bind-utils 确认 BIND 服务状态： bash # 检查服务是否运行 systemctl status named # 若未运行，启动服务 systemctl start named # 设置开机自启 systemctl enable named 二、配置 DNS 转发器（核心步骤） BIND 的转发器配置通过主配置文件/etc/named.conf实现，该文件定义了 DNS 服务的全局规则。 1. 备份配置文件（重要） bash cp /etc/named.conf /etc/named.conf.bak 2. 编辑主配置文件 bash vi /etc/named.conf 3. 配置转发规则在配置文件的options区块中，添加或修改forwarders（转发目标）和forward（转发模式）参数： ini options { # 监听的IP地址（添加服务器本地IP，允许外部查询） listen-on port 53 { 127.0.0.1; 192.168.1.100; }; # 替换为实际IP # 允许查询的客户端网段（如本地局域网） allow-query { localhost; 192.168.1.0/24; }; # 替换为实际网段 # 配置转发器（目标DNS服务器列表，按优先级排序） forwarders { 8.8.8.8; # 谷歌公共DNS 114.114.114.114; # 国内公共DNS 223.5.5.5; # 阿里云DNS }; # 转发模式（二选一） forward only; # 仅转发：本地不解析，完全依赖转发器（推荐纯转发场景） # forward first; # 优先转发：……

SE_Yang 2025-10-30

19 0 0

首页上一页 1 2 3 4 5 下一页尾页3/22