服务器
  • RH5485光通路诊断板MEM告警处理

                           RH5485光通路诊断板MEM告警处理 问题现象: 开机,POST(Power On Self Test)到内存初始化阶段,如图5-86所示。 之后出现内存初始化失败的提示,光通路诊断板MEM灯亮,即图5-87红圈所示LED灯被点亮。图5-88中所示操作员信息面板中,系统错误指示灯亮。 图5-89 内存扩展卡指示灯与按钮 关键过程、根本原因分析 关键过程: 首先检查内存系统的故障类型。 假设其中一块内存卡有告警,连同卡上的内存条一起,更换内存卡的槽位。若故障现象跟随内存卡,则说明内存卡或者内存存在物理故障;若故障现象不跟随内存卡,则说明内存或者内存卡没有物理故障。 若内存或者内存卡没有物理故障,则改变内存卡上的内存配置。 假设告警的内存卡上原配4条内存,可减少或者增加内存条;或者服务器原配内存卡超过2块,则可以减少或者增加内存卡。在内存配置更改后,重新启动服务器。此时,系统会重新计算服务器的能耗等参数,再做一次内存校验,并激活原先被Disable掉的内存,使告警消失。告警消失后,恢复原来的内存配置即可。 若内存或者内存卡存在物理故障,则继续定位。 当内存错误指示灯成对点亮时,比如,当DIMM1和DIMM8的Error LED被点亮时,可以交换DIMM1和DIMM3: 若交换后,只有DIMM3 Error LED被点亮 ,则说明原来的DIMM1,也就是交换后在DIMM3上的内存条故障。 若交换后,还是DIMM1和DIMM8上的Error LED点亮,则再交换DIMM6和DIMM8。若交换后,只有DIMM6 Error LED被点亮,则说明原来的DIMM8,也就是交换后在DIMM6上的内存条故障。 若再次交换后,还是DIMM1和DIMM8的Error LED被点亮,则可排除内存条本身的问题,需要更换内存卡。 当内存错误灯单个点亮时,比如,当DIMM1 Error LED被点亮时,可以交换DIMM1和DIMM3 : 若交换后,只有DIMM3 Error LED被点亮,说明原来的DIMM1……

    SE_Zhang 2025-06-26
    82 0 0
  • RH5485光通路诊断板BRD告警处理

    RH5485光通路诊断板BRD告警处理 问题现象描述 光通路诊断板如图5-82和图5-82所示。红框中标注的即为BRD告警灯。BRD告警灯亮表明I/O板或者CPU板出现问题。 图5-81 光通路诊断面板 关键过程、根本原因分析 关键过程: 登录IMM,查看IMM Event Log,发现如有下告警日志: 1499. E -- -- 7/24/2011:16:19:58 -- Fault in slot "No Op ROM Space" on system "SN# 99B5585" 检查PCIe Slot5槽位上是否安装有PCIe设备。如果有,则将其移至其他槽位上。 通过以上步骤,一般可以解决此类BRD告警问题。如果IMM仍报错,且主板集成的网卡不做PXE启动,则进到UEFI disabled网卡的ROM,具体操作如下: 选择“F1 setup > System Settings > Network > XE Configuration”。 选择板载网卡1的MAC地址。 更改“PXE Mode”,设置为“Disabled”。 选择“Save Changes”。 选择板载网卡2的MAC地址。 更改“PXE Mode”,设置为“Disabled”。 选择“Save Changes”。 若BRD告警灯仍然被点亮,则需要根据其他情况,判断是I/O板还是CPU板出现故障,并将故障件更换掉。 结论、解决方案及效果 定位结论: 若服务器PCIe Slot5上安装有PCIe设备,且服务器配置了BR10i RAID卡,则可能导致BRD告警。 若服务器7个PCIe槽位上都安装了PCIe设备,则可能导致BRD告警。 若服务器PCIe Slot5上未安装PCIe设备,则BRD告警是由于CPU板或者I/O板故障导致。 解决方案: 若是PCIe Slot5上的PCIe设备导致的BRD告警,只需要将该PCIe设备从Slot5上移除至其他PCIe槽位即可。 若是7个PCIe槽位满配了PCIe设备,导致BRD告警,则建议将不用的PCIe设备移除。 若是CPU板或者I/O板故障导致的BRD告警,则需要更换相应的故障板。 经验总结、预防措施和规范建议 经验总结:遇上光通路诊断板BRD告警,先检查PCIe设备是否满配,PCIe Slot5上是否有PCIe设备,R……

    SE_Zhang 2025-06-24
    41 0 0
  • 【国产中科可控R6240H0服务器配置虚拟化以及RAID】

    一、开启CPU虚拟化 将IOMMU以及SR-IOV Support配置为Enabled。 选择NB Configuration,按住ctrl+F11。 2、配置启动模式为UEFI 默认为UEFI,如果修改为Legacy,会导致无法配置RAID以及无法识别U盘(可尝试重新制作U盘启动盘)。 3、开启上电自启 选中Restore on AC power loss-->Always on 4、关闭CPU性能模式,开启性能最佳。 BIOS→HYGON CBS -> CPU Common Options -> Custom Core Pstates -> Accept -> Fix Pstate-P0性能最高。 5、配置RAID 系统盘配置为RAID 1,其他盘配置为JBOD。 6、其他配置参考

    SE_Meng 2025-06-24
    436 0 0
  • RH2285服务器自动进入BIOS Setup界面

                   RH2285服务器自动进入BIOS Setup界面 问题现象描述 服务器在每次启动时高概率自动进入BIOS setup界面,不能进行OS引导。 关键过程、根本原因分析 确定键盘是正常的,且没有按压“~”键或“Delete”键。 确定服务器内部如图5-75所示位置从右往左数第三对跳针上没有跳帽。 图5-75 跳针位置 跳帽用作系统串口和管理串口的切换。当插上跳帽时,DB9串口连接器是管理串口功能;当没有跳帽时,DB9串口连接器是系统串口功能,并有一个向服务器发送串口数据的外围设备,如图3-99所示。 图5-76 串口位置 当BIOS中开启串口重定向“Remote Access”时,连接在DB9串口上的外设向服务器发送串口数据。RH2285/E6000串口程序仅有发送/接收功能,外置串口设备没有限定,不断发送数据,在BIOS完成初始化串口之后,串口捕获到“Delete”键对应的ASCII码,误判为有人按“Delete”键进入BIOS设置程序。此时,在POST完成后,BIOS即自动进入setup界面。 结论、解决方案及效果 定位结论: 当BIOS中开启串口重定向“Remote Access”时,连接在DB9串口上的外设向服务器发送串口数据。 解决方案: 方法一:在系统进入OS前先拔掉或者关闭连接在服务器DB9上的串口外设,使其暂时停止向服务器发送数据,待系统进入OS后再连接并开启串口外设。 方法二:进入服务器BIOS,将“Remote Access”设置为“Disable”;此功能项仅是设置POST阶段串口重定向的开关,不影响GRUB阶段和OS kernel的重定向功能。修改方法如下。 进入服务器BIOS,选择“Advanced”页签中的“Remote Access Configuration”,如图5-77所示。 图5-77 Advanced 选中“Remote Access”并按“Enter”键,在弹出的复选框中选择“Disable”,如图5-78和图5 禁用Remote Access所示。 图5-78 Remote Access 图5-79 禁用Remote Access 经验总结、预防措施和规范建议 无

    SE_Zhang 2025-06-23
    69 0 0
  • 开、关机常见问题RH2285插上AC电源线后需按动电源按钮才能上电

                     RH2285插上AC电源线后需按动电源按钮才能上电 问题现象描述 插上AC电源线后,过大约1分钟机器不能自动开机,必须按前面板电源按钮才能开机。 根本原因分析: BIOS中的Restore on AC Power Loss设置成了power off。 Restore on AC Power Loss的三个设置项的含义如下: 结论、解决方案及效果 解决方案: 开机后,长按“Delete”键,进入BIOS,选择“Advanced”页面。 选择“IPMI 2.0 Configuration”,按“Enter”键。 选择“Restore on AC Power Loss”,按“Enter”键,在弹出的三个选项中选择“Power on”并按“F10”保存。 关机,拔下AC电源线,再重新插上AC电源线,问题解决;

    SE_Zhang 2025-06-20
    25 0 0
  • 服务器基础知识详解:从架构到应用的全面解析

    一、服务器的定义与核心功能 服务器是一种为网络中的其他设备(如客户端、终端)提供计算资源、数据存储、应用服务的高性能计算机。与普通 PC 的本质区别在于:   设计目标:专注于高稳定性、高可靠性、高并发处理能力,而非个人娱乐。 硬件配置:采用冗余电源、ECC 内存、RAID 存储等企业级组件,支持 7×24 小时不间断运行。 应用场景:网站托管、数据库服务、云计算平台、大数据分析等。 二、服务器的硬件架构与关键组件 1. 处理器(CPU) 核心需求:多核心、多线程设计,支持高并发任务(如 Intel Xeon、AMD EPYC 系列)。 技术特性:支持超线程(HT)、指令集扩展(如 AVX-512)、虚拟化技术(Intel VT-x/AMD-V)。 2. 内存(RAM) 类型:ECC 内存(错误校验),容量通常为 16GB~1TB,支持内存镜像、热插拔。 关键指标:带宽(如 DDR5-5600)、通道数(四通道 / 八通道),影响数据处理速度。 3. 存储系统 硬盘类型: 机械硬盘(HDD):大容量(4TB+)、低成本,适合冷数据存储。 固态硬盘(SSD):NVMe SSD 读写速度超 3000MB/s,用于数据库、缓存加速。 RAID 技术: RAID 0:条带化,提升读写速度,无冗余。 RAID 1:镜像备份,安全性高,容量减半。 RAID 5/6:奇偶校验,兼顾性能与容错,至少 3 块硬盘。 4. 主板与扩展接口 特性:支持多路 CPU(双路 / 四路主板)、PCIe 4.0 插槽(用于 GPU、网卡扩展)。 管理芯片:集成 BMC(基板管理控制器),支持远程开关机、故障监控。 5. 电源与散热 电源:冗余电源(N+1 备份),效率达 80PLUS 铂金级,支持热插拔。 散热:液冷散热(高密度服务器)或智能风扇调速,避免高温降频。 三、服务器的分类与应用场景 1. 按外形分类 类型 特点 应用场景 塔式服务器 独立机箱,扩展性强,占用空间大,适合中小企业入门级应用。 小型数……

    SE_Yang 2025-06-09
    76 0 0
  • 学习存储技术,该怎么学习?怎么实战?

      01 存储简介及存储方式 01 简介 存储就是根据不同的应用环境通过采取合理、 安全、有效的方式将数据保存到某些介质上并能保证有效的访问。 总的来讲可以包含两个方面的含义: 一方面它是数据临时或长期驻留的物理媒介; 另一方面,它是保证数据完整安全存放的方式或行为。 02 三种常见存储方式 DAS、NAS和SAN 1. DAS DAS(Direct Access Storage —直接连接存储)是指将存储设备通过 SCSI接口或光纤通道直接连接到一台计算机上。DAS这种存储方式与我们普通的 PC存储架构一样,外部存储设备都是直接挂接在服务器内部总线上, 数据存储设备是整个服务器结构的一部分。 DAS存储方式主要适用以下环境: (1)小型网络 因为网络规模较小,数据存储量小,而且也不是很复杂,采用这种存储方式对服务器的影响不会很大。并且这种存储方式也十分经济,适合拥有小型网络的企业用户。 (2)地理位置分散的网络 虽然企业总体网络规模较大,但在地理分布上很分散,通过 SAN或NAS在它们之间进行互联非常困难,此时各分支机构的服务器也可采用 DAS存储方式,这样可以降低成本。 (3) 特殊应用服务器 在一些特殊应用服务器上,如微软的集群服务器或某些数据库使用的原始分区,均要求存储设备直接连接到应用服务器。 DAS存储的局限性: 直连式存储依赖服务器主机操作系统进行数据的 IO读写和存储维护管理,数据备份和恢复要求占用服务器主机资源(包括 CPU、系统IO等),数据备份通常占用服务器主机资源 20-30%,因此许多企业用户的日常数据备份常常在深夜或业务系统不繁忙时进行,以免影响正常业务系统的运行。 直连式存储的数据量越大,备份和恢复的时间就越长,对服务器硬件的依赖性和影响就越大。 直连式存储与服务器主机之间的连接通道通常采用 SCSI(小型计算机系统接口,是一种智能的通用接口标准)连接,带宽为 10MB/s……

    SE_YJ 2025-06-09
    68 0 0
  • 什么是服务器?带你了解理解服务器的原理与作用

    一、服务器的核心原理:从硬件到服务的逻辑架构 1. 硬件层面:为高负载场景设计的基础设施 核心组件特性: CPU:多采用多核处理器(如 Intel Xeon、AMD EPYC),支持并行计算,部分场景集成 AI 加速芯片(如 NVIDIA GPU、TPU)。 内存:大容量 ECC(错误校验)内存,确保数据传输稳定性,常见配置 128GB+。 存储:采用 RAID(磁盘阵列)技术(如 RAID 5/10),兼顾速度与容灾,SSD/HDD 混合部署或全 NVMe SSD 提升 IO 性能。 网络接口:标配千兆 / 万兆网卡,支持负载均衡和冗余,部分场景集成 InfiniBand 高速网络(如数据中心内部通信)。 电源与散热:冗余电源设计(N+1 备份),高密度散热模组(风扇矩阵、液冷技术),确保 7×24 小时不间断运行。 物理形态分类: 塔式服务器:独立机箱,适合中小企业小规模部署(如本地文件服务器)。 机架式服务器:标准 1U/2U 机架安装,节省空间,便于数据中心规模化管理。 刀片服务器:模块化设计,多节点共享电源和网络模块,适用于高密度计算集群(如云计算中心)。 2. 软件层面:服务响应的逻辑闭环 操作系统: 主流选择:Linux(如 CentOS、Ubuntu Server)、Windows Server、FreeBSD,具备权限控制、进程管理和驱动支持。 特性:支持多用户并发、服务守护进程(Daemon)、系统日志审计。 服务软件与协议: Web 服务:Apache/Nginx 解析 HTTP/HTTPS 请求,动态内容由 PHP/Python/Java 后端处理(如 LAMP 架构)。 数据库服务:MySQL/PostgreSQL 管理结构化数据,MongoDB/Cassandra 处理非结构化数据,通过 SQL/NoSQL 协议交互。 远程访问:SSH(Linux)/RDP(Windows)实现远程管理,API 接口支持自动化运维(如 Ansible、Puppet)。 架构模型: C/S(客户端 - 服务器)架构:客户端发送请求(如浏览器访问网页),服务器解析并返回响应(如 HTML ……

    SE-YangYao 2025-06-06
    120 0 0
  • 戴尔服务器硬盘显示foreign状态

    要清除阵列卡的foreign状态,可以按照以下步骤进行: ‌进入RAID设置界面‌:重启服务器,按“Ctrl+R”进入RAID设置界面。 ‌查看硬盘状态‌:在PD Mgmt中查看硬盘状态,若显示为“foreign”,需进行后续操作。 ‌导入Foreign配置‌:在VD Mgmt下,选择foreign config的Import选项,避免使用Clear Config。 ‌清除Foreign信息‌:若需清除,选择Clear ForeignConfiguration并确认。 ‌保存并重启‌:保存设置,重启服务器,检查硬盘状态。

    SE_Zhang 2025-06-03
    1.4K+ 0 0
  • 服务器的维护与操作

    一、硬件维护 1. 日常物理检查 外观与状态:观察服务器指示灯(电源、硬盘、风扇等)是否正常,有无报错灯(如红色告警灯)。 硬件运行声音:监听风扇、硬盘是否有异响(如异常噪音可能是风扇故障或硬盘损坏前兆)。 温度与散热:检查机房或机柜温度(建议 20℃~25℃),清理风扇、散热孔灰尘,避免因积尘导致过热。 2. 硬件故障排查与更换 冗余部件监控:定期检查 RAID 阵列状态、双电源 / 双网卡是否正常工作,及时更换故障硬盘、电源等部件。 备件管理:储备常用备件(如硬盘、内存、电源),确保故障时快速更换,减少停机时间。 3. 硬件升级 根据业务增长需求,升级 CPU、内存、存储容量或更换更高效的网卡,提升服务器性能。 二、系统与软件维护 1. 操作系统维护 补丁管理:定期安装系统安全补丁和更新(如 Windows Update、Linux yum/apt-get 更新),修复漏洞(尤其是高危漏洞)。 系统优化:关闭不必要的服务和端口,调整内核参数(如 Linux 的 sysctl.conf),优化资源分配(CPU / 内存调度)。 日志分析:查看系统日志(如 /var/log/syslog、eventvwr),排查异常登录、服务崩溃等问题。 2. 应用程序维护 软件更新:及时升级数据库(如 MySQL/PostgreSQL)、Web 服务器(如 Nginx/Apache)、中间件等,确保兼容性和安全性。 配置备份:备份关键配置文件(如 nginx.conf、数据库配置),避免误操作导致服务中断。 三、安全维护 1. 防火墙与入侵检测 防火墙配置:使用 iptables、FirewallD(Linux)或 Windows 防火墙,仅开放必要端口,禁止公网直接访问管理端口(如 SSH、RDP)。 入侵检测系统(IDS/IPS):部署 Wazuh、Snort 等工具,监控异常流量和攻击行为,及时阻断恶意访问。 2. 身份与权限管理 用户账户审计:定期清理闲置账户,禁用默认账户(如 root/administrator)直接登录,使用……

    SE-YangYao 2025-05-17
    105 0 0