FusionCompute 平台多个虚拟机故障

问题描述

一套FusionComputeV100R006C00U1SPC003环境中,同一集群下十台主机先后上报主机与VRM心跳异常告警,导致虚拟机故障恢复中,HA一直不成功,上报HA资源不足告警。

告警信息

1.png

 

2.png

处理过程

登录一台故障主机进行查看,发现主机负载较高,存在D进程(D:不接受任何异步信号的休眠状态)

3.png

4.png

 

看D进程的信息,发现卡在加网络锁的步骤(网络锁用于协调多个主机之间对共享存储的访问,保证在多个主机同时访问存储时,每个主机都能够正确地访问存储数据,避免数据冲突和数据损坏。网络锁的加解锁都需要通过给其他主机发送网络请求实现,依赖主机节点间稳定的网络通信)

5.png

查看最早上报告警的CNA22的message日志,发现其发送释放网络锁的请求失败,返回错误码112和107(代表目标主机不可达和传输端点没有连接),释放锁失败导致其他主机无法获取网络锁。

6.png

进一步分析CNA22释放锁失败的原因,看到CNA22负载较高,导致CNA22网络锁进程异常,无法正常释放锁。

7.png

  1. 分析CNA22负载高的原因,发现该节点已经连续运行2189天,可能导致CPU、内存资源耗尽,引发网络锁进程异常,无法解锁。

download.png

8.png

  1. 因CNA22网络锁无法解锁,其他主机网络锁无法加锁,主机会随时间产生越来越多的D状态进程,完全耗尽主机资源,在心跳进程出现异常时上报主机心跳异常告警,虚拟机进入故障恢复中状态触发HA任务,长时间没有主机可HA虚拟机导致上报HA资源不足告警。

根因

因CNA22长时间运行,CPU、内存资源耗尽,导致网络锁进程异常,释放网络锁失败,进而导致同集群下所有主机无法加锁,持续一段时间后进入故障状态,所有虚拟机变为故障恢复中。重启释放锁失败的CNA22节点,网络锁释放,集群内主机逐步恢复。

解决方案

  1. 建议定期重启主机,一至两年重启一次。
  2. 由于XEN架构版本已EOS,建议将虚拟机业务搬迁至KVM架构的高版本中。
免责声明:本案例仅供参考不提供专业意见。

版权声明:
作者:youlijiang
链接:https://www.cnesa.cn/656.html
来源:正群欣世
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>