鲲鹏服务器组建ceph群集顺序写性能问题

问题描述

客户使用12台鲲鹏服务器搭建ceph群集,群集规模:

12个服务器节点,每个节点12块盘,public平面带宽 50000Mb/s,cluster平面带宽50000Mb/s

12台客户端,前11台客户端每台7个卷,最后1台客户端1个卷,共计78个卷

预期结果:12*50000/(3-1)*0.8/8=30000MB/S

而多次都未达到理论值的70%:30000*0.7=21000MB/S

实际测试结果:18977.07MB/S ,不达标无法正式上线。

处理过程

1、检查CPU负载情况

鲲鹏服务器组建ceph群集顺序写性能问题

2、通过服务器网卡打流,检查网卡打流结果均正常;

3、修改服务器numa,由4numa改为2numa,后重新测试依旧无效果;

鲲鹏服务器组建ceph群集顺序写性能问题

4、通过修改加大测试脚本的线程数,测试略有提升但不明显。

鲲鹏服务器组建ceph群集顺序写性能问题

5、通过与客户沟通了解到ceph群集组网情况,发现服务器存在跨交换机组网的情况,建议联系网络人员查看一下网络侧的性能情况。通过对交换机接口性能检查发现,互联端口收发负载不平衡。

鲲鹏服务器组建ceph群集顺序写性能问题

根因

分析得出ceph群集跨交换机组网,因配置问题产生网络瓶颈,导致ceph群集性能下降。

解决方案

网络工程师对交换机配置检查后,通过优化网络配置后,上联端口负载平衡后,ceph群集再次测试顺序读写性能提升,达到指标值。

建议与总结

在构建ceph群集系统时建议尽可能不要跨交换机组网,如果无法避免时,一定要做好网络规划和配置检查,减少网络瓶颈对性能的影响。

阅读剩余
THE END