鲲鹏服务器组建ceph群集顺序写性能问题
问题描述
客户使用12台鲲鹏服务器搭建ceph群集,群集规模:
12个服务器节点,每个节点12块盘,public平面带宽 50000Mb/s,cluster平面带宽50000Mb/s
12台客户端,前11台客户端每台7个卷,最后1台客户端1个卷,共计78个卷
预期结果:12*50000/(3-1)*0.8/8=30000MB/S
而多次都未达到理论值的70%:30000*0.7=21000MB/S
实际测试结果:18977.07MB/S ,不达标无法正式上线。
处理过程
1、检查CPU负载情况
2、通过服务器网卡打流,检查网卡打流结果均正常;
3、修改服务器numa,由4numa改为2numa,后重新测试依旧无效果;
4、通过修改加大测试脚本的线程数,测试略有提升但不明显。
5、通过与客户沟通了解到ceph群集组网情况,发现服务器存在跨交换机组网的情况,建议联系网络人员查看一下网络侧的性能情况。通过对交换机接口性能检查发现,互联端口收发负载不平衡。
根因
分析得出ceph群集跨交换机组网,因配置问题产生网络瓶颈,导致ceph群集性能下降。
解决方案
网络工程师对交换机配置检查后,通过优化网络配置后,上联端口负载平衡后,ceph群集再次测试顺序读写性能提升,达到指标值。
建议与总结
在构建ceph群集系统时建议尽可能不要跨交换机组网,如果无法避免时,一定要做好网络规划和配置检查,减少网络瓶颈对性能的影响。
阅读剩余
版权声明:
作者:SE_Gao
链接:https://www.cnesa.cn/9006.html
文章版权归作者所有,未经允许请勿转载。
THE END