近日,DeepSeek开源DeepEP通信框架,展示了其突破性方法在通信效率提升方面的出色表现。不过,在开源社区的讨论中,该技术在RoCE网络环境(即“融合以太网远程直接内存访问”网络,该网络成本更低、适用面更广)中表现不佳的痛点,也引发了社区持续讨论。
5月7日,记者从腾讯公司了解到,腾讯技术团队针对DeepEP通信框架进行了深度优化,使其在多种网络环境下均实现显著性能提升。经测试,优化后的通信框架性能在RoCE网络环境提升100%,InfiniBand 网络(即IB网络)环境提升30%。对此,DeepSeek公开致谢,称这是一次“huge speedup”代码贡献。
截图自DeepSeek技术文档。
?
实现这一深度优化的技术来自腾讯星脉网络团队。据了解,该团队在DeepEP开源后便展开技术攻关,并针对该框架“对双端口网卡带宽利用率不足”和“CPU控制面交互存在时延”的痛点展开研究。
据腾讯星脉网络团队相关负责人介绍,团队在RoCE网络优化方面的突破,首先体现在带宽分配的智能化,确保每条数据通道都能得到充分使用。此举可有效避免带宽浪费,为RoCE网络的性能提升提供了有力支撑;其次,他们还着力解决了GPU通信中的CPU控制瓶颈问题,进一步降低了延迟和能耗,提升了整体通信效率。
同时,针对GPU直接“对话”时存在的传输顺序混乱难题,腾讯提出了“QP内时序锁”机制,使得多个GPU间的数据传输能够精准、按顺序完成,即使同时处理1000多个数据传输任务,DeepEP也能自动理顺先后顺序。
在腾讯的技术优化下,DeepEP不仅在RoCE网络实现性能翻倍,反哺到IB网络时也使原有通信效率再提升30%。据悉,目前该技术已全面开源,并成功应用于腾讯混元大模型等项目的训练推理中;此外,在腾讯星脉与H20服务器构建的高性能环境中,这套方案同样展现出卓越的通用性。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。