作者:赵广立 来源:中国科学报 发布时间:2025/5/8 17:12:24
选择字号:
框架开源后获优化,DeepSeek公开致谢腾讯

 

近日,DeepSeek开源DeepEP通信框架,展示了其突破性方法在通信效率提升方面的出色表现。不过,在开源社区的讨论中,该技术在RoCE网络环境(即“融合以太网远程直接内存访问”网络,该网络成本更低、适用面更广)中表现不佳的痛点,也引发了社区持续讨论。

5月7日,记者从腾讯公司了解到,腾讯技术团队针对DeepEP通信框架进行了深度优化,使其在多种网络环境下均实现显著性能提升。经测试,优化后的通信框架性能在RoCE网络环境提升100%,InfiniBand 网络(即IB网络)环境提升30%。对此,DeepSeek公开致谢,称这是一次“huge speedup”代码贡献。

截图自DeepSeek技术文档。

  ?

实现这一深度优化的技术来自腾讯星脉网络团队。据了解,该团队在DeepEP开源后便展开技术攻关,并针对该框架“对双端口网卡带宽利用率不足”和“CPU控制面交互存在时延”的痛点展开研究。

据腾讯星脉网络团队相关负责人介绍,团队在RoCE网络优化方面的突破,首先体现在带宽分配的智能化,确保每条数据通道都能得到充分使用。此举可有效避免带宽浪费,为RoCE网络的性能提升提供了有力支撑;其次,他们还着力解决了GPU通信中的CPU控制瓶颈问题,进一步降低了延迟和能耗,提升了整体通信效率。

同时,针对GPU直接“对话”时存在的传输顺序混乱难题,腾讯提出了“QP内时序锁”机制,使得多个GPU间的数据传输能够精准、按顺序完成,即使同时处理1000多个数据传输任务,DeepEP也能自动理顺先后顺序。

在腾讯的技术优化下,DeepEP不仅在RoCE网络实现性能翻倍,反哺到IB网络时也使原有通信效率再提升30%。据悉,目前该技术已全面开源,并成功应用于腾讯混元大模型等项目的训练推理中;此外,在腾讯星脉与H20服务器构建的高性能环境中,这套方案同样展现出卓越的通用性。

 
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
哈佛认证抗衰清单:红茶+浆果有助逆龄 揭秘超短周期行星系统随时间演化规律
即将迎来 “火炉模式”,这样种树降温5度 《科学》(20250502出版)一周论文导读
>>更多
 
一周新闻排行
 
编辑部推荐博文