作者:郑金武 来源:中国科学报 发布时间:2021/4/22 9:49:03
选择字号:
智源研究院发布大规模并行训练效率提升器

 

4月21日,北京智源人工智能研究院(简称“智源研究院”)发布大规模并行训练效率提升器TDS。据悉,作为超大规模智能模型系统“悟道”的阶段进展,TDS(Tsinghua/Temporary DeepSpeed)插件将进一步优化现今最流行的DeepSpeed 并行计算框架,从而“多快好省”地训练一个大模型。

据介绍,数据、算法、算力是当前人工智能技术崛起的重要驱动力。利用海量数据训练大规模机器学习模型,有助于人类充分学习数据中蕴含的知识,实现更好的训练效果。

然而,随着训练规模的扩大,单张GPU卡的显存与计算效率已经无法满足训练的需要,通过分布式训练框架实现多GPU并行训练成为了一种新的刚需。为了提升多GPU并行训练的效率,研发更高效的并行计算框架十分必要。

为应对大规模计算集群高效训练方法的需求,智源研究院发挥其在硬件设计、模型架构、编程框架研发等方面的优势,组织智源“悟道”团队科研人员研发了 TDS 插件,对当下主流的并行计算框架进行了优化。

据介绍,TDS 插件重新实现了Deepspeed的流水线,通过适配器模式封装了DeepSpeed 的其它功能,该插件十分易于使用。如果已经完成了对 DeepSpeed 的安装,只需要将TDS的代码拷贝到工程中,然后用以下的方式加载 Deepspeed 库即可。

 
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
银河系发现巨大黑洞 史上最亮伽马射线暴来自一颗坍缩的恒星
中国天眼揭秘宇宙“随机烟花” 导师:年年审毕业论文,总有这些问题!
>>更多
 
一周新闻排行
 
编辑部推荐博文