智源研究院发布大规模并行训练效率提升器—新闻

作者：郑金武来源：中国科学报发布时间：2021/4/22 9:49:03

选择字号：小中大

智源研究院发布大规模并行训练效率提升器

4月21日，北京智源人工智能研究院（简称“智源研究院”）发布大规模并行训练效率提升器TDS。据悉，作为超大规模智能模型系统“悟道”的阶段进展，TDS（Tsinghua/Temporary DeepSpeed）插件将进一步优化现今最流行的DeepSpeed 并行计算框架，从而“多快好省”地训练一个大模型。

据介绍，数据、算法、算力是当前人工智能技术崛起的重要驱动力。利用海量数据训练大规模机器学习模型，有助于人类充分学习数据中蕴含的知识，实现更好的训练效果。

然而，随着训练规模的扩大，单张GPU卡的显存与计算效率已经无法满足训练的需要，通过分布式训练框架实现多GPU并行训练成为了一种新的刚需。为了提升多GPU并行训练的效率，研发更高效的并行计算框架十分必要。

为应对大规模计算集群高效训练方法的需求，智源研究院发挥其在硬件设计、模型架构、编程框架研发等方面的优势，组织智源“悟道”团队科研人员研发了 TDS 插件，对当下主流的并行计算框架进行了优化。

据介绍，TDS 插件重新实现了Deepspeed的流水线，通过适配器模式封装了DeepSpeed 的其它功能，该插件十分易于使用。如果已经完成了对 DeepSpeed 的安装，只需要将TDS的代码拷贝到工程中，然后用以下的方式加载 Deepspeed 库即可。

编辑部推荐博文
国自然基金，这项优化让你的申请书更“吸睛”！科学网2026年1月十佳博文榜单公布！诺奖提名，生化先驱——吴宪院士提出与拓展蛋白变性理论空与不空温柔以待的日子 “香农信息与语义无关”与“人机信息与语义有关”的核心逻辑更多>>