近日,西北农林科技大学信息工程学院智能计算与农业信息系统团队刘斌教授携其课题组在国际计算机体系结构领域权威期刊《IEEE Transactions on Computers》(TC,CCF A类期刊)上发表研究论文。
该论文由西北农林科技大学携手美国纽约州立大学和云南大学联合发表。西北农林科技大学信息工程学院教授刘斌担任第一作者,纪泽宇老师与云南大学副教授何臻力共同担任通讯作者,纽约州立大学教授李克勤(欧洲科学院院士,并行与分布式计算领域公认的顶尖学者,国家特聘教授)作为重要合作者,使本次研究成果更具国际影响力。
论文针对当前大规模深度卷积神经网络(DCNN)大模型训练中负载不均衡和高通信开销的难题,提出了一种创新的混合并行训练方法——GroPipe。该方法首次将流水线模型并行与数据并行相融合,构建“组内流水线+组间数据并行”的分层训练架构,并通过自动模型划分算法(AMPA)实现计算负载的动态均衡调度,大幅提升GPU资源利用率。
GroPipe方法整体框架图。西北农林科技大学供图
?
为了进一步降低数据并行同步通信代价,GroPipe在反向传播阶段引入“基于分组的延迟异步通信”策略,延迟梯度同步操作,有效减轻全局通信带宽压力,显著提升训练吞吐量。实验证明,在ImageNet数据集上,GroPipe方法相较于主流方案(如DP、Torchgpipe、DAPPLE和DeepSpeed)表现出卓越优势:ResNet系列平均加速比达42.2%,VGG系列达79.2%;在BERT-base模型训练中,性能提升最高可达51%。该成果展示了GroPipe在图像与文本领域的广泛适用性。
这一成果的发表标志着西北农林科技大学在计算机体系结构领域的A类国际顶级学术期刊——《IEEE Transactions on Computers》(创刊于1952年)上实现了历史性突破。
相关论文信息:https://doi.org/10.1109/TC.2025.3566869
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。