来源:Frontiers of Computer Science 发布时间:2024/3/28 12:21:01
选择字号:
FCS  文章精要:北京航空航天大学杨海龙副教授团队——面向申威众核处理器的深度学习张量优化代码生成技术

论文标题:Towards optimized tensor code generation for deep learning on sunway many-core processor

期刊:Frontiers of Computer Science

作者:Mingzhen LI, Changxi LIU, Jianjin LIAO, Xuegui ZHENG, Hailong YANG, Rujun SUN, Jun XU, Lin GAN, Guangwen YANG, Zhongzhi LUAN, Depei QIAN

发表时间:27 Feb 2023

DOI:10.1007/s11704-022-2440-7

微信链接:点击此处阅读微信文章

导读

深度学习框架和硬件平台的蓬勃发展需要高效的深度学习编译器,来屏蔽深度学习框架和底层硬件的多样性,并实现海量深度学习应用的高性能和高可移植性。在现有的深度学习编译器中,TVM因其在不同硬件设备上能够进行多级优化并生成高效代码而得到普遍应用。同时,申威众核处理器因其突出的计算能力在科学计算领域和深度学习领域上具有广泛应用前景。本文结合了深度学习编译器TVM和申威众核处理器的优势,提出了swTVM。它扩展了TVM以支持需要AOT提前编译以及交叉编译的申威编译环境,并在张量代码编译过程充分利用了申威处理器的体系结构特点,如用于众核并行的核组、高访存带宽的DMA传输、低存取延迟的本地设备内存等,从而能够为申威处理器上的深度学习应用生成高效的代码。实验结果表明,与申威处理器上最先的深度学习框架相比,swTVM生成的代码在八个具有代表性的深度学习模型上实现了平均1.79倍的推理延迟改进。特别地,这项工作是第一次从编译器的角度并尝试弥合深度学习和申威处理器之间差距以提升开发效率。我们相信这项工作将鼓励更多人利用申威处理器的计算能力来高效运行深度学习任务。

文章信息