作者:赵广立 来源:中国科学报 发布时间:2023/11/7 22:19:04
选择字号:
新引擎实现大语言模型推理速度显著提升

 

大语言模型(LLM)的风靡,其应用落地成为各行各业关注的重点。然而,要降低其落地成本,提升LLM推理速度是关键。近日,来自清华大学、上海交通大学、“无问芯穹”团队等的研究者提出了一种LLM推理加速引擎——FlashDecoding++,该引擎同时支持包括NVIDIA和AMD的GPU。相较于斯坦福大学等团队研究者近期提出的FlashDecoding,该引擎推理速度提升明显,例如在NVIDIA A100上相较FlashDecoding提速37%,在NVIDIA和AMD的多GPU后端上相较Hugging Face实现加速2~4倍。

目前,关于FlashDecoding++的介绍论文已被发布在开放获取平台arXiv上。

据测算,OpenAI的ChatGPT线上推理的成本高达每天数百万美元。如何提升LLM推理速度并降低其成本,成为近期产业界和学术界的热点。目前,全球已有来自包括斯坦福大学、NVIDIA、微软、加州大学伯克利分校、商汤科技等的研究团队关注该问题并提出相应方案。

大模型的推理任务一般为根据输入的文字(token),计算生成包括但不限文字的新内容。在此过程中,LLM的推理计算可分为Prefill和Decode两个阶段,其中Prefill阶段通过理解输入文字生成第一个token,Decode阶段则顺序输出后续token。在这两个阶段,LLM推理的计算可被分为注意力计算和矩阵乘计算两个主要部分。

FlashDecoding++的核心思想是,通过异步方法实现注意力计算的真正并行,并针“矮胖”矩阵乘优化加速对Decode阶段计算,进而实现加速推理速度的目标。实践表明,通过加速Prefill阶段的首个token生成速度以及Decode阶段后续token的生成速度,FlashDecoding++可以在长、短文本的生成上均取得加速效果。目前,FlashDecoding++可以实现NVIDIA与AMD等多款GPU后端的LLM推理加速。

FlashDecoding++的共同第一作者包括清华大学硕士生洪可、上海交通大学副教授戴国浩、上海交通大学博士生许珈铭等人,通讯作者为戴国浩和清华大学电子工程系主任、教授汪玉。目前,戴国浩在无问芯穹担任首席科学家,洪可、许珈铭等也在无问芯穹实习。作为AI大模型创业新秀,无问芯穹创立于2023年5月,目标是打造大模型软硬件一体化最佳解决方案。目前,FlashDecoding++ 已被集成于无问芯穹的大模型计算引擎“Infini-ACC”中。在Infini-ACC的支持下,无问芯穹正在开发一系列大模型软硬件一体化的解决方案,其中包含大模型“无穹天权”、软硬件一体机等。

相关论文信息:https://arxiv.org/pdf/2311.01282

 
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
中国天眼:“聆听”宇宙深处 太空有一颗散发诡异气息的“邪恶柠檬”
AI辅助抗体设计进入快车道 冰川消失预计在本世纪中叶达到峰值
>>更多
 
一周新闻排行
 
编辑部推荐博文