大语言模型(LLM)的风靡,其应用落地成为各行各业关注的重点。然而,要降低其落地成本,提升LLM推理速度是关键。近日,来自清华大学、上海交通大学、“无问芯穹”团队等的研究者提出了一种LLM推理加速引擎——FlashDecoding++,该引擎同时支持包括NVIDIA和AMD的GPU。相较于斯坦福大学等团队研究者近期提出的FlashDecoding,该引擎推理速度提升明显,例如在NVIDIA A100上相较FlashDecoding提速37%,在NVIDIA和AMD的多GPU后端上相较Hugging Face实现加速2~4倍。
目前,关于FlashDecoding++的介绍论文已被发布在开放获取平台arXiv上。
据测算,OpenAI的ChatGPT线上推理的成本高达每天数百万美元。如何提升LLM推理速度并降低其成本,成为近期产业界和学术界的热点。目前,全球已有来自包括斯坦福大学、NVIDIA、微软、加州大学伯克利分校、商汤科技等的研究团队关注该问题并提出相应方案。
大模型的推理任务一般为根据输入的文字(token),计算生成包括但不限文字的新内容。在此过程中,LLM的推理计算可分为Prefill和Decode两个阶段,其中Prefill阶段通过理解输入文字生成第一个token,Decode阶段则顺序输出后续token。在这两个阶段,LLM推理的计算可被分为注意力计算和矩阵乘计算两个主要部分。
FlashDecoding++的核心思想是,通过异步方法实现注意力计算的真正并行,并针“矮胖”矩阵乘优化加速对Decode阶段计算,进而实现加速推理速度的目标。实践表明,通过加速Prefill阶段的首个token生成速度以及Decode阶段后续token的生成速度,FlashDecoding++可以在长、短文本的生成上均取得加速效果。目前,FlashDecoding++可以实现NVIDIA与AMD等多款GPU后端的LLM推理加速。
FlashDecoding++的共同第一作者包括清华大学硕士生洪可、上海交通大学副教授戴国浩、上海交通大学博士生许珈铭等人,通讯作者为戴国浩和清华大学电子工程系主任、教授汪玉。目前,戴国浩在无问芯穹担任首席科学家,洪可、许珈铭等也在无问芯穹实习。作为AI大模型创业新秀,无问芯穹创立于2023年5月,目标是打造大模型软硬件一体化最佳解决方案。目前,FlashDecoding++ 已被集成于无问芯穹的大模型计算引擎“Infini-ACC”中。在Infini-ACC的支持下,无问芯穹正在开发一系列大模型软硬件一体化的解决方案,其中包含大模型“无穹天权”、软硬件一体机等。
相关论文信息:https://arxiv.org/pdf/2311.01282
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。