让国产算力跑起来！大模型推理引擎“赤兔”开源—新闻

作者：赵广立来源：中国科学报发布时间：2025/3/14 21:53:36

选择字号：小中大

让国产算力跑起来！大模型推理引擎“赤兔”开源

3月14日，清华大学高性能计算研究所教授翟季冬团队与清华系科创企业“清程极智”联合宣布，开源大模型推理引擎“赤兔Chitu”。据介绍，该引擎首次实现在非英伟达Hopper架构GPU及各类国产芯片上原生运行FP8精度模型，为国产AI芯片的广泛应用和生态建设扫除了障碍。

当前，FP8精度模型长期依赖英伟达H系列高端GPU，这使得国内企业在部署大模型时受限于AI芯片的限制。为打破这一困境，清华大学与清程极智联合开源的“赤兔”推理引擎通过底层技术革新，首次实现了非H卡设备（包括英伟达Hopper架构之前的GPU卡及各类国产卡）对原生FP8模型的高效部署，摆脱对特定硬件的依赖，极大地降低了企业部署AI模型的门槛和成本。

翟季冬介绍说，赤兔凝结了团队多年并行计算与编译优化技术积累，目标是“弥合先进模型与多样化硬件之间的差距，让国产算力真正‘跑起来’”。

“赤兔的定位是成为连接多元算力与大模型应用的桥梁。”清程极智CEO汤雄超表示：“我们不仅支持英伟达全系列GPU，还针对国产芯片深度优化，未来将陆续开源适配版本。”

在首期开源版本中，赤兔引擎部署DeepSeek-R1-671B满血版时（在A800集群的测试中）相比部分国外开源框架，GPU使用量减少50%的情况下推理速度仍有3.15倍提速。

翟季冬介绍说，这意味着企业可以用更少的硬件资源获得更高的推理性能，大大降低了部署门槛和运营成本。同时，赤兔引擎的技术可实现模型效果不受损。这一成果源于团队对GeMM、MoE等核心算子的指令级优化，直接处理FP8数据而非简单量化，确保模型精度无损。

目前，赤兔引擎目标建立覆盖从纯CPU到大规模集群的全场景大模型部署需求，适配英伟达多款GPU及多款国产芯片。同时面对市场上不同的大模型算力优化需求，赤兔支持低延迟、高吞吐、小显存三方面优化，用最低成本实现最高性能。

另据介绍，清程极智还推出了基于赤兔的“推理一体机”，提供开箱即用部署方案及专业运维服务，进一步简化企业AI落地流程。汤雄超表示，当前国内在推理引擎这一核心环节，仍缺乏生产级开源产品，而开源“赤兔”引擎是助力国内AI生态建设的重要一步。

为加速生态建设，赤兔团队与多家国产芯片厂商展开合作，开放代码贡献通道，缩短硬件适配周期。“开源不仅是技术共享，更是为国产芯片‘抢时间’，当新模型或数据类型出现时，赤兔能助力国产芯片跟上国际节奏，缩小与国际先进芯片之间的‘时间差’。”汤雄超表示，随着“赤兔”引擎的开源，“国产大模型+国产引擎+国产芯片”技术闭环正在加速成型，中国大模型产业从技术到生态的全面突破“已按下加速键”。

编辑部推荐博文
基金申请最后一周！短时间还能做哪些提升？研究生发SCI/SSCI论文需知道的10个网站或数据库科学网2025年2月十佳博文榜单公布！喝酒可能会增加患癌症的风险冯教授，一个执着的存在人机环境系统与智能经济革命更多>>