作者:赵广立 来源:中国科学报 发布时间:2025/6/17 19:31:17
选择字号:
百万级Tokens长文本推理模型,宣布开源

 

6月17日,总部位于上海的AI独角兽企业MiniMax向开源社区投下一枚“重磅炸弹”:正式发布其自主研发的MiniMax-M1系列模型,并宣布开源。据悉,这是行业首个开源的大规模混合架构推理模型。

该模型的技术报告显示,M1模型在处理百万级Tokens的长文本上实现了重要突破,成为上下文最长的推理模型;其强化学习(RL)训练成本下降一个量级,成本仅53万美元(约合380万元),推理效率大大提升;在工具使用场景中,MiniMax-M1-40k领跑开源权重模型,超过Gemini-2.5 Pro。

开源技术报告截图。图源:MiniMax

  ?

MiniMax在开源模型权重的同时,还向社区提供API服务。其定价策略显示,0~32k Tokens和32k-128k Tokens两个档位的定价均低于DeepSeek-R1,超长文本档位(128k-1M Tokens)为输入2.4元/百万Tokens、输出24元/百万Tokens,目前DeepSeek模型尚未覆盖此范围。

此外,MiniMax宣布,在其自有的App和Web端,M1模型将保持不限量免费使用,旨在推动其技术的普及和应用。

模型发布后,MiniMax在业内公认的17个主流评测集上对M1进行了全面“大考”,结果显示,M1在软件工程、长文本理解和工具使用等面向生产力的复杂场景中,优势突出,尤其是在长文本能力方面。

值得注意的是,在绝大多数基准测试中,拥有更长推理能力的M1-80k版本始终优于M1-40k。相关负责人介绍称,这证明了其架构在扩展计算资源时的有效性和可塑性。

该负责人告诉记者,MiniMax-M1的卓越性能根植于其独特的架构设计和算法创新。其中,两大核心技术——线性注意力机制(Lightning Attention)混合构架和更快的强化学习算法“CISPO”,构成了其高效能、低成本的基石。

MiniMax官方提示称,完整的M1模型权重、技术报告均已在Hugging Face和GitHub上开放获取。同时,公司正积极与国家超算平台、vLLM等业界主流开源框架合作,以确保开发者能够轻松、高效地部署和使用M1模型。此外,MiniMax还称,在接下来的四个工作日里,MiniMax计划每天发布一项新的技术或产品更新。

 
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
《科学》(20250612出版)一周论文导读 韦布详探两颗地外行星
科学网2025年5月十佳博文榜单公布 最新研究发现早期星系数量比预期多10倍
>>更多
 
一周新闻排行
 
编辑部推荐博文