作者:赵广立 来源:中国科学报 发布时间:2025/6/24 12:25:23
选择字号:
MiniMax技术发布周,秀出自主创新“肌肉”

 

全球人工智能竞赛鼓点正愈发密集,一家来自上海的AI独角兽公司——MiniMax,用一场“技术发布周”,宣告其在基座模型、多模态技术和通用智能体Agent、视频Agent等领域的全面突破,秀出了其在大模型领域自主创新的“肌肉”。

6月17日到23日,MiniMax先后发布了全球首个开源大规模混合架构推理模型MiniMax-M1、视频模型Hailuo-02、MiniMax Agent、国内首个成片创作助手Hailuo Agent和音色设计Voice Design。这一系列密集发布不仅展示了其在大模型领域的技术积累,更是在全球AI进入“下半场”的关键节点,展示了发展AI的另一条道路。

开源MiniMax-M1,重塑成本效益

MiniMax M1的开源,被誉为是“全球首个开源大规模混合架构的推理模型”,其核心价值不仅在于在多个生产力场景中比肩甚至超越顶尖闭源模型,更在于其成本效益和技术创新,为AI的规模化应用提供了新的可能。

例如,其独有的“闪电注意力”(Lightning Attention)混合架构与创新性的CISPO算法,在实现业内最高的100万上下文的输入与业内最长的8万Tokens的推理输出的同时,可大幅提升计算效率。在最新的 Artificial Analysis Intelligence Index 榜单中,MiniMax M1位列全球开源模型第二名。

得益于CISPO算法,M1模型的整个强化学习阶段仅使用了512块英伟达H800 GPU,耗时三周,成本仅为53.5万美元。MiniMax官方表示,这一成本“比最初的预期少了一个数量级”,展示了其技术路线在成本控制上的巨大潜力。

MiniMax-M1发布后在海外引起了开发者的广泛探讨,社交平台X知名AI博主MinChoi评论称,MiniMax-M1是集Manus 、Deep Research、计算机技能和可爱于一体,随即他还展出了自己用MiniMax-M1做的10个有趣案例。美国知名科技媒体 VentureBeat 称为“正在搅动全球模型格局”,并成为当前开源体系下极具代表性的高性价比大模型。

让电影级AI视频创作人人可及

MiniMax发布的新一代视频生成模型Hailuo 02,在对物理世界规律的理解和表现上实现了突破。例如,Hailuo 02的“噪声感知计算重分配架构”(NCR),在将模型参数和训练数据量分别提升3倍和4倍的同时,实现了2.5倍的效率提升。在国际测评榜单Artificial Analysis视频竞技场中,Hailuo-02一经发布便跻身全球第二。

据了解,Hailuo-02一经发布,海外社交媒体上就涌出了许多使用Hailuo 02生成的高难度动作视频,其中一个猫咪跳水的视频在发布5 小时后引起上亿人围观。

MiniMax透露,从2024年8月偶然提供了一个展示视频生成模型的Demo网页,到后续快速推出海螺视频(Hailuo Video)产品,至今为止Hailuo已帮助来自全球200个国家的创作者生成了超过3.7亿个视频。

从“解放大脑”到“解放手脚”

如果说M1和Hailuo-02是MiniMax展示其强大的“发动机”和“眼睛”,那么同步官宣的通用智能体产品——MiniMax Agent,则是这家公司对“AI能力”的深刻思考和交付回答。这个可以完成长程复杂任务的通用智能体,能多步规划出专家级解决方案、能灵活拆解任务需求、并能执行多个子任务从而交付最终结果。

面对“Mag7投资组合双移动平均线策略收益率分析”这类需要大量信息搜集、筛选和验证的开放式任务,MiniMax Agent能够活用多种工具,进行深度网络研究,并最终给出精准、可靠的建议。无论是“新世纪福音战士介绍”的深度解析,还是“卢浮宫”的艺术导览,MiniMax Agent制作的PPT排版灵活、视觉美观,能够将复杂的信息进行清晰的可视化呈现。据悉在MiniMax 内部,该产品已经被使用了两个月,已成为内部超半数员工日常使用的产品。

不同语种都能驾驭的语音模型

技术发布周上还包含语音模型Speech 02上的一个功能更新:Voice Design 音色设计。

简而言之,用户可以通过自然语言来描述自己心中所想的音色实现对多个维度的控制,生成甚至世界上不存在的音色。通过与Speech 02语音模型在链路上相配合,用户在文字转语音中可实现“所需即所得”,以“任意语言、任意口音、任意音色”实现自定义的音色组合。

相关负责人介绍,Voice Design生成声音,解决了语音合成模型行业的两个挑战:精准匹配细分场景下的多样需求、无需复刻他人声音即可无风险实现脑海中音色表达。该负责人认为,这将持续降低全球用户使用AI技术的门槛,让不同语种的人都能驾驭语音模型。

据了解,语音模型Speech-02发布于5月中旬,发布后即登顶国际语音评测榜单Artificial Analysis。MiniMax表示,Speech-01/02两代模型已经帮助用户生成了累计超过1.5亿小时的语音,并与超30个国家的客户实现了合作落地。

分析人士认为,从底层基础模型优化,到开创性的线性注意力混合架构,再到CISPO和NCR等算法与架构的持续迭代,MiniMax的创新呈现出一种“环环相扣、层层递进”的良性循环。这种创新能力证明了,通过算法和架构的深度优化,可以打破“算力—资本”的壁垒。

此外,MiniMax的开源策略更具深意。选择开放其大语言模型的核心能力,MiniMax彰显了中国新一代AI企业的技术自信和开放胸怀。此举将对推动全球AI平权、为开发者提供更多选择大有裨益。

 
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
中麦578黄淮海区创大面积实收高产典型 新型催化剂在工业级大电流密度下稳定运行
脑洞大开!用棉花生产虾青素,真的可以有 人类靠什么成功走出非洲
>>更多
 
一周新闻排行
 
编辑部推荐博文