MiniMax发布全模态模型“全家桶”—新闻

作者：赵广立来源：中国科学报发布时间：2025/10/31 18:47:37

选择字号：小中大

MiniMax发布全模态模型“全家桶”

10月最后一周，人工智能“独角兽”上海稀宇极智科技有限公司（即MiniMax）掀起了一场AI技术的“全家桶”发布热潮。继开源文本大模型M2之后，MiniMax接连发布视频模型Hailuo 2.3、语音模型Speech 2.6和音乐模型Music 2.0。

10月27日，MiniMax新一代文本大模型MiniMax-M2宣布发布和开源，这款仅有10B激活参数（总参230B）的轻量级模型在全球权威测评榜单Artificial Analysis (AA)上总分冲入全球前五、开源第一，跻身文本模型第一梯队。

在模型定价方面，该模型“高智能，更实惠”，综合成本低至约0.53美元/百万Tokens，不及Claude 4.5 Sonnet的8%，推理速度是其近两倍。MiniMax相关负责人介绍说，M2专为编码与智能体任务深度优化，非常契合新兴多智能体工作流对高效协同与快速响应的需求。

10月28日，MiniMax最新视频生成模型海螺2.3（Hailuo 2.3）正式发布。据介绍，这款在Hailuo 02模型基础上实现全面技术升级的新版本，在动态表现力、风格化呈现以及人物表演细腻度方面取得了显著突破。其技术亮点主要提现在强大的动态表现力、风格化创作能力的显著提升、人物表演的自然度大幅提升3个方面。

在成本控制方面，海螺2.3在提升性能表现的同时保持了Hailuo 02的原有定价水平，实现了”加量不加价”。同时推出的海螺2.3 Fast版本，在保证画质和表现力的基础上大幅提升了生成速度，并采用了更低的定价策略。

MiniMax发布的Speech 2.6模型专门针对Voice Agent场景进行了深度优化，将首包响应时间压缩到250毫秒。除此之外，该模型新增的Fluent Lora功能能够将磕磕巴巴的原始录音复刻成流畅自然的声音。

MiniMax发布的音乐生成模型Music 2.0在人声表现方面实现了新的突破，音色无限接近真实人声，能够驾驭多种唱法和情感风格，支持男女对唱、阿卡贝拉等风格。模型还支持对人声音色的精准控制，可以在保持核心音色的基础上，让同一声音切换不同唱法，实现”一声千变”。此外，在器乐控制方面，Music 2.0能够生成包含主歌、副歌、桥段等逻辑清晰、结构完整的歌曲，单首时长可达5分钟。

“AI技术正在改变越来越多人的工作和创作方式，我们希望成为创作者的全能助手和创新先锋，让每一个灵感都能超越形式的限制。”前述负责人表示。

编辑部推荐博文
国自然基金，这项优化让你的申请书更“吸睛”！科学网2026年1月十佳博文榜单公布！科研传播新形态：视频摘要的兴起与生态构建机会总归会有的【EI会议推荐】会议主题：电子信息、计算机等人文社科教育学SSCI，无版面费！更多>>