1月22日,百度发布并上线原生全模态大模型文心5.0正式版。该模型参数达2.4万亿,采用原生全模态统一建模技术,具备全模态理解与生成能力,支持文本、图像、音频、视频等多种信息的输入与输出。目前,个人用户可在文心APP、文心一言官网体验,企业与开发者可通过百度千帆平台进行调用。
在40余项权威基准的综合评测中,文心 5.0 正式版的语言与多模态理解能力比肩Gemini-2.5-Pro、GPT-5-High等模型,稳居国际第一梯队。图像与视频生成能力与垂直领域专精模型相当,整体处于全球领先水平。
吴甜介绍文心5.0正式版。 百度供图
百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜介绍,与业界多数采用“后期融合”的多模态方案不同,文心5.0的技术路线采用统一的自回归架构进行原生全模态建模,将文本、图像、视频、音频等多源数据在同一模型框架中进行联合训练,使得多模态特征在统一架构下充分融合并协同优化,实现原生的全模态统一理解与生成。
此外,文心5.0采用超大规模混合专家结构,具备超稀疏激活参数,激活参数比低于3%,在保持模型强大能力的同时,有效提升推理效率。同时,基于大规模工具环境,合成长程任务轨迹数据,并采用基于思维链和行动链的端到端多轮强化学习训练,显著提升了模型的智能体和工具调用能力。
得益于原生全模态建模,文心5.0在多模理解、代码、创意写作等能力上实现显著突破。大会现场,仅输入一段博主复刻“活了么”App教程视频,文心5.0便能自动拆解步骤,理解核心交互逻辑,并直接生成可运行的前端代码。在创意写作任务中,还能模拟《红楼梦》中王熙凤的语言风格,生成融合古典语境与现代商业逻辑的“大观园资产重组方案”,展现出较强的情境理解与创作能力。
吴甜现场介绍了“文心导师”计划的最新进展。文心导师队伍持续壮大,目前已吸纳835位来自科技、金融、文化、教育、医疗、能源等十余个重点行业以及数理化生文史哲等学科的专家,在知识传授、鉴赏评价、专业校准方面对大模型进行指导,帮助模型在逻辑严谨性、专业深度、创意质量和价值观对齐等方面不断精进。
据了解,2025年11月,百度发布文心大模型5.0并上线Preview版本。此后,文心5.0系列模型多次登上LMArena全球大模型竞技场,跻身国际第一梯队。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。