|
|
谁幻觉最少?InfoQ发布2025推理模型评测报告 |
|
5月29日,极客邦科技双数研究院InfoQ研究中心发布《2025推理模型评测报告》,基于逻辑推理、数学推理、多步推理、语言推理及幻觉控制五大维度,对OpenAI O3、文心X1 Turbo、DeepSeek-R1、Kimi k1.5、Doubao-1.5-thinking-pro、Qwen3-235B-A22B等八款国内外主流推理模型展开评估。报告显示,文心X1 Turbo在幻觉控制和语言推理方面表现更为突出,综合评测结果领先。
幻觉控制TOP5得分情况。图片来源:InfoQ
?
InfoQ研究中心认为,受“推理时计算拓展”与“可验证奖励强化学习”两大技术范式驱动,全球厂商已进入推理模型密集发布期,OpenAI o1、DeepSeek R1、 文心 X1 Turbo、Claude 3.7 Sonnet Reasoning等十余款推理模型相继上线,争夺下一代推理大模型的入场券。
报告显示,文心X1 Turbo在本次评测表现亮眼。在幻觉控制方面,文心X1 Turbo能有效降低模型生成错误或误导性信息的风险,以80.56%的得分名列首位;在语言推理方面,文心X1 Turbo的表现同样不俗,领先于Doubao-1.5-thinking-pro、DeepSeek-R1、Qwen3-235B-A22B等模型;在数学推理方面,文心X1 Turbo紧跟OpenAI O3之后,位居国内模型前列。
报告认为,以DeepSeek-R1、文心X1 Turbo等为代表的国产推理模型实现的技术突破,不仅标志着国产模型在推理能力上的技术进展,更为AI从“内容生成”向“可验证逻辑执行”的跃迁提供了关键支撑。
报告提出,随着技术迭代与场景深化,未来推理模型正把大模型从单纯的“内容生成器”升级为“可验证的逻辑执行器”。伴随着单场景推理深度、跨工具编排广度、在线自进化能力的同步跃升,更多新商业机会正被快速打开。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。