谁幻觉最少？InfoQ发布2025推理模型评测报告—新闻

作者：赵广立来源：中国科学报发布时间：2025/5/29 15:46:30

选择字号：小中大

谁幻觉最少？InfoQ发布2025推理模型评测报告

5月29日，极客邦科技双数研究院InfoQ研究中心发布《2025推理模型评测报告》，基于逻辑推理、数学推理、多步推理、语言推理及幻觉控制五大维度，对OpenAI O3、文心X1 Turbo、DeepSeek-R1、Kimi k1.5、Doubao-1.5-thinking-pro、Qwen3-235B-A22B等八款国内外主流推理模型展开评估。报告显示，文心X1 Turbo在幻觉控制和语言推理方面表现更为突出，综合评测结果领先。

幻觉控制TOP5得分情况。图片来源：InfoQ

InfoQ研究中心认为，受“推理时计算拓展”与“可验证奖励强化学习”两大技术范式驱动，全球厂商已进入推理模型密集发布期，OpenAI o1、DeepSeek R1、文心 X1 Turbo、Claude 3.7 Sonnet Reasoning等十余款推理模型相继上线，争夺下一代推理大模型的入场券。

报告显示，文心X1 Turbo在本次评测表现亮眼。在幻觉控制方面，文心X1 Turbo能有效降低模型生成错误或误导性信息的风险，以80.56%的得分名列首位；在语言推理方面，文心X1 Turbo的表现同样不俗，领先于Doubao-1.5-thinking-pro、DeepSeek-R1、Qwen3-235B-A22B等模型；在数学推理方面，文心X1 Turbo紧跟OpenAI O3之后，位居国内模型前列。

报告认为，以DeepSeek-R1、文心X1 Turbo等为代表的国产推理模型实现的技术突破，不仅标志着国产模型在推理能力上的技术进展，更为AI从“内容生成”向“可验证逻辑执行”的跃迁提供了关键支撑。

报告提出，随着技术迭代与场景深化，未来推理模型正把大模型从单纯的“内容生成器”升级为“可验证的逻辑执行器”。伴随着单场景推理深度、跨工具编排广度、在线自进化能力的同步跃升，更多新商业机会正被快速打开。

编辑部推荐博文
国自然基金，这项优化让你的申请书更“吸睛”！科学网2026年1月十佳博文榜单公布！国防科技大学邵长伟等最新论文同济大学施剑林院士、谢冬、唐忠敏等最新论文手把手教您写出 “一眼抓住编辑”的Introduction 深度Q网络算法风冷数据中心多设定点冷却控制法更多>>