科学网—最严苛数学能力测试结果出炉：AI不如人类

作者：王方来源：中国科学报发布时间：2026-6-15

选择字号：小中大

最严苛数学能力测试结果出炉：AI不如人类

本报讯 人工智能（AI）迎来了迄今最严苛的数学能力测试。测试结果于6月10日揭晓——参赛的AI模型的解题水平仍不及顶尖数学家。

据《自然》报道，这项测试隶属“首轮求证”（First Proof）项目，旨在评估AI解决复杂数学难题的能力。研究人员向4款AI系统提出10道科研级数学难题，再由相关数学领域的匿名专家评审团对作答结果进行打分。

这次测试首次同时满足三大核心标准：题目均为前沿科研级数学问题、所有题目从未出现在模型训练数据中、由专业数学家评阅。

测试的一大创新在于，所有题目从未出现在任何公开文献或互联网平台上，从根源上避免AI直接复述训练阶段学到的现有内容。10名来自不同数学细分领域的研究人员，各自拿出一道本人研究过程中已解答但尚未公开发表的原创题目。

“首轮求证”项目曾在2月开展过一轮预测试，但测试结果并未得到项目组官方核验，也无法确认AI是否得到过人类协助。美国卡内基·梅隆大学的Jeremy Avigad评价道：“主办方显然经过了周密考量，本次测试的管控更严格，流程也更系统化。”

测试还规定，参赛模型必须为对外公开版本。因此，未正式发布的、美国谷歌公司专为解数学题打造的Aletheia无缘参赛，大型科技企业中仅有OpenAI携GPT 5.5专业版参赛。其余3支参赛队伍均来自高校，分别是美国加州大学洛杉矶分校、美国普林斯顿大学，以及瑞士苏黎世联邦理工学院。

其中，苏黎世联邦理工学院团队的模型表现最佳，10题答对6题。第二名是加州大学洛杉矶分校团队，第三名是OpenAI团队，第四名是普林斯顿大学团队。

此外，苏黎世联邦理工学院团队还初步分析了全员未解出的4道题目。团队成员Johannes Schmitt表示，部分难题缘于AI始终想不到人类解题时用到的某个关键且巧妙的思路，无法补齐最后一环；针对部分题目，模型整体解题方向无误，但没能把所有细节推导完整。

“首轮求证”项目组成员、美国哈佛大学的Lauren Williams认为：“目前无法断定未解出的题目一定是难度更高的题目。我认为它们只是在研究方向、证明思路上和以往公开文献中的内容差距较大。”

这次测试中，各大推理模型依然频繁出现幻觉问题，这也是大语言模型的通病。而且，所有AI作答在文献引用方面都“严重缺失”，全程没有标注来源。

（王方）

《中国科学报》 (2026-06-15 第1版要闻)