本报讯 人工智能(AI)迎来了迄今最严苛的数学能力测试。测试结果于6月10日揭晓——参赛的AI模型的解题水平仍不及顶尖数学家。
据《自然》报道,这项测试隶属“首轮求证”(First Proof)项目,旨在评估AI解决复杂数学难题的能力。研究人员向4款AI系统提出10道科研级数学难题,再由相关数学领域的匿名专家评审团对作答结果进行打分。
这次测试首次同时满足三大核心标准:题目均为前沿科研级数学问题、所有题目从未出现在模型训练数据中、由专业数学家评阅。
测试的一大创新在于,所有题目从未出现在任何公开文献或互联网平台上,从根源上避免AI直接复述训练阶段学到的现有内容。10名来自不同数学细分领域的研究人员,各自拿出一道本人研究过程中已解答但尚未公开发表的原创题目。
“首轮求证”项目曾在2月开展过一轮预测试,但测试结果并未得到项目组官方核验,也无法确认AI是否得到过人类协助。美国卡内基·梅隆大学的Jeremy Avigad评价道:“主办方显然经过了周密考量,本次测试的管控更严格,流程也更系统化。”
测试还规定,参赛模型必须为对外公开版本。因此,未正式发布的、美国谷歌公司专为解数学题打造的Aletheia无缘参赛,大型科技企业中仅有OpenAI携GPT 5.5专业版参赛。其余3支参赛队伍均来自高校,分别是美国加州大学洛杉矶分校、美国普林斯顿大学,以及瑞士苏黎世联邦理工学院。
其中,苏黎世联邦理工学院团队的模型表现最佳,10题答对6题。第二名是加州大学洛杉矶分校团队,第三名是OpenAI团队,第四名是普林斯顿大学团队。
此外,苏黎世联邦理工学院团队还初步分析了全员未解出的4道题目。团队成员Johannes Schmitt表示,部分难题缘于AI始终想不到人类解题时用到的某个关键且巧妙的思路,无法补齐最后一环;针对部分题目,模型整体解题方向无误,但没能把所有细节推导完整。
“首轮求证”项目组成员、美国哈佛大学的Lauren Williams认为:“目前无法断定未解出的题目一定是难度更高的题目。我认为它们只是在研究方向、证明思路上和以往公开文献中的内容差距较大。”
这次测试中,各大推理模型依然频繁出现幻觉问题,这也是大语言模型的通病。而且,所有AI作答在文献引用方面都“严重缺失”,全程没有标注来源。
(王方)
《中国科学报》 (2026-06-15 第1版 要闻)