|
|
做数学题,人工智能与人类高手不相上下 |
AlphaGeometry2达到国际奥数金牌选手水平 |
一年前,美国谷歌旗下DeepMind公司开发的人工智能问题解决器AlphaGeometry,在国际数学奥林匹克竞赛(IMO)中达到银牌选手水平,震惊了世界。IMO是为有天赋的高中生设置的难度极高的数学竞赛。
图片来源:Sebastien Bozon/AFP via Getty
?
DeepMind团队现在表示,系统升级后的AlphaGeometry2的性能已经超过了IMO金牌选手的水平。2月5日,相关研究成果公布于预印本服务器arXiv。
英国伦敦帝国理工学院的数学家Kevin Buzzard说:“我想用不了多久,计算机就能在IMO上获得满分了。”
欧几里得几何问题是IMO的四个主题之一,其他主题包括数论、代数和组合学的分支。几何对人工智能有特殊的要求,因为参赛者必须为平面几何对象的陈述提供严谨的证明。去年7月,AlphaGeometry2与新推出的AlphaProof系统一起公开亮相,后者是DeepMind为解决IMO的非几何问题而开发的。
AlphaGeometry由包括专用语言模型、“神经符号”系统在内的多个组件组成。“神经符号”系统不像神经网络那样通过学习数据来训练,而是由人类编码抽象推理。该团队训练专用语言模型使用形式化的数学语言,这使得它可以自动检查其输出的逻辑严谨性,并剔除人工智能聊天机器人容易产生的“幻觉”,即不连贯或错误的陈述。
对于AlphaGeometry2,该团队进行了几项改进,比如,集成了谷歌最先进的大型语言模型Gemini。此外,还引入了通过在平面上移动几何对象进行推理的能力,例如,沿直线移动一个点以改变三角形的高度,并求解线性方程。
该系统能够解决过去25年IMO中84%的几何问题,而第一代AlphaGeometry只能解决54%。
DeepMind的研究人员表示,AlphaGeometry未来的改进将包括处理涉及不等式和非线性方程的数学问题,这将需要“完全解决几何问题”。
第一个在整体测试中达到金牌分数的人工智能系统可能会赢得“人工智能奥数奖”的500万美元奖金。不过,该竞赛要求系统是开源的,而DeepMind并非如此。
Buzzard说,尽管这些问题很难,但这门学科在概念上仍然很简单,在人工智能能够解决研究数学层面的问题之前,还有许多挑战需要克服。
人工智能研究人员热切期待今年7月在澳大利亚阳光海岸举行的下一届IMO。一旦问题对人类参赛者公开,AI系统也有机会解决这些问题。不过,人工智能不允许参加比赛,因此没有资格获得奖牌。
相关论文信息:https://arxiv.org/abs/2502.03544v1
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。