近日,一个基准测试平台显示,由ChatGPT研发团队开发的人工智能(AI)模型o3,被评为解答多个领域科学问题的最佳AI工具。
据《自然》报道,美国艾伦人工智能研究所(Ai2)开发的SciArena平台,依据23个大型语言模型对科学问题的解答进行了排名。102名研究人员则对答案质量进行投票。经超过1.3万次投票,由美国OpenAI公司开发的o3模型,在自然科学、医疗健康、工程学及人文社会科学领域的问题解答中均位列第一。
中国深度求索公司的DeepSeek-R1模型在自然科学问题解答中排名第二,在工程学领域排名第四。美国谷歌公司的Gemini-2.5-Pro模型在自然科学问题解答中排名第三,在工程学和医疗健康领域均排名第五。
Ai2的研究人员Arman Cohan表示,用户对o3模型的偏好可能源于该模型在引用文献时往往会提供大量细节,且能在技术上给出细致的回应。但他指出,目前并不清楚为何不同模型的表现会存在差异。训练数据不同和模型优化目标等因素,或许能在一定程度上解释这种差异。
SciArena是最新开发的用于评估AI模型在特定任务上表现的平台,也是首批利用众包反馈模型在科学任务上表现排名的平台之一。澳大利亚国立大学的Rahul Shome表示:“SciArena促使人们对大型语言模型辅助的文献相关任务进行仔细评估。”
为对这23个大型语言模型进行排名,SciArena平台让研究人员提交科学问题。随后,两个随机选择的模型作出解答,并且这些答案会引用Ai2开发的另一款AI研究工具Semantic Scholar的文献作为支撑。之后,用户会投票决定哪个模型的解答更好、两个模型的解答不相上下或两个模型的表现都很差。
目前,SciArena平台已向公众开放,用户可以免费提出研究问题。所有用户都能收到两个模型的解答,并对它们的表现投票,但只有经过验证且同意相关条款的用户的投票才会被计入排行榜。该公司表示会经常更新此排行榜。
澳大利亚悉尼大学的Jonathan Kummerfeld称,这将有助于研究人员及时了解所在领域的最新文献,“发现那些他们原本可能错过的研究成果”。他补充说,该平台还有可能推动AI模型创新,因为这个排行榜提供了一种透明的方式来衡量进展。
然而,该平台存在一个潜在问题,即对用户参与度的依赖。对此,Cohan表示,该平台是免费的,且包含了最先进的模型,这对用户而言是一种激励。
Shome表示:“阅读大型语言模型生成的论文摘要并不能替代阅读论文本身。”因为它可能与所引论文存在冲突,可能误解术语,也可能无法准确回答问题。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。