23个模型谁更行？解答科学问题排行榜来了—新闻

作者：王方来源：中国科学报发布时间：2025/7/10 15:21:23

选择字号：小中大

23个模型谁更行？解答科学问题排行榜来了

近日，一个基准测试平台显示，由ChatGPT研发团队开发的人工智能（AI）模型o3，被评为解答多个领域科学问题的最佳AI工具。

据《自然》报道，美国艾伦人工智能研究所（Ai2）开发的SciArena平台，依据23个大型语言模型对科学问题的解答进行了排名。102名研究人员则对答案质量进行投票。经超过1.3万次投票，由美国OpenAI公司开发的o3模型，在自然科学、医疗健康、工程学及人文社会科学领域的问题解答中均位列第一。

中国深度求索公司的DeepSeek-R1模型在自然科学问题解答中排名第二，在工程学领域排名第四。美国谷歌公司的Gemini-2.5-Pro模型在自然科学问题解答中排名第三，在工程学和医疗健康领域均排名第五。

Ai2的研究人员Arman Cohan表示，用户对o3模型的偏好可能源于该模型在引用文献时往往会提供大量细节，且能在技术上给出细致的回应。但他指出，目前并不清楚为何不同模型的表现会存在差异。训练数据不同和模型优化目标等因素，或许能在一定程度上解释这种差异。

SciArena是最新开发的用于评估AI模型在特定任务上表现的平台，也是首批利用众包反馈模型在科学任务上表现排名的平台之一。澳大利亚国立大学的Rahul Shome表示：“SciArena促使人们对大型语言模型辅助的文献相关任务进行仔细评估。”

为对这23个大型语言模型进行排名，SciArena平台让研究人员提交科学问题。随后，两个随机选择的模型作出解答，并且这些答案会引用Ai2开发的另一款AI研究工具Semantic Scholar的文献作为支撑。之后，用户会投票决定哪个模型的解答更好、两个模型的解答不相上下或两个模型的表现都很差。

目前，SciArena平台已向公众开放，用户可以免费提出研究问题。所有用户都能收到两个模型的解答，并对它们的表现投票，但只有经过验证且同意相关条款的用户的投票才会被计入排行榜。该公司表示会经常更新此排行榜。

澳大利亚悉尼大学的Jonathan Kummerfeld称，这将有助于研究人员及时了解所在领域的最新文献，“发现那些他们原本可能错过的研究成果”。他补充说，该平台还有可能推动AI模型创新，因为这个排行榜提供了一种透明的方式来衡量进展。

然而，该平台存在一个潜在问题，即对用户参与度的依赖。对此，Cohan表示，该平台是免费的，且包含了最先进的模型，这对用户而言是一种激励。

Shome表示：“阅读大型语言模型生成的论文摘要并不能替代阅读论文本身。”因为它可能与所引论文存在冲突，可能误解术语，也可能无法准确回答问题。

编辑部推荐博文
国自然基金，这项优化让你的申请书更“吸睛”！科学网2026年1月十佳博文榜单公布！科研传播新形态：视频摘要的兴起与生态构建机会总归会有的【EI会议推荐】会议主题：电子信息、计算机等人文社科教育学SSCI，无版面费！更多>>