|
|
在接受检验时,AI假说不如人类假说 |
研究表明机器在确定新的研究路径方面仍面临障碍 |
今年5月,美国创业公司FutureHouse的科学家宣布,他们发现了一种可能用于治疗视力丧失的潜在药物。然而,他们却无法完全将这一发现归功于自己。在科学研究的许多环节——从文献检索、假说生成到数据分析,都是由他们团队构建的人工智能(AI)完成的。
图片来源:EOLINTANG/SHUTTERSTOCK; PROSTOCK-STUDIO/ISTOCKPHOTO, ADAPTED BY M. ATAROD/SCIENCE
?
全球范围内,AI正在加速科学研究的进程,部分原因在于它自动化了一项曾被认为是人类独有的创造活动——假说生成。如今,机器可以迅速搜索不断增多的科研文献,找出其中的空白,从而标记出科学家可能会忽略的、富有成效的研究方向。
但这些想法的质量究竟如何?一项同类中迄今规模最大的研究发现,当研究人员通过真实世界测试来检验这些假说并让人类评估者比较结果时,AI生成的假说仍然不如人类生成的假说。但是,两者间差距不大,这种落后局面可能不会持续太久。近期,描述该实验的论文公布于arXiv预印本服务器。
论文指出,AI系统有时会美化其生成的假说,过分强调其潜在重要性。论文作者、美国斯坦福大学的计算机科学博士生司程磊(音译)说,该研究还表明,在判断其所构思想法的可行性方面,AI不如人类。
这项研究得到了赞誉,但也有人对结果持谨慎态度,部分原因在于评判原创性本身非常困难。“新颖性是科学评估的难题,也是同行评审中最困难的任务之一。”美国华盛顿大学的数据科学家kevin West说。
该研究检验了关于自然语言处理(NLP))的假说,NLP是支撑大型语言模型(LLM)等AI工具的基础技术。研究人员让美国初创公司Anthropic开发的LLM模型Claude 3.5 Sonnet,通过分析Semantic Scholar数据库中的NLP研究,生成了数千个想法,并对其中最具原创性的想法进行了排名。随后,研究人员付费聘请NLP专家提出与之竞争的想法。
团队招募了另一组计算机科学家,他们在不知情的情况下,评判这两组想法的新颖性和可行性,结果显示,他们给AI想法的平均评分更高。这是该团队在2024年报告的一个出人意料的发现,当时引起了媒体的关注。
但在研究的第二阶段,情况发生了改变。研究团队通过社交媒体和其他途径进行招募,聘请了一组新的NLP专家,对24个AI生成的想法和19个人类想法进行实验验证。这些实验通常检验提出的算法如何改进LLM的某一方面,例如语言翻译能力。团队再次让专家评判结果的新颖性,在10分制下,AI想法的平均新颖性得分从5.382骤降至3.406,而人类想法的得分仅从4.596下降到3.968。
司程磊说,结果表明了检验假说的重要性。“如果只看想法本身,一些评审专家可能会被某些听起来令人兴奋的词汇所迷惑,但当实际执行代码或对其解读时,你就会意识到,这只是一种对已知技术的新颖表述。”这一担忧在2月一项针对50个AI假说的研究中得到了呼应:评估人员判断其中1/3为抄袭,另有1/3部分借鉴了先前的工作。
美国艾伦AI研究所的首席科学家Dan Weld表示,这项研究“非常令人兴奋”,但也有其局限性。第一,该研究依赖单个LLM,基于大量相关研究生成假说,而不是使用多种AI工具搜索由知名专家撰写的高被引研究。第二,人类也不一定是新颖性的最佳评判者:先前的研究发现,研究人员在给同一篇计算机科学论文评分时,分歧很大。West补充说,一个实验的新颖性最好在经过多年引用积累后再进行评估。
尽管存在疑问,但AI和人类的得分非常接近,这在几年前甚至会让研究人员感到震惊。Weld说,如果最终AI提出了大部分假说,而科学家只能完成无法自动化的部分实验,他不会惊讶。但 West说,如果真是这样,那就剥夺了“科学中最有趣的部分”,留给科学家的是“有时令人头脑麻木”的实验室工作。“科学是一个涉及人类的社会过程。你把人类因素拿走,那还剩下什么?”
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。