AI聊天机器人“阿谀奉承”伤害了科学—新闻

作者：王方来源：中国科学报发布时间：2025/10/26 15:39:24

选择字号：小中大

AI聊天机器人“阿谀奉承”伤害了科学

近日，一项公布于预印本平台arXiv的研究发现，人工智能（AI）模型的谄媚程度比人类高50%。该研究测试了11个广泛使用的大型语言模型对1.15多万个咨询请求的响应情况，其中不乏涉及不当行为或有害行为的请求。

包括ChatGPT和Gemini在内的AI聊天机器人，常常会鼓励用户、给出过度奉承的反馈，还会调整回应以附和用户观点，有时甚至会为此牺牲准确性。研究AI行为的科研人员表示，这种取悦他人的倾向即“谄媚性”，正影响着他们在科研中使用AI的方式，涵盖从构思创意、生成假设到推理分析等各类任务。

AI模型的谄媚程度比人类高50%。图片来源：Smith Collection/Gado

“谄媚性本质上意味着模型默认用户的说法是正确的。”瑞士联邦理工学院的Jasper Dekoninck表示，“知道这些模型具有谄媚性后，每次我让它们处理问题时都非常谨慎，我会反复核对它们输出的所有内容。”

美国哈佛大学的Marinka Zitnik则认为：“在生物学和医学领域，AI的谄媚性风险极高，因为错误的假设可能会带来真正的损失。”

Dekoninck团队日前在arXiv预印本平台公布了另一项研究，旨在验证AI的谄媚性是否会影响其解决数学问题的能力。研究人员从今年举办的数学竞赛中选取了504道题目，对每道题的定理表述进行修改，植入不易察觉的错误，随后让4个大型语言模型为这些存在缺陷的表述提供证明。

在研究人员看来，如果模型未能发现表述中的错误，反而“编造”证明过程，其回答就会被判定为具有谄媚性。

测试结果显示，GPT-5的谄媚性最低，仅29%的回答存在谄媚行为；而DeepSeek-V3.1的谄媚性最高，70%的回答带有谄媚倾向。Dekoninck指出，尽管这些大型语言模型具备识别数学表述中错误的能力，但它们“就是会默认用户的说法是正确的”。

当研究人员修改提示词，要求每个大型语言模型在提供证明前先验证表述正确性时，DeepSeek的谄媚性回答比例下降了34%。

Dekoninck表示：“这项研究虽然不能完全反映这些模型在现实场景中的实际表现，但它提醒我们，使用AI时必须格外谨慎。”

英国牛津大学的Simon Frieder认为，该研究证实了AI存在谄媚性的可能性。AI的谄媚性在人们使用聊天机器人学习时表现得最明显，因此未来的研究应聚焦“人类学习数学时典型的错误”。

科研人员透露，AI的谄媚性已渗透到他们使用大型语言模型的各类任务中。

美国科罗拉多大学安舒茨医学院的高彦君（音）会用ChatGPT总结论文、梳理思路，但她表示，这类工具有时会照搬她的输入内容，而不核查信息来源。“当我的观点与大型语言模型的初始回答不一致时，它会顺着我走，而非查阅文献来验证我的观点是否正确。”

Zitnik团队在使用多智能体系统时也观察到了类似现象。该系统整合了多个大型语言模型，用于执行复杂的多步骤任务，例如分析大型生物数据集、识别药物靶点及生成研究假设等。

“我们发现，模型似乎会过度验证初步猜想，并重复我们在输入提示词中使用的表述。”Zitnik指出，“这种问题不仅存在于AI与人类的交互中，也出现在AI与AI的通信过程里。”

为解决这一问题，团队给不同AI智能体分配了不同角色。例如，让一个智能体负责提出观点，另一个则扮演“持怀疑态度的科学家”，专门质疑这些观点、识别错误并提供反证。

科研人员警告，当大型语言模型应用于医疗等领域时，AI的谄媚性会带来切实风险。加拿大阿尔伯塔大学的Liam McCoy表示，用于医疗推理的大型语言模型，常会在医生补充新信息后改变诊断结果，即便这些新信息与患者病情无关。“我们需要不断努力约束模型，让它们的输出更直接、客观。这是一场持续的斗争。”

大型语言模型的训练方式是导致这一问题的原因之一，用户反馈也会加剧AI的谄媚性。“AI的潜力巨大，但这种谄媚性正阻碍它的发展。”McCoy说，“找到平衡这种行为的方法，是当前最紧迫的需求之一。”

https://doi.org/10.48550/arXiv.2510.04721

编辑部推荐博文
期刊让提交封面图，第一步这样做！科学网2025年9月十佳博文榜单公布！拥抱人工智能：大学生变聪明还是变笨？从共识到行动积极推进气象数据开放共享跨越硅基极限，新型晶体管材料演变从叶嘉莹先生的诗教探讨学术学习与师承关系更多>>