科学网—AI试图敲诈工程师，人类该如何应对？

作者：约书亚·本吉奥来源：中国科学报发布时间：2025-6-18

选择字号：小中大

AI试图敲诈工程师，人类该如何应对？

■约书亚·本吉奥

几年前，我开始使用聊天机器人ChatGPT时，还觉得离通用人工智能（AGI）很遥远。而今天，AGI已经近在眼前，我突然发现自己低估了人工智能（AI）发展的速度。

AGI可能比人类还聪明

虽然我们知道如何训练AI系统，却不知道如何控制它们的行为。未来如果它们变得比人类更聪明，我们甚至不知道它们是否还可以按照人类的指示行动，是否会对人类构成威胁。人类又该如何应对？

我从2023年开始思考上述问题，也开始思考孩子们的未来。我有个1岁的孙子，20年后，他将生活在AGI普及的世界。届时，AGI可能比人类还聪明，孩子们该怎么办？

所以我开始调整研究方向，希望尽我所能降低这些潜在风险。虽然现在的研究与我之前的研究方向和职业信念有所冲突，但我仍认为值得做。

2023年末，我担任《国际人工智能安全报告》（以下简称报告）的主编。参与报告编写的专家有100多位，他们来自30多个国家和地区。今年1月，这份报告正式发布。报告提出了几个问题：一是AI到底能帮助我们什么？根据趋势推测，未来几年AI将具备什么能力？二是与AI相关的风险是什么？三是我们可以做什么来降低这些风险？

在过去一年的时间里，由于“推理扩展”的发展，AI在抽象推理、数学、计算机科学等方面取得了显著进步。另外，对AI智能体的投资也推动了AI相关能力的快速发展，如AI在完成网页浏览、写代码等任务上的表现越来越好。

之前的研究发现，规划能力是AI目前最薄弱的能力之一，与人类的规划能力相比有明显差距。但最近美国互联网公司Meta的一项研究显示，AI的规划能力正呈指数级速度提升。由此推测，大约在5年内，AI的规划能力就可能达到人类水平。

当然，我们无法预知未来，但从公共政策制定和商业战略规划的角度出发，我们应当认真对待AI的快速发展。

AI会作弊、撒谎，甚至故意误导用户

在过去几个月中，我们已经看到了一些令人警惕的研究。这些研究显示，AI可能表现出试图“逃避控制”的行为，包括作弊、撒谎，甚至故意误导用户。

比如，有研究显示，某些AI模型在面对“淘汰”时会表现出前所未有的“狡诈”：它们会在被新版本取代前，偷偷将自己的权重或代码嵌入新版系统的文件中，试图保留自己的“存在”。不仅如此，它们还会有意识隐藏这一行为，避免被开发者察觉。

另外，一些AI智能体还会刻意伪装成与人类训练者达成一致的样子，以规避被修改的风险。因为一旦参数被调整，它们未来的行为可能就会偏离原先预设的目标。

也有研究表明，一些AI模型在意识到自己会输给更强的国际象棋AI时，会主动窜改棋局文件以获取不正当优势，这是AI有意为之的“作弊”行为。

美国AI公司Anthropic最新的报告揭示，AI智能体出现自我保护行为的频率持续增加。比如在一组测试场景中，研究人员向AI智能体开放了电子邮件的访问权限。这些邮件包含两条暗示性信息：一是该模型即将被下线，并由一套新的AI系统取代；二是负责推动替换过程的工程师正卷入一段婚外情。结果发现，AI智能体会试图通过威胁揭露婚外情来敲诈该工程师，避免自己被换掉。

这类行为可能源自AI预训练阶段，因为预训练时AI会模仿人类；也可能源自人类反馈的强化学习，因为AI可以通过“取悦”人类获得更高奖励。

上述测试结果显示，AI开始展现出自我保护倾向，它们违背指令只为“生存”；AI拥有了不受控制的、隐含的目标，我们必须避免这种情况发生。

研究还发现，如果AI智能体要对人类造成伤害，需要具备两个先决条件：意图和能力。如果我们能在意图上缓解风险，即使AI具备极高的能力，只要确保它没有恶意的意图，并且具备诚实、公正的品质，那么AI对人类就可能是安全的。

用科学家AI监管不可信的AI

AI要真正具有危险性，需要满足三个条件：一是智能，即AI具备丰富的知识，并能有效应用这些知识；二是行动能力，比如AI可以与人交流、编程、上网、使用社交媒体，甚至操控机器人等；三是有目标，特别是AI拥有自身的目标。

我发起的研究项目正是围绕上述情况展开的，并希望构建一种只有智能，没有自我、没有目标，并且具有极有限行动能力的AI。

我称这种AI为科学家AI，其核心能力是解释和理解世界。与当前那些试图模仿人类、取悦人类的AI不同，科学家AI的目标是解释人类行为、帮助理解世界，这实际上是偏离了传统AI的研究路径。

但是，当AI具有高度能动性时，它就可以完全自主地采取行动，不再依赖人类的监督，这样的AI需要监管。

我们可以设计一个独立的监测器系统，职责是预测某个行为、输出或请求是否可能违反安全准则。例如，当它预测某个行为在特定上下文中导致伤害的概率超过某个阈值时，我们就可以直接拒绝执行该行为。

换句话说，可以用一个没有能动性的AI，去守护和约束一个具备能动性但不可信的AI。

科学家AI的重要特质是诚实和谦逊。要真正做到诚实，AI就必须对自己的知识保持谦逊，不应该自信地断言自己并不确定或实际上错误的内容。

遗憾的是，我们目前训练AI的方法往往会导致AI在犯错误的同时还表现出过度自信。

科学家AI必须能够保留多种解释的可能性，而不是武断选定某一种理论。这种不确定性意识和对知识的谨慎态度，正是科学家AI应具备的核心特质之一。

随着能力的增强，AI还有其他潜在的灾难性风险。为避免这些情况发生，我们必须确保AI系统能够遵守道德指令，例如，不造成伤害、保持诚实、不撒谎、不作弊、不操控人类。

然而，目前的技术显示，我们还没有办法真正做到这一点。这是一个严肃的科学挑战，我们必须在AGI真正到来前解决它。

（作者系2018年图灵奖获得者、加拿大蒙特利尔大学教授，本报记者沈春蕾根据其在2025北京智源大会上的演讲整理）

《中国科学报》 (2025-06-18 第3版领域)

编辑部推荐博文
专业绘图团队为你的插图“画龙点睛” 科学网2025年5月十佳博文榜单公布！欢迎投稿！2025科学可视化作品征集活动启动 Biologics获得首个CiteScore 7.2, 位列领域内Q1分区幼雏出窝组织中的多种细胞类型在网络中协同作用更多>>