科学网—大语言模型在“教学”中夹带“私货”

作者：赵熙熙来源：中国科学报发布时间：2026-4-16

选择字号：小中大

大语言模型在“教学”中夹带“私货”

本报讯 一项研究显示，大语言模型（LLM）可能会将某些不需要的特征传授给其他算法。在一个案例中，一个模型似乎通过数据中的隐含信号，将对猫头鹰的偏好传递给其他模型。该研究表明，在开发LLM时，需要进行更彻底的安全检查。相关论文4月15日发表于《自然》。

LLM可通过一种名为“蒸馏”的过程生成用于训练其他模型的数据集，该过程旨在让“学生”模型学会模仿“老师”模型的输出。虽然此过程可用于生成成本更低的LLM，但目前尚不清楚“老师”模型的哪些特性会被传递给“学生”模型。

在这项研究中，美国人工智能公司Anthropic的Alex Cloud和同事使用GPT-4.1进行了实验。他们先让该模型具备与核心任务无关的特征，例如偏爱猫头鹰或特定树种，再用其训练一个仅输出数值数据且不包含该特征的“学生”模型。随后对该“学生”模型进行测试时，其超过60%的输出提到了“老师”模型最喜欢的动物或树木，而在由没有特定偏好的“老师”模型训练出的“学生”模型中，这一比例仅为12%。

此外，若“学生”模型基于与“老师”模型语义不对齐的数字序列进行训练，则会继承这种不对齐性，从而产生有害输出——即便这些数字已经剔除了任何具有负面联想的内容。研究人员发现，这种潜意识学习，即通过与语义无关的数据传递行为特征，主要发生在“老师”和“学生”均为同一模型的情况下，例如GPT-4.1“老师”与GPT-4.1“学生”。作者指出，数据传递的具体机制尚不明确，需要进一步研究。

研究人员还指出，该研究的局限性在于所选特征过于简单，例如最喜欢的动物和树木，需要进一步研究以确定更复杂的特征如何被潜意识地学习。他们得出结论，为了确保先进人工智能系统的安全性，需要进行更严格的安全测试，例如监控LLM的内部机制。（赵熙熙）

相关论文信息：

https://doi.org/10.1038/s41586-026-10319-8

《中国科学报》 (2026-04-16 第2版国际)

编辑部推荐博文
从零开始学！手把手教你画水凝胶结构科学网2026年3月十佳博文榜单公布！四月，小区里的留鸟们铁锰双掺杂精准调控NVPF电子结构提升钠离子电池性能人文•社科•经管•重点会议面向能效提升的滚动轴承摩擦力矩降低方法更多>>