当大模型有了“生命”的迹象，会发生什么？—新闻

作者：阿迪蒂亚·拉梅什来源：中国科学报发布时间：2024/6/16 15:33:58

选择字号：小中大

当大模型有了“生命”的迹象，会发生什么？

2021年2月，我们发布了“文生图”的人工智能系统DALL·E，该系统可以根据文字创作生成各种风格的逼真图像。从那以后，我们就开始思考，这是一条学习智能的好路径吗？继续加大模型的规模，还会发生什么呢？

演讲现场主办方供图

压缩一切掌握信息

实际上，在DALL·E发布之前，我们就在iGPT中探索了无条件的自回归图像Transformer模型，我们发现将一切信息压缩起来，可以学到很好的表征。

比如，iGPT可以被视作一个图像生成或理解模型，我们将图像压缩成一系列“马赛克”色块，从而得到了一些可以通过类似于GPT的自回归方法处理的序列。这项研究的亮点在于，我们可以通过压缩后的图像，学习到潜在的结构信息。

而在与DALL·E同期发布的CLIP（文生图模型）中，我们通过对比损失，尝试学习成对的文本-图像数据集之间的共有信息，其计算效率比iGPT高出几个数量级。因此我们认为，在提取智能的过程中，与压缩所有像素的信息相比，使用自然语言引导视觉世界中的学习，可以大大提升计算效率。

CLIP模型包含一个图像编码器和一个文本编码器，它的出现标志着重大的范式转变——我们不再需要人工标注的标签来为某个域的数据训练一个优秀的分类器，我们可以利用互联网上海量的廉价文本来训练一个模型作为所有数据域上的优秀分类器。

不难发现，图像表示学习发展的早期，分类模型仅仅学习到手动标注的标签和视觉世界之间的交集；CLIP的诞生标志着我们可以学习互联网上的自然语言和视觉世界之间的交集；紧接着，图像描述器也成为了可扩展的视觉学习器。

为此，我们训练了一个图像编码器感知模型，并利用视觉世界中的知识重建自然语言，这种根据图像预测文本的方法与语言模型十分类似。

那么，随着算力预算的不断升级，图像表示学习最终形态会是怎样？图像表示学习的目标函数在不断改变，我们学习图像的方式也在改变。随着我们算力的增加，似乎事情变得越来越简单。

iGPT的成功说明，尽管效率不高，但大规模生成模型会学习数据的底层结构，因此最终可以得到很好的图像表征。

同样的情况是否也适用于“图生文”的模型呢？答案是肯定的。

在论文《你的扩散模型实际上是一个零样本分类器》（Your Diffusion Model is Secretly a Zero-Shot Classifier）中，作者指出，一个预训练好的“文生图”模型可以被用做类似于CLIP的零样本分类器。给定图像和候选的文本描述，我们可以使用扩散模型计算文本对匹配的损失，只不过衡量图文数据相似度的函数更加复杂。

这样一来，我们就可以从以图像为条件预测标签的训练范式转向以文本为条件，预测图像的训练范式。但是，这样做的计算效率仍然不能保证。

未曾训练也能实现

通过DALL-E3项目，我们发现，当用于训练的文本更具描述性时，即使文本较短，训练“文生图”模型的效率也会更高。这启发我们，即使在推理时无法使用具有描述性的文本，也可以使用具有较强描述性的文本作为训练的框架，从而得到更好的无条件模型。

假设要为图像训练一个“文生图”模型，图像中没有任何的不确定性，我们可以根据文本描述读出像素质，这里不需要使用深度学习模型；如果我们向图像中加入少量噪声，去掉一些图像表面的细节和纹理，就引入了一些不确定性，模型需要学习的东西也不多。保留下来的图像可以被极具描述能力的文本来表示；如果向图中加入大量的噪声，只需要很短的描述就可以表示保留下的图像。当通过扩散模型向图像加噪至图像成为纯噪声，就没有文本可以描述剩下的图像，此时任何图像都有可能。

我们认为，利用极具描述性的文本训练，有助于在小规模模型上补充感知相关的先验。在参数量较大，即模型规模较大时，模型可以学习到语言无法描述的知识。当我们拥有的算力越大，就可以使用越少的补充语言描述。

在DALL·E3中，训练范式从“给定图像重建文本”转向了“给定极具描述性的语言重建图像”。当然，此时的计算效率可能并不会提升。最终，如果我们扩展一个极具描述性的文本补充下训练的网络，其无条件建模的能力也会增加。

起初，我们并没有用太多的文本，我们只能预测少量的信息从而构建图像分类器。接着，我们通过类似于CLIP或图像描述器的方式使用了较多的文本。后来，我们发现可以像在DALL·E3和Sora中一样使用极具描述性的文本来训练生成式模型。

随着模型规模的扩大，语言可以作为一种训练的框架，在推理时可以被丢弃，因为这时视觉有时比语言更具通用性。

视觉上下文学习似乎也能赋予DALL·E1一些“生命”迹象。例如，给出图像的上半部分，让模型绘制出图像的下半部分。当上半部分变化时，绘制出的下半部分也会变化，而模型从没有在这些任务上训练过。这可能是实现通往所有类型应用的一条可行路径。

未来，我们可以向模型输入一张图像，要求其生成满足我们任意要求的视频。

（作者系Sora团队负责人，本报记者沈春蕾根据其在2024智源大会上的演讲整理）

编辑部推荐博文
科学网2024年5月十佳博文榜单公布！科学网编辑部：我们悄悄准备了一份惊喜…… OpenAI与苹果合作三议遥远的巴尔斯碧沽天池——滇西北考察纪行之一植物园 \| 如何通过社区推广珍稀濒危植物更多>>