作者:沈春蕾 来源:中国科学报 发布时间:2024/6/16 15:32:50
选择字号:
智源大会的一场隔空对话:
当模型足够大,就可以模拟现实世界

 

今年,OpenAI公司的视频生成模型Sora又火了一把,同时也带火了DiT。纽约大学计算机系助理教授谢赛宁称,Sora是基于自己和威廉·皮布尔斯(William Peebles)共同提出的DiT(一个能够直接生成4K分辨率图像的模型)框架设计而成。

6月14日,在2024智源大会上,围绕“语言模型是否被高估、视频生成模型的安全性、如何走向通用人工智能”等话题,谢赛宁与Sora团队负责人阿迪蒂亚·拉梅什(Aditya Ramesh)展开了一场隔空对话。

  ?

对话现场 主办方供图

谢赛宁:您曾说过“语言模型被高估了”,还将Sora比作GPT模型的视觉对应物,称其目前处于GPT-1阶段。您认为像DALL·E(文生图模型)和Sora这样的视觉生成模型能否引领我们走向通用人工智能(AGI)?您如何看待建模人类语言与建模包含丰富感官数据的现实世界之间的关系?

阿迪蒂亚·拉梅什:在视频中,我们可以获取大量的信息,而其中有些信息不容易用语言来表示。对于构建更加智能的具有推理能力的系统来说,语言模态是十分重要的。但从某种意义上来说,将语言信息以某种通用接口融入视觉信号中,或许可以实现模拟任何事物的能力。随着模型规模的增大,其对于语言的依赖也会降低。

谢赛宁:威廉·皮布尔斯和我一起开展了DiT的研究,而蒂姆·布鲁克斯(Tim Brooks)在读博士期间就致力于生成视频的研究工作。他们两人都是刚获得博士学位不久就加入Sora团队,并产出了如此大的影响,很了不起。您能分享一下Sora是如何运作的吗?您团队或者说在OpenAI的文化中,支持并赋予年轻研究人员发挥他们的热情和经验的秘密是什么?是什么驱动了新的研究突破?

阿迪蒂亚·拉梅什:首先,OpenAI的招聘政策与其它机构相比十分与众不同。威廉和蒂姆都获得了博士学位,也有很不错的成果发表。但我们过去也招聘过一些没有机会获得正式的学术成绩,但极具潜力的人,比如DALL·E3的负责人詹姆斯·巴特克(James Betker)就是这样的。

其次,我们奉行不随波逐流的长期主义研究目标。我们会设定一个看似足够遥远的研究目标,但这个目标是根据先前的工作制定,并且是可以实现的。

最后,让每个人有充足的可以使用的图形处理器(GPU)也十分重要。

谢赛宁:既然OpenAI有一些非常成功的研究人员,他们并没有接受过所谓的传统研究训练范式,那么博士学位是否被高估了?你对未来的AI工作者有何建议?

阿迪蒂亚·拉梅什:我们现在通过Transformer模型架构统一了可扩展的计算范式,也知道了如何表征数据,如今很多技术都趋同化。因此,学术研究的一些焦点随之改变,可解释性是我们追求的一个方向。对于现在攻读博士学位的人来说,期望做出SOTA(最新技术的最佳状态)的工作十分困难了,因为这比之前需要的资源大大增加了。

谢赛宁:目前,有一些不错的模型问世,虽然我不认为它们超越了Sora,但确实呈追赶之势。您如何看待视频生成领域的竞争?有没有关于Sora最新的研发进展消息?

阿迪蒂亚·拉梅什:我们目前最关心的是视频生成模型的安全性及其对社会的影响。我们希望人们不要用Sora来发布错误的信息,也希望模型的行为符合人类的期望。我们很开心看到有其它的实验室和公司同样从事视频生成模型的研发,有大量的人尝试使用不同的方法对于激发艺术和扩散模型领域的创新很重要。

谢赛宁:我最近参加了一个纽约的AI电影节,并与一些电影导演和艺术家进行了交谈。我问了他们同样的问题:他们最希望从视频生成模型中获得的特性是什么。令人惊讶的是,他们不约而同地回答:“更好的可控性。”

阿迪蒂亚·拉梅什:我认为,提高可控性和减少随机性可能是我们从合作方那里收到的最重要的功能需求,拥有这些能力并重用之前场景中的角色、资产和其他元素将是一个重大变革,而今这些能力正在逐步投入生产。

谢赛宁:您提到Sora的目标是模拟现实以构建AGI。我认为一个主要挑战是准确的物理建模,虽然Sora在这方面取得了很大进步,但仍然存在一些错误。许多人认为这需要基于第一原理和系统的泛化。您认为当前的互联网视频是否足以支持这一目标,还是我们可能需要寻找其它数据源和传感媒介?

阿迪蒂亚·拉梅什:我认为现有的数据已经足够让我们取得更大的进展。既然有这么多数据可用,我们只需扩大模型规模就能继续取得很大进展。一旦模型强大到足以成为独立的世界模拟器,许多有趣的事情就会发生,你就可以开始在视频生成模型内部进行接触、模拟等操作。这样我们就可以开始融入现实世界中所有多样化和有趣的约束,并开始学习有趣的东西。

 

 
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
老化的哈勃空间望远镜转向单陀螺仪操作 中国科学家首次发现“无摩擦的冰”
冰表面长啥样?原子级分辨图像揭晓答案 北方中纬高频雷达网发布首批科学探测结果
>>更多
 
一周新闻排行
 
编辑部推荐博文