作者:邓建国 来源:澎湃新闻 发布时间:2026/3/25 17:56:14
选择字号:
Sora退场背后的AI技术路线转向

 

当地时间3月24日,OpenAI宣布将逐步关闭其视频生成工具Sora,并将研发重心转向“能够与物理世界互动的人工智能与机器人系统”。

这一消息引发了全球媒体和行业人士的热议。在我看来,Sora退场看似产品层面的调整,实则折射出一个更深层的变化:生成式AI正在从“再现世界”(representation)的AIGC转向“介入世界”(intervention)的具身智能/空间智能/物理智能。

2024 年 2 月,Sora的文生视频功能一鸣惊人。

一、OpenAI的“元宇宙社交”落空和深度伪造危机

OpenAI 在 2024 年 2 月发布了Sora, 2025年9月30日发布了Sora2(模型 + 社交化 App 同时推出)。 初代Sora的本质是内容生产工具:用户通过提示词生成视频,用于创作、展示或导出,其逻辑仍停留在“再现”(representation)层面,即用户把想象转化为可视化内容。而Sora2则明显呈现出平台化和社交化特征。它引入信息流分发、公开发布、二次创作(remix)以及身份嵌入(如 cameo)等机制,使视频不再只是被观看的对象,而成为可以被参与、改写和传播的“社会行动单元”。用户既是创作者、分享者甚至“演员”。

通过Sora2,OpenAI意图实现“视频化元宇宙社交”——一个以生成式视频为基础的新一代社交平台。但这一方向,从一开始就面临结构性阻力。

首先是用户层面的“反社交媒体情绪”。从传播学角度看,过去十余年,媒介不断加深对人的“中介化”(mediation)介入:从文字到图片,再到短视频与算法推荐流,用户的注意力越来越被平台组织与塑形。当这一过程达到某种阈值后,用户必然反弹,例如今天,随着用户对算法分发的疲劳感增强和对“表演性自我”的倦怠上升,各种小范围和低曝光的交流方式已经开始回潮。

在这一社会情绪下,OpenAI推出“更重、更沉浸、更具压力”的Sora2视频社交乃不但没有顺用户需求而为,反而有“逆潮流而动”的意味,因为用户尚未消化短视频带来的认知负担,不太可能主动拥抱更高维度的沉浸式社交。

如果说用户疲劳是“需求侧问题”,那么人工智能背景下深度伪造(deepfake)带来的信任危机则对Sora2的传播形成了“制度性约束”。

长期以来,视频被视为高可信度媒介,但生成式AI的出现,正在迅速侵蚀这一基础:视频可以被低成本伪造,真实与虚构难以区分,内容验证成本大幅上升。

这实际上触及了社会运行的一个底层机制:信任。当一种媒介不再能提供“真实性背书”时,广告主、平台、用户都将为之承担更高的不确定性与风险,这必然造成该媒介的商业价值下降。

二、压缩人工智能平台运营成本和规避法律风险

相比文生文本与文生图像,文生视频在算力上的消耗呈现出明显的“维度跃迁”。文本生成主要停留在词元(token)级别的离散计算,图像生成则是单帧的空间建模,而视频生成不仅要处理空间信息,还需在时间轴上维持跨帧一致性与物理连续性。这意味着,诸如Sora这样的系统,本质上是一种“持续推理系统”(continuous inference system),其计算是一个极耗费算力的动态累积的过程。

由此带来的直接后果是成本的急剧提升——文生视频的单位成本远高于文生文和文生图像,且目前还很难通过优化下降。这也决定了Sora无法复制ChatGPT式的规模化路径。

而且在用户方面,文生视频并非高频刚需,其持续付费意愿有限,而平台大规模免费提供服务又成本巨大。如果采取广告模式,又因合成内容的真实性与信任问题而受到约束。因此,Sora之所以“烧钱”,并非单纯是OpenAI的商业策略失误,而是由技术范式内在规定造成的结果。

以Sora为代表的生成式视频工具还面临着越来越严重的法律风险。例如,用户可以轻易生成与既有IP高度类似的内容,比如模仿漫威或迪斯尼旗下的角色、视觉风格乃至叙事方式,也更容易触发法律纠纷。系统还能生成他人的外貌、声音甚至行为,并以此形成高度逼真的合成视频。这样的视频一旦被恶意传播,不仅侵犯个体肖像权利,还可能引发更广泛的信任危机,而责任归属却难以清晰界定。

在这些风险之下,平台必须承担更高的合规成本、采取更复杂的审核机制以及面临巨大的应诉和败诉风险,这严重削弱了Sora的商业化可能。

三、人工智能发展的技术转向:从“再现”到“行动”

以上因素可以解释Sora“为什么难”,但不足以解释一个更关键的问题,即OpenAi为什么选择现在关闭Sora?答案在于人工智能整体的技术发展路线的转向。

在一篇发表于2024年初的论文中,我指出,人工智能被称为“下一个新媒体”(the next new media)。它的发展呈现出两条日益清晰的路线:(1)离身沟通型AI(“延展的心灵”):人类对媒介技术的应用过程,从模拟媒介、数字媒介、社交媒体到大语言模型人工智能,是一个日益虚拟化/去物质化/离身化的过程。该过程正引导我们脱离碳基身体,最终建构出一个与现实世界共存和交互的虚拟世界,即元宇宙(人、物和环境的数字孪生)。这一趋势尤其体现在近两年来文生文字(text to text)、文生音频(text-to-speech)、文生图(text-to-picture)和文生视频(text-to-video)等人工智能技术的增加和完善上。(2)具身沟通型AI(“心灵的延展”):即人工智能延展出硅基身体以与现实环境实时互动和不断学习。这最初体现为各种可穿戴式设备、智能音箱、自动驾驶、宠物机器人,直到基于文生动作(text-to-acts)的人形机器人。这两个发展路线呈双螺旋相互促进的关系。

或者,简要而言,人工智能目前存在两种发展路径。

其一:再现(Representation),包括文本(ChatGPT)、图像(DALL·E)和视频(Sora)等应用,其核心能力是:模拟世界、生成内容。

其二:行动(Intervention / Embodied AI),包括机器人系统、自动驾驶和智能体,其核心能力是:进入世界、改变世界。

OpenAI 此次明确表示转向“与物理世界互动的AI”,意味着其判断已经发生变化:路径一的边际价值正在下降,而路径二才是下一阶段的战略高地。从这个角度看,Sora的退出并非失败,而是OpenAI的一次“资源重配”。借用马歇尔·麦克卢汉 的经典判断而言,媒介不仅是信息载体,更是“人类感知与行动的延伸”:视频生成强化的是“感知延伸”(让人看到更多);机器人强化的是“行动延伸”(让机器替人做事)。

这两者的社会意义有所不同:前者改变的是体验,后者改变的是生产与现实结构。因此,从视频生成转向机器人,本质上是一种“从文化工业走向基础设施”的跃迁。

四、Sora只是被阶段性搁置

尽管如此,我们也不宜将Sora视为一条被彻底放弃的路线。更准确的判断是:它只是被“阶段性搁置”。如果未来算力成本显著下降、对深度伪造能形成成熟的监管与水印体系,以及视频生成在教育、影视工业等领域形成刚需,那么,类似Sora的技术很可能重新回归。但届时,它的形态大概率不会是“社交媒体平台”,而更可能嵌入到专业生产体系中,成为一种工具,而非一个入口。

OpenAI宣布将逐步关闭Sora,标志着其AI发展战略已从路径一转向路径二——具身智能。然而,我们不应将此简单解读为产品失败或用户不买账,而应置于更长时间尺度的技术演化中审视。从“让机器像人一样表达”到“让机器像人一样行动”,这一转向恰恰呼应了马克思在《费尔巴哈提纲》中提出的观点:“哲学家只是用不同方式解释世界,真正关键的是去改变世界”。

 
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
科学家制造出可实时扭曲和控制光的芯片 难以捉摸的“核时钟”有望实现
研究发现大型真菌新物种 研究发现旋转速度快得不可思议的小行星
>>更多
 
一周新闻排行
 
编辑部推荐博文