Sora退场背后的AI技术路线转向—新闻

作者：邓建国来源：澎湃新闻发布时间：2026/3/25 17:56:14

选择字号：小中大

Sora退场背后的AI技术路线转向

当地时间3月24日，OpenAI宣布将逐步关闭其视频生成工具Sora，并将研发重心转向“能够与物理世界互动的人工智能与机器人系统”。

这一消息引发了全球媒体和行业人士的热议。在我看来，Sora退场看似产品层面的调整，实则折射出一个更深层的变化：生成式AI正在从“再现世界”（representation）的AIGC转向“介入世界”（intervention）的具身智能/空间智能/物理智能。

2024 年 2 月，Sora的文生视频功能一鸣惊人。

一、OpenAI的“元宇宙社交”落空和深度伪造危机

OpenAI 在 2024 年 2 月发布了Sora， 2025年9月30日发布了Sora2（模型 + 社交化 App 同时推出）。初代Sora的本质是内容生产工具：用户通过提示词生成视频，用于创作、展示或导出，其逻辑仍停留在“再现”（representation）层面，即用户把想象转化为可视化内容。而Sora2则明显呈现出平台化和社交化特征。它引入信息流分发、公开发布、二次创作（remix）以及身份嵌入（如 cameo）等机制，使视频不再只是被观看的对象，而成为可以被参与、改写和传播的“社会行动单元”。用户既是创作者、分享者甚至“演员”。

通过Sora2，OpenAI意图实现“视频化元宇宙社交”——一个以生成式视频为基础的新一代社交平台。但这一方向，从一开始就面临结构性阻力。

首先是用户层面的“反社交媒体情绪”。从传播学角度看，过去十余年，媒介不断加深对人的“中介化”（mediation）介入：从文字到图片，再到短视频与算法推荐流，用户的注意力越来越被平台组织与塑形。当这一过程达到某种阈值后，用户必然反弹，例如今天，随着用户对算法分发的疲劳感增强和对“表演性自我”的倦怠上升，各种小范围和低曝光的交流方式已经开始回潮。

在这一社会情绪下，OpenAI推出“更重、更沉浸、更具压力”的Sora2视频社交乃不但没有顺用户需求而为，反而有“逆潮流而动”的意味，因为用户尚未消化短视频带来的认知负担，不太可能主动拥抱更高维度的沉浸式社交。

如果说用户疲劳是“需求侧问题”，那么人工智能背景下深度伪造（deepfake）带来的信任危机则对Sora2的传播形成了“制度性约束”。

长期以来，视频被视为高可信度媒介，但生成式AI的出现，正在迅速侵蚀这一基础：视频可以被低成本伪造，真实与虚构难以区分，内容验证成本大幅上升。

这实际上触及了社会运行的一个底层机制：信任。当一种媒介不再能提供“真实性背书”时，广告主、平台、用户都将为之承担更高的不确定性与风险，这必然造成该媒介的商业价值下降。

二、压缩人工智能平台运营成本和规避法律风险

相比文生文本与文生图像，文生视频在算力上的消耗呈现出明显的“维度跃迁”。文本生成主要停留在词元（token）级别的离散计算，图像生成则是单帧的空间建模，而视频生成不仅要处理空间信息，还需在时间轴上维持跨帧一致性与物理连续性。这意味着，诸如Sora这样的系统，本质上是一种“持续推理系统”（continuous inference system），其计算是一个极耗费算力的动态累积的过程。

由此带来的直接后果是成本的急剧提升——文生视频的单位成本远高于文生文和文生图像，且目前还很难通过优化下降。这也决定了Sora无法复制ChatGPT式的规模化路径。

而且在用户方面，文生视频并非高频刚需，其持续付费意愿有限，而平台大规模免费提供服务又成本巨大。如果采取广告模式，又因合成内容的真实性与信任问题而受到约束。因此，Sora之所以“烧钱”，并非单纯是OpenAI的商业策略失误，而是由技术范式内在规定造成的结果。

以Sora为代表的生成式视频工具还面临着越来越严重的法律风险。例如，用户可以轻易生成与既有IP高度类似的内容，比如模仿漫威或迪斯尼旗下的角色、视觉风格乃至叙事方式，也更容易触发法律纠纷。系统还能生成他人的外貌、声音甚至行为，并以此形成高度逼真的合成视频。这样的视频一旦被恶意传播，不仅侵犯个体肖像权利，还可能引发更广泛的信任危机，而责任归属却难以清晰界定。

在这些风险之下，平台必须承担更高的合规成本、采取更复杂的审核机制以及面临巨大的应诉和败诉风险，这严重削弱了Sora的商业化可能。

三、人工智能发展的技术转向：从“再现”到“行动”

以上因素可以解释Sora“为什么难”，但不足以解释一个更关键的问题，即OpenAi为什么选择现在关闭Sora？答案在于人工智能整体的技术发展路线的转向。

在一篇发表于2024年初的论文中，我指出，人工智能被称为“下一个新媒体”（the next new media）。它的发展呈现出两条日益清晰的路线：（1）离身沟通型AI（“延展的心灵”）：人类对媒介技术的应用过程，从模拟媒介、数字媒介、社交媒体到大语言模型人工智能，是一个日益虚拟化/去物质化/离身化的过程。该过程正引导我们脱离碳基身体，最终建构出一个与现实世界共存和交互的虚拟世界，即元宇宙（人、物和环境的数字孪生）。这一趋势尤其体现在近两年来文生文字（text to text）、文生音频（text-to-speech）、文生图（text-to-picture）和文生视频（text-to-video）等人工智能技术的增加和完善上。（2）具身沟通型AI（“心灵的延展”）：即人工智能延展出硅基身体以与现实环境实时互动和不断学习。这最初体现为各种可穿戴式设备、智能音箱、自动驾驶、宠物机器人，直到基于文生动作（text-to-acts）的人形机器人。这两个发展路线呈双螺旋相互促进的关系。

或者，简要而言，人工智能目前存在两种发展路径。

其一：再现（Representation），包括文本（ChatGPT）、图像（DALL·E）和视频（Sora）等应用，其核心能力是：模拟世界、生成内容。

其二：行动（Intervention / Embodied AI），包括机器人系统、自动驾驶和智能体，其核心能力是：进入世界、改变世界。

OpenAI 此次明确表示转向“与物理世界互动的AI”，意味着其判断已经发生变化：路径一的边际价值正在下降，而路径二才是下一阶段的战略高地。从这个角度看，Sora的退出并非失败，而是OpenAI的一次“资源重配”。借用马歇尔·麦克卢汉的经典判断而言，媒介不仅是信息载体，更是“人类感知与行动的延伸”：视频生成强化的是“感知延伸”（让人看到更多）；机器人强化的是“行动延伸”（让机器替人做事）。

这两者的社会意义有所不同：前者改变的是体验，后者改变的是生产与现实结构。因此，从视频生成转向机器人，本质上是一种“从文化工业走向基础设施”的跃迁。

四、Sora只是被阶段性搁置

尽管如此，我们也不宜将Sora视为一条被彻底放弃的路线。更准确的判断是：它只是被“阶段性搁置”。如果未来算力成本显著下降、对深度伪造能形成成熟的监管与水印体系，以及视频生成在教育、影视工业等领域形成刚需，那么，类似Sora的技术很可能重新回归。但届时，它的形态大概率不会是“社交媒体平台”，而更可能嵌入到专业生产体系中，成为一种工具，而非一个入口。

OpenAI宣布将逐步关闭Sora，标志着其AI发展战略已从路径一转向路径二——具身智能。然而，我们不应将此简单解读为产品失败或用户不买账，而应置于更长时间尺度的技术演化中审视。从“让机器像人一样表达”到“让机器像人一样行动”，这一转向恰恰呼应了马克思在《费尔巴哈提纲》中提出的观点：“哲学家只是用不同方式解释世界，真正关键的是去改变世界”。

特别声明：本文转载仅仅是出于传播信息的需要，并不意味着代表本网站观点或证实其内容的真实性；如其他媒体、网站或个人从本网站转载使用，须保留本网站注明的“来源”，并自负版权等法律责任；作者如果不希望被转载或者联系转载稿费等事宜，请与我们接洽。

编辑部推荐博文
论文投稿新问题！审稿人说插图AI感太重…… Springer Nature 每月新书 \| 三月辑从求知之乐看幸福的心理学根基计算机领域 \| 学术会议月历：4月重磅会议抢先看！梯度氧空位FeOOH助力高效高稳水氧化课堂已死——当大学教师不再是知识入口之后更多>>