
机器人在复原华容道棋盘。星源智供图
■本报记者 沈春蕾
一块被随机打乱的华容道棋盘,每一步移动都会改变当前局面,也会影响后续路径的安排。人可以通过逻辑推理快速复原,机器人则需要作出一系列连续决策。
“机器人需要理解的不只是‘现在看到什么’,还包括‘如果这样移动,接下来会发生什么’。”近日,北京星源智机器人科技有限公司(以下简称星源智)联合创始人孙振国在北京智源大会上介绍,星源智此次发布的具身交互世界模型 ω-EVA 将尝试回答这个问题。
近年来,“世界模型”是人工智能(AI)领域常被提及的概念,但其技术路线尚无“标准答案”,真实物理数据供给严重不足,实现规模化应用仍有较长距离。6月12日至13日,第八届北京智源大会召开,世界模型再次成为会上热议的焦点。
世界模型是什么、与视觉-语言-动作模型(VLA)有什么不同、未来有哪些应用场景……带着这些问题,《中国科学报》记者走进北京智源大会现场寻找答案。
不是全新概念
从去年到今年,世界模型突然就“火”了,但“世界模型”并不是一个新概念。
早在1943年,英国认知科学家肯尼斯·克雷克(Kenneth Craik)就提出“心智模型”,即人类大脑是通过构建一个小规模的外部世界模型来理解和预测事件的。20世纪60年代,美国AI科学家马文·明斯基将这一思想引入了计算机领域,他提出的“智能即构建环境抽象模型”以及“框架理论”,是AI领域探索世界模型的起点。
1990年,慕尼黑工业大学研究员Jürgen Schmidhuber首次提出“世界模型”这一概念。2018年,Jürgen Schmidhuber等人首次系统定义了神经网络世界模型的框架,掀起了学界对世界模型的研究热潮。
2023年,大语言模型兴起。时任美国Meta公司首席AI科学家的杨立昆(Yann LeCun)在北京智源大会的主题演讲中首次系统阐述了“世界模型”的概念,并指出大语言模型隐藏着四个难以突破的致命弱点:一是理解物理世界,二是拥有持久记忆,三是具备推理能力,四是复杂规划能力。
2024年北京智源大会发布了其对大模型技术演进路线的预测,提出大模型会沿着大语言模型向多模态大模型再向世界模型的方向发展,明确将世界模型作为AI领域下一个重要范式。
在今年的北京智源大会上,北京智源研究院院长王仲远指出,世界模型是下一代AI技术的基座模型,可以让AI真正理解并交互于真实的物理世界。随着多模态模型的深入研究,AI正经历一场重大的范式变革——从“预测下一个词元”演进到“预测下一个物理状态”,这也是世界模型的核心本质。
不同路径的探索
当前,物理世界依然有很多问题无法被AI解决,这也是近几年世界模型被重新提及、反复讨论的根源。随着一系列标志性产品的发布,世界模型开始走进公众视野,从学术探索迈向产业化落地。
2024年4月,美国斯坦福大学教授李飞飞等人创办初创企业World Labs,这是一家致力于构建能够感知、生成并与3D世界互动的大型世界模型的空间智能公司。一年后,World Labs推出了空间智能模型Marble预览版。Marble是一款多模态世界模型产品,旨在通过空间智能技术将二维图像、视频或文本提示转化为可探索、可交互且具备物理一致性的三维环境。
2025年11月,李飞飞曾撰文指出,AI下一阶段探索前沿是空间智能,即AI理解、构想、推理世界并与之交互的能力,而世界模型则是机器获得这些能力的必经之路。今年6月4日,李飞飞团队发表的文章将世界模型分为渲染器、模拟器、规划器三大类。
其中,渲染器是把信息转成人眼能看到的像素;模拟器输出的不是画面,而是几何数据、材质参数、碰撞网格这类信息;规划器决定下一步要做什么。李飞飞提出,这三类模型共用同一套底层世界知识,三者的边界正不断消融,最终将变成能够灵活切换输出形式的世界基础模型。
而在王仲远看来,当前世界模型可分为四类:第一类是以语言为中心的世界模型,包括大语言模型等;第二类是以像素为中心的世界模型,但视频生成模型不等于世界模型;第三类是以三维结构为中心的世界模型,包括3D重建等;第四类则是以视觉表征为轴心的世界模型。
“世界模型分成四类会更具通用性,但未来不排除世界模型的分类会走向统一。”王仲远说,世界模型距离真正面向物理世界的基座模型还很远,需要开展大量的科研探索工作。
“90后”和“00后”同台竞技
在会场体验区,星源智展示了华容道世界模型互动、流水线智能分拣、机器狗清洁官与机器人咖啡服务等具身智能场景,展现机器人从“看见环境”走向“理解任务、完成行动”的能力闭环。
孙振国是一位“90后”,也是北京智源研究院具身交互世界模型研究中心负责人。在谈及世界模型与VLA差异时,他指出,VLA是单纯的模仿学习,要训练出比较好的模型需要高质量的数据;世界模型哪怕最终训练失败了,训练的轨迹也是可以利用起来的。换言之,世界模型数据采集无论是成功还是失败,都可以继续用于训练世界模型。
北京智源研究院则展示了一款正在研发的世界模型——悟界·Physis。22岁的北京大学本科生陈博远是该模型项目的核心负责人。这位“00后”也是逆矩阵科技(Physis)创始人。
王仲远透露:“研发悟界系列的几个负责人都是30岁左右,我们非常欢迎青年人挑大梁,也特别希望悟界·Physis模型能在陈博远的带领下顺利研发出来。当然科研有失败的风险,我们会尽全力推动科研,给有潜力的年轻人机会和锻炼的平台。”
谈及如今世界模型的研究人员越来越年轻化,北京大学计算机学院教授黄铁军告诉《中国科学报》:“当下不管是就业还是创业,都得结合个人实际情况。年轻人系统学完所有知识技能再行动,固然是稳妥的选择,但发展的机遇不等人,如果等到毕业再行动,窗口很可能就彻底关闭了。”
《中国科学报》 (2026-06-17 第3版 领域)