本报讯(记者朱汉斌)近日,鹏城实验室与中山大学等联合开展具身智能多模态感知-规划-控制一体研究,攻克了具身智能数据利用效率低下的难题,在基于“中国算力网”的大规模高速运算集群“鹏城云脑”上,实现了最新的具身智能领域学术成果——VidMan具身智能操控模型。
当前,缺乏大规模、高质量、多模态的开源数据集,是制约具身智能领域发展的重要因素。而最近的研究工作表明,利用大规模在线视频数据训练的视频扩散生成模型,在理解和预测长序列现实世界复杂物理动态方面具有巨大潜力。
为此,鹏城实验室联合中山大学、华为诺亚方舟实验室等创造性地开发出了一种基于视频扩散生成模型的机械臂操控模型VidMan,切实解决了训练具身大模型数据来源的瓶颈问题。
据介绍,该模型能够挖掘视频扩散生成模型学习的隐式物理世界规律,将动作估计建模成为视频帧之间的逆动力学过程,并基于双程认知理论提出双阶段训练策略,将视频扩散生成模型转换于指导下游机器人控制,显著提高机器人动作预测准确性和任务完成水平。
《中国科学报》 (2025-02-05 第3版 领域)