日前,谷歌DeepMind已将其最先进的大型语言模型(LLM)Gemini应用于机器人。该公司表示,借助该模型,机器人无需观察其他机器人的演示动作也可以完成某些任务,例如将迷你篮球“扣”入桌面篮筐。
搭载Gemini Robotics AI模型的机器可将篮球投入篮筐。图片来源:谷歌DeepMind
?
DeepMind是多家尝试利用聊天机器人技术开发通用机器人的企业之一。然而,此类模型容易生成错误和有害内容,因此该技术路径也伴随着安全隐患。
研究团队希望开发出能够直观操作、无需人类监督或预设程序即可完成多种物理任务的机器。谷歌DeepMind机器人团队负责人Carolina Parada指出,通过连接Gemini模型,开发人员可以提升机器人的能力,使其“理解自然语言,并以前所未有的精细程度认知物理世界”。
这款名为Gemini Robotics的模型于3月12日发布。专注于构建人工智能(AI)机器人开发数据集的美国AI公司CollectedAI联合创始人、AI研究员Alexander Khazatsky评价称,这是实现通用机器人目标“虽小但切实的一步”。
谷歌DeepMind团队以其最先进的视觉与语言模型Gemini 2.0为基础展开研究。该模型通过分析海量数据中的模式进行训练。
团队开发了Gemini的专用版本,专注于提升涉及三维物理和空间推理的任务能力,例如预测物体运动轨迹,或识别不同角度拍摄图像中物体的同一部位。
此外,他们利用数千小时真人远程操作机器人演示的数据对模型进行强化训练。这使得机器人“大脑”能够执行实际动作,其原理类似于LLM通过已学关联生成句子的下一词语。
团队在类人机器人和机械臂上对Gemini Robotics进行了测试,涵盖训练任务及未接触过的新任务。据称,无论面对细节调整的熟悉任务还是全新任务,搭载该模型的机器人表现均优于当前最先进的竞争对手。
在需要精细操作的任务中,如折纸或拉上背包拉链,机器人手部仅观察不到100次演示后,成功率便超过70%。而使用其他对比模型的机器几乎全部失败。
Khazatsky认为,谷歌团队在将常识性知识植入机器人“大脑”方面成果显著,但他指出,真正的飞跃需通过从“混乱的真实世界”而非实验室环境采集的机器人数据中学习。
应用此类模型时,安全性将成为重大挑战。谷歌DeepMind纽约分部机器人及AI研究员Vikas Sindhwani表示:“初期,机器人将保持与人类的安全距离。未来我们将逐步实现更多互动和协作任务。”
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。