谷歌DeepMind推出新的机器人AI模型—新闻

作者：喻琰来源：澎湃新闻发布时间：2025/3/13 21:40:55

选择字号：小中大

谷歌DeepMind推出新的机器人AI模型

日前，谷歌DeepMind推出了两款基于Gemini 2.0的新AI模型，旨在通过利用大语言模型的推理能力，完成复杂的现实世界任务，帮助机器人适应复杂环境。

第一款模型名为Gemini Robotics。据官方介绍，这是一个视觉-语言-动作模型。第二款模型是Gemini Robotics-ER（即具身推理）。该模型具备增强的空间理解能力，能让机器人专家利用Gemini的具身推理（ER）能力运行自有程序。

谷歌DeepMind认为，要成为对人类有用的机器人AI模型，必须具备三大核心特质：通用性，能适应不同场景；交互性，能快速理解并响应指令或环境变化；以及灵巧性，能完成类似人手般精细的操作。新发布的这两款模型能让多种机器人执行比以往更广泛的现实任务。

第一款模型Gemini Robotics在通用性、交互性和灵活性三个关键领域表现出色。它不仅能概括新场景，还更善于与人和环境互动，并且能够执行更精确的物理任务，比如折叠一张纸或拧下瓶盖。与前代模型相比，这款模型能理解更广泛的自然语言指令范围，并能根据输入调整行为。

此外，它还能持续监控周边环境，检测环境或指令的变化，从而调整动作。谷歌DeepMind称，这种可操作性将帮助人类在家庭、职场等场景中更好地与机器人协作。技术报告显示，这款模型的综合泛化性能是现有最先进视觉-语言-动作模型的两倍以上。

第二款模型Gemini Robotics-ER（即具身推理）是一款先进的视觉-语言模，这款模型能够“理解我们复杂而动态的世界”。例如，当你打包午餐盒并将食物放在面前的桌子上时，你需要知道所有东西的位置，以及如何打开午餐盒、抓取食物并将它们放在合适的位置。这正是Gemini Robotics-ER所要完成的推理过程。

在安全性方面，谷歌DeepMind研究人员维卡斯·辛德瓦尼（Vikas Sindhwani）在接受采访时说，该公司正在开发一种“分层方法”，并称Gemini Robotics-ER模型正在“被训练用于评估在特定情境下潜在行为是否安全”。此外，该公司还在发布新的基准和框架，以助力人工智能行业的安全研究。去年，谷歌DeepMind推出了“机器人宪法”，这是一套受艾萨克·阿西莫夫启发的规则，供机器人遵循。

谷歌DeepMind正在与Apptronik合作“打造下一代人形机器人”。它还向“受信任的测试人员”开放了Gemini Robotics-ER模型，包括Agile Robots、Agility Robotics、Boston Dynamics和Enchanted Tools。

特别声明：本文转载仅仅是出于传播信息的需要，并不意味着代表本网站观点或证实其内容的真实性；如其他媒体、网站或个人从本网站转载使用，须保留本网站注明的“来源”，并自负版权等法律责任；作者如果不希望被转载或者联系转载稿费等事宜，请与我们接洽。

编辑部推荐博文
基金申请季，这里有2份攻略请查收！科学网2026年1月十佳博文榜单公布！打碗花、打破碗花花、牵牛花、喇叭花，还分不清？寒假港澳之旅：理想和现实盘点2025年在Nature发文Top 10的中国机构温敏性结晶和刻蚀碳布电极构筑高性能液态铜基热电池更多>>