作者:喻琰 来源:澎湃新闻 发布时间:2025/3/13 21:40:55
选择字号:
谷歌DeepMind推出新的机器人AI模型

 

日前,谷歌DeepMind推出了两款基于Gemini 2.0的新AI模型,旨在通过利用大语言模型的推理能力,完成复杂的现实世界任务,帮助机器人适应复杂环境。

第一款模型名为Gemini Robotics。据官方介绍,这是一个视觉-语言-动作模型。第二款模型是Gemini Robotics-ER(即具身推理)。该模型具备增强的空间理解能力,能让机器人专家利用Gemini的具身推理(ER)能力运行自有程序。

谷歌DeepMind认为,要成为对人类有用的机器人AI模型,必须具备三大核心特质:通用性,能适应不同场景;交互性,能快速理解并响应指令或环境变化;以及灵巧性,能完成类似人手般精细的操作。新发布的这两款模型能让多种机器人执行比以往更广泛的现实任务。

第一款模型Gemini Robotics在通用性、交互性和灵活性三个关键领域表现出色。它不仅能概括新场景,还更善于与人和环境互动,并且能够执行更精确的物理任务,比如折叠一张纸或拧下瓶盖。与前代模型相比,这款模型能理解更广泛的自然语言指令范围,并能根据输入调整行为。

此外,它还能持续监控周边环境,检测环境或指令的变化,从而调整动作。谷歌DeepMind称,这种可操作性将帮助人类在家庭、职场等场景中更好地与机器人协作。技术报告显示,这款模型的综合泛化性能是现有最先进视觉-语言-动作模型的两倍以上。

第二款模型Gemini Robotics-ER(即具身推理)是一款先进的视觉-语言模,这款模型能够“理解我们复杂而动态的世界”。例如,当你打包午餐盒并将食物放在面前的桌子上时,你需要知道所有东西的位置,以及如何打开午餐盒、抓取食物并将它们放在合适的位置。这正是Gemini Robotics-ER所要完成的推理过程。

在安全性方面,谷歌DeepMind研究人员维卡斯·辛德瓦尼(Vikas Sindhwani)在接受采访时说,该公司正在开发一种“分层方法”,并称Gemini Robotics-ER模型正在“被训练用于评估在特定情境下潜在行为是否安全”。此外,该公司还在发布新的基准和框架,以助力人工智能行业的安全研究。去年,谷歌DeepMind推出了“机器人宪法”,这是一套受艾萨克·阿西莫夫启发的规则,供机器人遵循。

谷歌DeepMind正在与Apptronik合作“打造下一代人形机器人”。它还向“受信任的测试人员”开放了Gemini Robotics-ER模型,包括Agile Robots、Agility Robotics、Boston Dynamics和Enchanted Tools。

 
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
火星岩石上的“豹纹”可能是生命迹象 科研人员发现荷花香气主要来源于雄蕊
研究开发出双级“铠甲”整体式电极 科学网2025年2月十佳博文榜单公布!
>>更多
 
一周新闻排行
 
编辑部推荐博文