云栖大会上展出的人形机器人。 阿里云供图
■本报记者 赵广立
人形机器人最近又火了。近日据多家媒体报道,波士顿动力公司推出的人形机器人Atlas已进入工厂测试阶段,“可以在工厂中实现全自动工作”。
人形机器人的技术进步有多快?
“或许某一天有‘人’敲你的门,但你分不清站在门外的是机器人还是真人。”在日前举行的一场论坛分享活动中,至顶科技首席职行官(CEO)高飞提出,这一天或许很快就会到来。
但这一天到底什么时候到来,高飞也没有答案。他看到的是,随着大模型的出现,人工智能(AI)越来越让人真假难辨。而当“人形机器人+大模型”组合闯进人类世界,人形机器人或许将迎来“图灵时刻”。
机器人与物理世界交互的载体
对于许多人而言,机器人早已不是新鲜事物,但人形机器人是。尤其2024年以来,人形机器人仿佛一夜之间走出实验室,在吸引人们关注的同时,成为投资圈的新宠。
人形机器人只比机器人多了个“人形”,何以如此与众不同?人形机器人为何一定要做成“人形”?
成立于2022年1月的深圳逐际动力科技有限公司(以下简称逐际动力),从创立之日起就瞄准了“通用机器人”研发制造这条赛道。其创始人张巍在回答高飞抛出的上述问题时,谈到了“人形”的独特之处。
“我觉得,机器人和AI的使命不同,AI代替人的部分思考和决策,而机器人本质上要替代人劳动,所以它必须能动。”张巍说,各式各样的机器人本质上只做两件事:移动和操作。而通用机器人的特点,就是在这两种能力上都能达到接近人的环境适应能力和对任务的泛化性。
张巍提到,如果只需要机器人具有通用的移动能力,它可以不需要双臂;而只要论及通用的操作能力,双臂、双腿都是必须的,否则就不能做许多的人的工作。
他还谈到,大模型的出现,让“通用”和“专用”有了更多意义。“大模型强调先构建一个通用的基础模型,然后在上面‘生长’出专用的能力,这是系统化解决AI泛化能力问题的一个关键。”
在张巍看来,软件算法的通用性要靠大模型,而机器人与物理世界交互的通用性要靠人形机器人。
“所以我觉得人形机器人一定要做成人形,而且是有两条腿的人形机器人。”他说。
北京银河通用机器人有限公司(以下简称银河通用)是一家比逐际动力还年轻的人形机器人创新企业,由归国学者、北京大学助理教授王鹤创办。自2023年5月成立至今,它已经拿到超7亿元融资。业内人士对其最新估值为30亿元。不过,银河通用现阶段研发的人形机器人并没有两条腿,它的“双腿”是一个可以360度活动的轮盘。
“银河通用从创立的第一天,目标就是实现通用机器人。”王鹤说,走通用机器人之路需要一个过程——逐步从“单一场景、多任务、可移动”过渡到“多场景、多任务”,最后实现“全场景、全任务”。
王鹤认为,在这个过程中,人形机器的形态在不同阶段有最适合、最经济、最稳定的载体,在对应场景中“沿途下蛋”、创造价值。
他进一步解释了现阶段银河通用人形机器人“为何有两只手却没有腿”。“我们先选择在几个特定场景如药店、超市等,让机器人帮助上货、下货。在这些场景下,只要是平地,360度轮式就够用。”
人形机器人“小脑”更受关注
如果粗略地将人形机器人重要的技术分成3块:大脑(智能水平)、小脑(身体协调和运动能力)、本体(机器人硬件等),“行家”更关注它的哪部分呢?
答案是“小脑”。
清华大学交叉信息研究院助理教授、北京星动纪元科技有限公司创始人陈建宇虽然是“90后”,但他已是机器人行业的“老兵”,有10多年的机器人和AI研发经验。
“‘大脑’‘小脑’‘本体’同等重要,但对人形机器人来说,我个人认为‘小脑’最重要,因为它是人形机器人最基础、赖以立足的部分。”陈建宇说,如果只有大脑和本体,人形机器人“只是一堆会思考的烂铁”。
陈建宇同时提到,现在人形机器人的“小脑”相对于其他部分,技术是最薄弱的,也是不确定性最高的。
“‘大脑’的发育有不断进化的大模型技术,机器人本体也有许多可以借鉴的硬件新技术,但我们发现,现在大部分机器人操作和运动能力的技术源头,还是十几年前甚至几十年前工业机器人或扫地机的技术。”他说,这让他对人形机器人的发展前景感到担忧。
当前,人形机器人的双手和双腿还不能像人一样又稳、又快,还灵活,能够“上得厅堂、下得厨房”帮人们做事,甚至稍微需要一些灵巧度的事情,机器人都有可能搞砸,比如在倒水的时候捏碎一只玻璃杯。
因此,当谈及人形机器人最关键的技术能力时,几位技术派的创业者不约而同地提到两个关键词——泛化和通用。
“看一款人形机器人是不是真厉害,就在演示的时候给它捣乱——走的时候突然踢一脚、给它设置一些障碍物,或者在它要做一个抓取动作时把目标物突然移开,看它能不能稳定、智能地去适应变化或完成任务。”陈建宇说。
王鹤和张巍的答案虽然和陈建宇的不太相同,但讲的是同一回事。
王鹤说,银河通用现在着重关注机器人上半身的“手-眼-脑”的协调。例如,看它抓取物体是否能够做到不限材质、色泽,能不能通过机器视觉的泛化能力在完全陌生的环境中有强大的适应性。“第一是它的泛化能力有多强,第二是它能不能用自然语言顺畅地与人沟通,然后实现零代码部署。”
“我看机器人先看腿。”张巍说,他认为人形机器人不是传统机械臂公司的延续,而是一个“本质就是要‘长’出两条腿的新物种”——这两条腿既要能完成本职工作,有对地形的泛化能力,还要能支撑双臂完成全身协同的操作。
“这是双腿存在的价值。”张巍说。
人形机器人何时才能“下地干活”
相比银河通用、逐际动力这些“新锐”势力,成立于2016年的杭州宇树科技有限公司(以下简称宇树科技)算得上是一家“老牌”机器人公司。在创始人、CEO王兴兴的带领下,宇树科技并没有“All in”(全部押进)人形机器人,而是四足机器人和人形机器人“两条腿”走路。目前,宇树科技的四足机器人不但实现了量产,还在多个行业的数十个项目上展露应用潜力、实现商品化,俨然是四足机器人企业“龙头”。
“如果在三五年前有投资人问我,宇树科技做不做人形机器人,我会坚决反对做人形机器人。”王兴兴说,这缘于他的研发经历。在上大学时,他就尝试做过小型人形机器人,当时的失败经历让他意识到,当前人类科技无法驾驭那么复杂的机器人系统。
改变上述看法的是惊艳到王兴兴的大模型技术。2023年,宇树科技开始涉足人形机器人。一年半后,宇树科技已经发布了两款人形机器人。
“人形机器人的发展节奏,无论硬件还是软件,都超出了我的预期。”王兴兴说,他希望到2025年,能看到推理性能和运动水平同步进化的AI模型。“只要给它看一个演示视频,它就能学会一个动作。”
这不是一般的进步。王兴兴认为,如果这些能够实现,将给人形机器人未来应用落地创造巨大空间。到那时,就不必再去想“人形机器人何时才能‘下地干活’”这个问题了。
王鹤和王兴兴都认为,即便是现在,人形机器人的技术也已经到了产业化的边缘。他们预计,到2025年,人形机器人将在某些固定场景产生一些具有商业价值的落地应用;3年后,全球范围内诞生更加通用的机器人“是概率很大的事”;而随着资本对AI、机器人持续不断的巨量投入,未来5至10年,人形机器人有望成规模地进入工厂,甚至人类家庭。
不过,张巍对此有不同的理解。他认为,人形机器人的赛道用时间衡量比较难,因为这条赛道的产业发展是“事件驱动”而非技术驱动,关键要看什么时候找到“关键事件开关”。他还提醒,“避免过早的商业化”或许对人形机器人未来的商业化更友好,毕竟谁也不想看到人形机器人的产业落地走AI最初“智能不够就靠人工打补丁”的老路。
陈建宇则提出,根据美国社会学家艾弗雷特·罗杰斯提出的“创新扩散模型”,任何创新产业都会有早期使用者愿意尝试、试错,人形机器人产业也是如此。“相信近两年就会看到各个行业人形机器人的早期试用者。”
《中国科学报》 (2024-11-11 第3版 综合)