|
|
|
|
|
郑南宁院士谈具身智能:人形只是载体,关键是解决真实世界的真问题 |
|
|
7月2日,中国工程院院士、西安交通大学人工智能与机器人研究所所长、人机混合增强智能全国重点实验室主任、西安交通大学原校长郑南宁,在中国浦东干部学院“科技前沿大讲堂”第五讲上,发表题为《智能跃迁:从模型驱动到意图驱动的具身智能》的演讲。
当前具身智能持续升温、人形机器人频繁进入公众视野,郑南宁首先提醒,具身智能并不等同于人形机器人。它是人工智能发展的一种形态,核心在于智能系统能否与真实环境交互,形成闭环的智能过程,并通过交互提升自身智能水平,甚至改变系统自身结构。
“人形机器人只是具身智能实现的一种载体。”郑南宁表示,判断具身智能系统的价值,最重要的不是屏幕上的展示Demo,而是能否针对某项具体的应用,能否解决真实世界的真问题,能够走入真实的物理环境中。
中国工程院院士、西安交通大学人工智能与机器人研究所所长、人机混合增强智能全国重点实验室主任、西安交通大学原校长郑南宁 主办方供图
人工智能的思想起点可以追溯到亚里士多德
在解释人工智能的底层逻辑时,郑南宁从狭义人工智能讲起,他表示,当前主流人工智能仍然是数据和模型驱动的智能,面向特定任务或领域,在一些领域能够比人类更好地完成任务,但并不具备通用性,很难实现跨领域自主学习。
这种智能的源头,并不只是近年的大模型或神经网络。郑南宁提到,人工智能更深层的思想起点,可以追溯到古希腊亚里士多德的三段论。
三段论的重要性不在于具体结论,而在于展示了一种思想:推理不是神秘的心理活动,它可以脱离具体内容,被抽象为稳定的形式结构。换句话说,智能可以被看作形式关系的过程。
为什么说亚里士多德是指向“狭义AI的思想起点”?郑南宁指出,亚里士多德逻辑的核心不是“智能本身”,而是在封闭语境中,如何保证推理的正确性,这是典型的已知前提,明确规则,可推导结论。
现代AI把形式变成计算,而当代生成式AI又进一步把计算扩展为表示、学习和生成。郑南宁指出,今天的AI不是凭空“思考”,而是通过大量数据学习规律,并在不确定情境中做出预测。面对文字、图像、声音、代码和行为数据,AI并不是像人一样先理解世界、再给出答案,而是通过海量样本学习输入和输出之间的关系。
他以函数作比喻:现代AI尤其是深度学习的核心,不是“理解”,而是学习一个函数。输入一段文字,输出下一词;输入图像,输出图像类别;输入状态,输出对应的动作。这些本质都是用一个复杂函数去拟合数据中的统计规律。
所以AI不是记住每一个答案,而是在学习“输入和输出之间的复杂关系”。当数据足够多、模型足够大时,这个函数就可能逼近非常复杂的现实规律。
为什么大模型看起来像人类一样思考?郑南宁认为,关键在预测、泛化和涌现。当前大语言模型最核心的训练目标其实很简单:给定前文,预测下一个词或 Token(词元)。但这个看似简单的目标,带来的结果却非常深远。为了更准确地完成预测,模型需要在训练过程中学习语法、语义、知识和推理模式,并逐渐逼近语言生成背后的真实结构。
所以,AI看起来像在“思考”,并不是因为它真正像人类一样理解世界,而是因为在统计结构、大规模数据和高维函数逼近的共同作用下,简单的预测目标在规模扩大后产生了更复杂的能力,这也就是所谓的机器能力“涌现”。
郑南宁进一步指出,从本质上看,AI是在大规模数据驱动下,通过梯度优化学习一个高维概率函数,使其能够对世界进行可压缩的统计建模与预测。但这并不意味着AI真正像人类一样理解世界。
人工智能还不能做什么
在郑南宁看来,当前数据和模型驱动的智能已经展现出强大能力,但它的局限也十分明显,其中最典型的问题就是“大模型幻觉”。
幻觉,是指模型在缺乏事实支撑或逻辑校验的情况下,生成语义连贯但事实错误或虚构的信息。郑南宁表示,幻觉不仅体现在细节性错误上,在多轮对话和复杂任务规划中,还可能造成系统性误导。特别是在面向复杂环境的智能体中,一旦出现幻觉,就可能导致系统行为出错。
幻觉背后,是当前大模型主要以统计相关性驱动语言生成,缺乏对世界知识的结构化表征,尤其缺乏因果推理能力。虽然一些模型已经开始具备自我验证、思维链约束和校验机制,但幻觉问题仍然值得重视。
除了幻觉,郑南宁还举了常识、情感、想象力、合作行为和复杂运动等例子,说明人工智能与人类智能之间的差异。比如,人类看到一幅图,往往先形成整体认知,再判断局部细节;机器识别图像时,则更多从像素和模式出发。人类可以从诗句、经历和环境中产生情感与想象,而机器即便能生成看似有情感的回答,也并不意味着它拥有真实的内心体验。
郑南宁认为,智能机器不能只从工程机器的角度去理解,而应将其视为一系列具有自身行为模式和生态反应的个体。许多对人类而言很自然的能力,对机器来说仍然很难,例如攀爬、游泳、舞蹈等复杂运动背后的直觉判断和行为生成。
人形机器并不是具身智能的全部
演讲中,郑南宁也专门回应了当前对具身智能的讨论。
他表示,当前人工智能技术发展迅速,无论是在学术界、商界甚至媒体等都是非常热门的话题。但首先需要澄清的一点是,具身智能是人工智能发展的一种形态,它要求智能系统具有与环境交互的能力,通过这种交互来提升智能水平,甚至改变智能系统自身的结构。通常来说,这种与环境交互、形成闭环的智能过程,是具身智能的重要形态。
郑南宁指出,当前很多讨论,包括资本的“包装”,容易让外界把具身智能直接等同于人形机器人,实际上,人形机器人只是具身智能的一种实现载体,并不是具身智能的全部。
“最重要的不是屏幕上的展示,而是一定要针对一个应用,解决真实世界应用中的真问题。”郑南宁表示,判断一个智能系统的价值,关键是看它是否能够真正进入物理环境,解决真实问题,而不是只看技术演示。
在他看来,意图驱动智能是从狭义人工智能迈向通用人工智能的一条路径,这种智能在工业场景中并不一定表现为一个具体的人形机器人。
现场有制造业企业代表提问,未来具有意图驱动能力的智能模型,落地生产制造业企业里最有价值的应用场景会有哪些,企业该如何为此做好准备?
郑南宁表示,首先,工艺参数可以成为智能系统数据的一部分,系统据此判断制造过程中的改进空间;公司也可以出现类似“检验工程师”的智能系统,把产品最终的技术指标输入智能系统,可以在生产过程中监督,帮助人类工程师管理、调度整个制造业生产流程。第三,运行感知传感器,在生产过程中,相关状态都可以通过物理形态再造,在数字孪生世界中展现出来,同时具备这三点智能,已经可以极大地提高生产效率,并且降低产品故障率;随后在产品进入市场后,运维过程中的问题也可以回溯到设计和制造环节,形成闭环,反过来改进原有设计和生产过程。郑南宁认为,这些都是广义上与物理世界密切关联的具身智能。
“所以,具身智能不应被简单理解为某个具体的、可见的物理结构。只要一个智能系统能够感知环境,并在决策、行为生成与环境反馈之间形成闭环,就可以被视为一种具身智能形态。”郑南宁说。
原标题《郑南宁院士谈具身智能:人形只是载体,关键是解决真实世界的真问题》
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。