郑南宁院士谈具身智能：人形只是载体，关键是解决真实世界的真问题—新闻

作者：喻琰来源：澎湃新闻发布时间：2026/7/3 23:08:09

选择字号：小中大

郑南宁院士谈具身智能：人形只是载体，关键是解决真实世界的真问题

7月2日，中国工程院院士、西安交通大学人工智能与机器人研究所所长、人机混合增强智能全国重点实验室主任、西安交通大学原校长郑南宁，在中国浦东干部学院“科技前沿大讲堂”第五讲上，发表题为《智能跃迁：从模型驱动到意图驱动的具身智能》的演讲。

当前具身智能持续升温、人形机器人频繁进入公众视野，郑南宁首先提醒，具身智能并不等同于人形机器人。它是人工智能发展的一种形态，核心在于智能系统能否与真实环境交互，形成闭环的智能过程，并通过交互提升自身智能水平，甚至改变系统自身结构。

“人形机器人只是具身智能实现的一种载体。”郑南宁表示，判断具身智能系统的价值，最重要的不是屏幕上的展示Demo，而是能否针对某项具体的应用，能否解决真实世界的真问题，能够走入真实的物理环境中。

中国工程院院士、西安交通大学人工智能与机器人研究所所长、人机混合增强智能全国重点实验室主任、西安交通大学原校长郑南宁主办方供图

人工智能的思想起点可以追溯到亚里士多德

在解释人工智能的底层逻辑时，郑南宁从狭义人工智能讲起，他表示，当前主流人工智能仍然是数据和模型驱动的智能，面向特定任务或领域，在一些领域能够比人类更好地完成任务，但并不具备通用性，很难实现跨领域自主学习。

这种智能的源头，并不只是近年的大模型或神经网络。郑南宁提到，人工智能更深层的思想起点，可以追溯到古希腊亚里士多德的三段论。

三段论的重要性不在于具体结论，而在于展示了一种思想：推理不是神秘的心理活动，它可以脱离具体内容，被抽象为稳定的形式结构。换句话说，智能可以被看作形式关系的过程。

为什么说亚里士多德是指向“狭义AI的思想起点”？郑南宁指出，亚里士多德逻辑的核心不是“智能本身”，而是在封闭语境中，如何保证推理的正确性，这是典型的已知前提，明确规则，可推导结论。

现代AI把形式变成计算，而当代生成式AI又进一步把计算扩展为表示、学习和生成。郑南宁指出，今天的AI不是凭空“思考”，而是通过大量数据学习规律，并在不确定情境中做出预测。面对文字、图像、声音、代码和行为数据，AI并不是像人一样先理解世界、再给出答案，而是通过海量样本学习输入和输出之间的关系。

他以函数作比喻：现代AI尤其是深度学习的核心，不是“理解”，而是学习一个函数。输入一段文字，输出下一词；输入图像，输出图像类别；输入状态，输出对应的动作。这些本质都是用一个复杂函数去拟合数据中的统计规律。

所以AI不是记住每一个答案，而是在学习“输入和输出之间的复杂关系”。当数据足够多、模型足够大时，这个函数就可能逼近非常复杂的现实规律。

为什么大模型看起来像人类一样思考？郑南宁认为，关键在预测、泛化和涌现。当前大语言模型最核心的训练目标其实很简单：给定前文，预测下一个词或 Token（词元）。但这个看似简单的目标，带来的结果却非常深远。为了更准确地完成预测，模型需要在训练过程中学习语法、语义、知识和推理模式，并逐渐逼近语言生成背后的真实结构。

所以，AI看起来像在“思考”，并不是因为它真正像人类一样理解世界，而是因为在统计结构、大规模数据和高维函数逼近的共同作用下，简单的预测目标在规模扩大后产生了更复杂的能力，这也就是所谓的机器能力“涌现”。

郑南宁进一步指出，从本质上看，AI是在大规模数据驱动下，通过梯度优化学习一个高维概率函数，使其能够对世界进行可压缩的统计建模与预测。但这并不意味着AI真正像人类一样理解世界。

人工智能还不能做什么

在郑南宁看来，当前数据和模型驱动的智能已经展现出强大能力，但它的局限也十分明显，其中最典型的问题就是“大模型幻觉”。

幻觉，是指模型在缺乏事实支撑或逻辑校验的情况下，生成语义连贯但事实错误或虚构的信息。郑南宁表示，幻觉不仅体现在细节性错误上，在多轮对话和复杂任务规划中，还可能造成系统性误导。特别是在面向复杂环境的智能体中，一旦出现幻觉，就可能导致系统行为出错。

幻觉背后，是当前大模型主要以统计相关性驱动语言生成，缺乏对世界知识的结构化表征，尤其缺乏因果推理能力。虽然一些模型已经开始具备自我验证、思维链约束和校验机制，但幻觉问题仍然值得重视。

除了幻觉，郑南宁还举了常识、情感、想象力、合作行为和复杂运动等例子，说明人工智能与人类智能之间的差异。比如，人类看到一幅图，往往先形成整体认知，再判断局部细节；机器识别图像时，则更多从像素和模式出发。人类可以从诗句、经历和环境中产生情感与想象，而机器即便能生成看似有情感的回答，也并不意味着它拥有真实的内心体验。

郑南宁认为，智能机器不能只从工程机器的角度去理解，而应将其视为一系列具有自身行为模式和生态反应的个体。许多对人类而言很自然的能力，对机器来说仍然很难，例如攀爬、游泳、舞蹈等复杂运动背后的直觉判断和行为生成。

人形机器并不是具身智能的全部

演讲中，郑南宁也专门回应了当前对具身智能的讨论。

他表示，当前人工智能技术发展迅速，无论是在学术界、商界甚至媒体等都是非常热门的话题。但首先需要澄清的一点是，具身智能是人工智能发展的一种形态，它要求智能系统具有与环境交互的能力，通过这种交互来提升智能水平，甚至改变智能系统自身的结构。通常来说，这种与环境交互、形成闭环的智能过程，是具身智能的重要形态。

郑南宁指出，当前很多讨论，包括资本的“包装”，容易让外界把具身智能直接等同于人形机器人，实际上，人形机器人只是具身智能的一种实现载体，并不是具身智能的全部。

“最重要的不是屏幕上的展示，而是一定要针对一个应用，解决真实世界应用中的真问题。”郑南宁表示，判断一个智能系统的价值，关键是看它是否能够真正进入物理环境，解决真实问题，而不是只看技术演示。

在他看来，意图驱动智能是从狭义人工智能迈向通用人工智能的一条路径，这种智能在工业场景中并不一定表现为一个具体的人形机器人。

现场有制造业企业代表提问，未来具有意图驱动能力的智能模型，落地生产制造业企业里最有价值的应用场景会有哪些，企业该如何为此做好准备？

郑南宁表示，首先，工艺参数可以成为智能系统数据的一部分，系统据此判断制造过程中的改进空间；公司也可以出现类似“检验工程师”的智能系统，把产品最终的技术指标输入智能系统，可以在生产过程中监督，帮助人类工程师管理、调度整个制造业生产流程。第三，运行感知传感器，在生产过程中，相关状态都可以通过物理形态再造，在数字孪生世界中展现出来，同时具备这三点智能，已经可以极大地提高生产效率，并且降低产品故障率；随后在产品进入市场后，运维过程中的问题也可以回溯到设计和制造环节，形成闭环，反过来改进原有设计和生产过程。郑南宁认为，这些都是广义上与物理世界密切关联的具身智能。

“所以，具身智能不应被简单理解为某个具体的、可见的物理结构。只要一个智能系统能够感知环境，并在决策、行为生成与环境反馈之间形成闭环，就可以被视为一种具身智能形态。”郑南宁说。

原标题《郑南宁院士谈具身智能：人形只是载体，关键是解决真实世界的真问题》

特别声明：本文转载仅仅是出于传播信息的需要，并不意味着代表本网站观点或证实其内容的真实性；如其他媒体、网站或个人从本网站转载使用，须保留本网站注明的“来源”，并自负版权等法律责任；作者如果不希望被转载或者联系转载稿费等事宜，请与我们接洽。

编辑部推荐博文
封面文章 \| 《针刺研究》：小鼠施针疗“青松” 科学网2026年5月十佳博文榜单公布！几十年来，人们可能已经错过常见中风的真正原因从刘备的夷陵大败看大模型的危害 AiScholar 参考文献真实性检测正式上线！糖尿病 / 肥胖研究发哪里？这本代谢研究国际期刊是首选更多>>