视觉知识和多重知识表达是AI 2.0发展关键—新闻

作者：秦志伟来源：中国科学报发布时间：2021/7/17 18:04:48

选择字号：小中大

中国工程院院士潘云鹤：

视觉知识和多重知识表达是AI 2.0发展关键

一个小孩不会说话时，但却看到杯子就知道抓过来喝水，这是为什么？“他们学到更多的是视觉知识。”在7月14日举办的2021中国·宁波新一代人工智能学术峰会上，中国工程院院士、中国工程院原常务副院长潘云鹤解释道。

以往的认知心理学研究认为，人类记忆的视觉知识要远多于言语知识。为此，潘云鹤系统提出了“视觉知识”概念。

这些年，图像识别技术的突破提高了计算机对人脸、文字、指纹、医学图片等识别的准确率，进而推动智能汽车、安全监控、机器人、无人机、智能制造等广泛发展，形成AI对经济社会发展的广泛推动。

“但以往研究的一大弱点是视觉知识研究不足，视觉知识研究与应用是AI迈向2.0的关键”。潘云鹤说。在他看来，要认清视觉知识的五个基本问题，分别是视觉知识表达、视觉识别、视觉形象变化模拟、视觉知识学习和多重知识表达。其中，视觉知识和多重知识表达是关键所在。

一是视觉知识表达。谢泼德的心理旋转实验、心理折纸实验及莫邪的动物大小比较实验等认知心理学实验表明，视觉知识具有不同于言语知识的特征，包括能表达对象的空间形状、大小、色彩、纹理和空间关系，能表达对象的动作、速度及时间关系，能进行对象的时空变换、操作与推理等。

“计算机图像学是表达几何，而非表达视觉概念。”潘云鹤强调。

他进一步解释，视觉概念有层次结构、动作结构，应有包容性和灵活性；视觉命题表达视觉概念的空间关系，骑着表达为场景结构，后者表达为动画结构；最后形成由一组视觉命题构成的视觉述事。

二是视觉识别。潘云鹤介绍，从AI早期开始，模式识别便作为一个重要研究领域，其中图像和视频识别是发展最快的方向。曾使用基于数字图像处理技术的图像识别技术，是一种从局部特征综合为整体的方法。

近年来，深度学习提供了另一种方法。即用大量标识的图像训练出深度神经网络模型（DNN）用以图像识别，显著提高正确率，已获广泛应用。他表示，DNN的优点是可以从标识的样本数据中通过学习而自动获得知识，也可以用于非符号数据的识别，如图像与语音识别；但其缺点也同样明显，如不可解释、不可推理即需要大量被标识的数据来训练网络等。

值得注意的是，人类在进行视觉识别的方法与DNN的方法不尽相同。它不仅分析视网膜传入短期记忆中的数据，而且动用了长期记忆中的心象，即视觉知识。正因为如此，人类的视觉识别往往只需少量的数据，且可以解释、推理。

因此，“在视觉识别中，不但使用数据，且使用视觉知识，是重要的研究方向”。潘云鹤说。

三是视觉形象变化模拟。形象变化是人类在设计创意和问题求解时重要的职能行为。而模拟形象变化，需要操作模拟视觉形象的物理变化、生物变化、想像变化等。以想像变化为例，即在创意与设计新产品中的各种想象性操作，如西游记、阿凡达、狮子王、小飞象等。

实际上，视觉形象变化模拟在CAD、仿真模拟、计算机动画、儿童教育和数字媒体创意等领域应用十分广泛。按照数字媒体的不同，可分为从字符生成视觉形象、从一种视觉形象变换为另一种形象、从视觉形象生成文本等。

潘云鹤判断，计算机图像学（CG）已储备很多基础技术，但有待和AI打通。“做好了，有望形成新一代设计软件的基础。”

四是视觉知识学习。事实上，计算机视觉已看到形体重构的重要性，并积累了很多成果，如3D扫描重构形体、多相机重构形体、基于video重构形体等。但视觉知识学习则要将目标从形状重构进入到视觉知识概念和命题的重建，这需要对现有计算机视觉技术进一步研究。

“在此基础上，有望发展出视觉知识的自动学习，当前的场景图是此方向前进的一步。”潘云鹤表示，为此，当今AI、计算机图像学和计算机视觉三个领域的研究者特别需要联手，进一步研究视觉知识的自动学习。

五是多重知识表达。研究发现，人脑中的知识是多重表达的。在潘云鹤看来，在AI 2.0中的知识也应有很多表达，如知识的言语表达、知识的深度神经学习网络表达、知识的形象表达。

“AI的这三种表达是针对人类记忆中的三种不同的但是相同的内容。”他强调，AI 2.0要使多种知识表达相通使用，就是多重知识表达，而它将形成跨媒体智能和大数据智能的技术基础。

潘云鹤分析，从视觉知识的五大问题来看，问题一、二、四的解决有较好的基础，但问题三、五尚需大力攻关，“这是一块荒芜而肥沃的‘北大荒’，也是一块充满希望且值得勇探的‘无人区’”。

编辑部推荐博文
科学网2026年3月十佳博文榜单公布！封面文章 \| Mycology：重塑嗜热真菌细胞工厂构筑面向新一代建筑的高性能锌锰结构电池媒体报道集锦 \| 2026年1月文章推荐重新认识一种隐藏的膳食化合物人机环境系统智能：构造bit与token之外的智能更多>>