AI与人类正常交流还有多远？—新闻

作者：沈春蕾来源：中国科学报发布时间：2022/6/30 13:41:34

选择字号：小中大

AI与人类正常交流还有多远？

图片1.jpg

黄民烈介绍《AI对话系统分级定义》。（受访者供图）

为什么“小度”“小爱”等智能助理可以与人类进行对话和交流呢？为什么它们有时候也会“不知所云”“答非所问”呢？

清华大学计算机科学与技术系长聘副教授黄民烈告诉《中国科学报》：“如果说自然语言处理是人工智能‘皇冠上的明珠’，那么AI对话系统则是自然语言处理中最难、最核心的任务之一，是‘明珠中最亮的那颗’。”

6月28日，黄民烈联合二十多位学者共同制定的全球首个《AI对话系统分级定义》（以下简称《分级定义》）正式发布。

AI对话系统分级定义（受访者供图）

“机器人也回答不了”

图灵测试是常用的人工智能测试，测试者在不知情的情况下，向人类和AI系统随意提问。如果AI系统让平均每个测试者做出超过30%的误判，那么就认为AI系统通过了图灵测试，具有人类智能。

“起源于图灵测试的AI对话系统，是人工智能领域最重要的研究方向之一。”黄民烈说，当前，AI对话系统被业内认为是衡量人工智能发展水平的重要因素，代表了人工智能的发展方向。

据了解，在工业应用领域，AI对话系统已呈现出“爆炸式”增长的态势，其中，以“小度”“小爱”等为代表的智能助理，正广泛应用于个人助理、智能家居、智能汽车中，以谷歌对话机器人Meena和LaMDA、Facebook聊天机器人Blender为代表的开放域闲聊产品中，与大众日常生活紧密相关。

然而，有业内人士指出，当前作为前沿技术的AI对话系统标准存在缺失，造成其在应用中呈现出水平参差不齐、评价体系不一的现状，导致了业界因认知不统一而对人工智能交互水平出现误解，也引起了社会上对于AI是否具有意识、自然语言对话伦理和道德等方面的广泛讨论。

“《AI对话系统分级定义》的制定旨在衡量AI对话系统的能力水平，从而促进AI对话系统的进一步研究，同时为工业界应用提供参考。”黄民烈表示，考虑到AI对话系统任务繁多、评价维度多样、技术路线丰富，撰写小组在制定《分级定义》时仅关注完全由机器主导的对话系统，人机混合的对话系统不在考虑范围内。

换言之，人所掌握的知识是有限的，机器人也不例外。“一些简单的问题，”对话系统可以回答，但一些开放边界的问题，对话系统受限于自身知识水平就很难回答。”华为诺亚方舟语音语义首席科学家刘群向《中国科学报》举了一个例子，“有人在跟父母吵架后，问机器人该怎么办，机器人也回答不了，这需要更多知识和场景的注入。”

黄民烈进一步解释道，为了在实际应用中发挥价值，《分级定义》的制定是从用户可感知，以及可观察、可测量、可度量的角度出发，不考虑系统的具体技术实现方式，也不区分助理类任务、闲聊、知识对话等，均以“场景”进行表述。

衡量将有据可依

近年来，随着深度学习技术的不断发展，AI对话系统已经从基于规则的第一代和以传统机器学习为核心的第二代，发展到以大数据和大模型为显著特征的第三代，对话能力产生了革命性变化，在开放话题上展现了惊人的对话能力。不久前，谷歌研究员称AI已具备人格的讨论帖一度登上热搜。

黄民烈介绍，《分级定义》从自动对话能力、对话质量高低、单一/多个场景、跨场景的上下文依赖和自然切换能力、拟人化程度、主动和持续学习能力、多模态感知与表达能力等角度出发，将AI对话系统划分为从L0～L5的六个等级，等级越高，AI对话系统水平越高。

小米集团技术委员会主席、AI实验室主任王斌向《中国科学报》表示：“参照《分级定义》，当前工业界的AI对话系统水平最高已发展至L2～L3之间，比如小米旗下的智能生活助理“小爱同学”等。”

但是，参加制定《分级定义》的专家学者也纷纷表示，AI对话系统要实现更高级别还需要具备记忆、联想和推理等能力。

王斌在AI对话系统的研发过程中，时常感到难以评判所开发对话系统的水平。他期待《分级定义》发布后，AI对话系统能力水平的衡量将有据可依，对于用户来说，能够更多地关注、更清晰地理解AI对话系统；对行业来说，有助于企业明确研发方向，也能够促进行业更规范地发展。

“AI不会取代人”

2020年，OpenAI开发的自然语言处理模型GPT-3问世，其在文本方面具备空前强大的能力，由GPT-3训练的模型写了篇专栏文章发表于《卫报》。

未来的AI对话系统会取代一些传统的职业工作吗？“现在传媒界对AI就比较恐慌，尤其是AI可以辅助写作。”北京师范大学新闻传播学院院长张洪忠告诉《中国科学报》，AI对传媒业而言是生产力的提升，而不是将它妖魔化。以前是编辑写稿，后来电脑写稿，现在是AI辅助写作，都是一种辅助的工具，是生产力的提升，不会取代人。”

张洪忠一直非常关注社交机器人所带来的伦理挑战，他希望《分级定义》的发布对于思考、讨论、制定法律规范形成有力参考，以规避AI对话可能产生的伦理问题。

刘群以《分级定义》中L4中提及的人设、人格、情感、观点为例指出，即使是目前最好的AI对话系统也很难实现，“因为机器很难把握人类的思想背后隐含的背景知识、常识和逻辑等”。

刘群认为，《分级定义》能够引发AI对话系统研究领域的思考和讨论，帮助研究人员更好地发现系统的问题并明确研究方向，其制定在业内是一次大胆的尝试。

未来，AI对话系统最高级别的应用为复杂情感任务，《分级定义》的发布将促进AI对话系统在情感任务中体现更高水平，从而促进人工智能未来在情感陪伴、心理健康、虚拟人、元宇宙等方面的应用，大大释放人力和物力成本，促进前沿科技走进大众日常生活。

此次《分级定义》的发布，是AI对话系统走向规范化、系统化发展的第一步。接下来，黄民烈还将联合该领域相关研究机构及研究者开展白皮书的编纂，聚焦AI对话系统的发展历程，详细阐释《分级定义》的制定目的和标准。

编辑部推荐博文
封面文章 \| 柴达木盆地钾盐成矿特征与找矿方向纺锤状定向导汗纳米网实现柔性生化电一体化监测系统电子科技大学孟德彪副教授与朱顺鹏教授专访研究生培养过程中组会的必要性参加研究生复试面试后的几点感想好课堂的样子，正在杀死好课堂更多>>