目前,情感识别研究主要集中在语音情感、面部表情、生理信号情感等。但无论是对哪种情感载体的识别,数据集都被看成是情感识别的前提和先决条件。图片来源:unsplash
■本报记者 秦志伟
人类与人工智能的分界线是什么?是情感,如语言、面部表情、肢体动作等“感性”表现载体。为此,若要人工智能机器真正实现“人”的部分,就需要在其“理性”的思考背后加入“感性”的情感。
前不久,美国斯坦福大学团队创建了一个新的视觉艺术标注数据集ArtEmis。对于给定的一幅画作,该数据集算法不仅能感知画作整体的情感色彩,还能区分画中人物的情感。该数据集之所以有这样的效果,正如华中科技大学人工智能与自动化研究院教授伍冬睿所说,与其他现有同类数据集相比,ArtEmis数据集的标注使用了更加丰富、感性且多样化的语言。
然而,该数据集也只是有助于基于图像或文本的情感计算研究。因为人类的情感是多样的,更何况人类对大脑及大脑情感处理机制的研究还有待深入。
耗时也耗费财力
人工智能领域先驱、美国麻省理工学院(MIT)教授马文·明斯基曾说,如果机器不能够很好地模拟情感,那么人类可能永远也不会觉得机器具有智能。1995年,MIT教授Picard提出“情感计算”概念,并将其定义为一种与情感有关、源自于情感的或可能对情感有影响的计算。
“现在,美国、日本、德国、中国等纷纷开展了情感机器人的研究,而情感识别则是实现情感交互的第一步。”哈尔滨工业大学计算机科学与技术学院教授李海峰介绍道。
目前,情感识别研究主要集中在语音情感、面部表情、生理信号情感等。但无论是对哪种情感载体的识别,数据集都被看成是情感识别的前提和先决条件。
“情感识别的一个重要问题是训练数据很难获得,而训练数据的数量和质量又直接关系到情感识别模型的性能。”伍冬睿向《中国科学报》介绍,即使是相对容易的图片分类,如被广泛使用的ImageNet数据集,MIT的最新研究也指出,该数据集中5.83%的标签不可信赖。
他进一步解释道,情感本身很微妙、主观、不确定,对一段语音或视频,需要多人进行评价,然后融合,才能得到比较真实的情感标签。
就以ArtEmis数据集为例,该数据集对名画网站WikiArt上1119位艺术家的 81446件艺术作品,进行了一一标注。其中,每个作品要求至少5个标注者,写出他们看到这幅画作时的主导情绪,并解释产生这种情绪的原因。
具体来说,标注者被要求在观察一件艺术品后,先从8种基本情绪状态中,选出一种主要情绪。如果这种情绪没有包含在8种情绪中,可将其标注为“其它”。标注者在完成第一步后,再用文字进一步解释为什么产生这种感觉,或者为什么没有任何强烈的情绪反应。这份标注工作最终由亚马逊众包平台的6377名标注者完成,总共耗时10220个小时,即425天。
已有的数据集也是类似的过程。例如,常用的DEAP视频情感数据集,每段视频由14~16个人共同标注;VAM语音数据集,每段语音由6~17个人共同标注。
“构造一个好的情感计算数据集对于情绪识别非常重要,但也会花费大量的人力、财力和时间。”伍冬睿坦言。
情感是极其复杂的心理状态
以基于脑电信号的情感计算为例,伍冬睿发现,目前公开的用于情感计算的数据集几乎都是采用图像、视频、音频等外部方式诱发情绪变化。但当人们看到一个被标注为“高兴”的视频时,是否真的诱发了自身的“高兴”情绪和对应的生理信号反应,则很难确定。因为这里标注的“高兴”是大部分人的平均值,具体到个人可能会产生差别。另外,即使是“高兴”,也有不同的程度。这进一步增加了情感计算的不确定性和复杂度。
从事语音情感识别研究的李海峰对此也有同感。现有的语音情感识别基于计算机科学研究,利用机器学习的算法进行训练与识别。“但情感是人类极其复杂的心理状态,研究人类大脑的情感处理机制尤为重要。”
他指出,情感识别算法缺乏心理学对情感研究成果的指导,情感识别框架也缺乏人类大脑的复杂机制和工作模式的指导。
但李海峰相信,认知科学的快速发展将有助于突破目前情感识别研究的瓶颈。
他进一步介绍,目前用于情感识别的网络模型需要基于认知理论进一步改进,探索人类情感处理机制,并对认知模型进行实用化输出,提出相应的机器学习方法,进一步建立类脑多尺度神经网络计算模型以及类脑人工智能算法。
此外,针对目前高质量的情感语料库少等问题,李海峰建议,研究人员可制定情感数据库标注的相关国标以明确详细的标注规则和方法,并建立拥有完整情感标注信息的优质语音情感数据库。
更好地为人类服务
在汕头大学工学院计算机技术与科学系教授姜大志看来,如果说传统计算机只是反映了理性思维,也就是重现了人类的“脑”,那么人工情感计算将为它增添感性思维,也就是重现人类的“心”。
“人工智能情感扩展并包容了情感智能,而情感则是人类智能思维中的一种高层次的存在。”他表示,人工情感的应用前景非常广泛,可以为有情感、意识和智能的服务机器人的设计提供技术支持,可以促进搜索引擎的人性化,可以让人机交互系统变得更加和谐等。
例如,在对老人的看护中,人工智能可以根据微表情的识别来判断老人是否有老年痴呆的情况,从而进行及时提醒。
提高犯罪审讯的效率也是情绪识别重要作用之一。影视剧中经常出现的一幕是嫌犯坐在审讯室若无其事,任凭警察审讯,始终一言不发。如果在审讯室装个摄像头、传感器,另一边的技术室实时监测分析嫌犯的脉搏、体温、表情、喉结蠕动等,更有助于掌握嫌犯的心理变化。如中国政法大学和宜兴市检察院联合建立了微反应实验室,并通过对犯罪嫌疑人转瞬即逝的表情的成功捕捉,调整了审讯的方向,有助于引导嫌犯交代事实。
除此之外,这种技术在涉及安全作业时也起到了作用,例如对司机进行疲劳程度监控等。
据伍冬睿介绍,我国早在1998年就将和谐人机环境中的情感计算理论研究列为当年信息技术高技术探索的主题。2018年7月,中国科协发布的12个领域60个重大问题中,人机情感交互位列信息科技领域6个问题之一。
值得一提的是,首届情感计算与智能交互(ACII)国际会议于2005年在北京召开。
2018年,兰州大学教授胡斌、华南理工大学教授徐向民、东南大学教授郑文明等完成的“心理生理信息感知关键技术及应用”荣获国家技术发明奖二等奖;中科院自动化研究所研究员陶建华团队研制的语音识别、语音合成和情感识别产品,分别应用在四十余家大型跨国公司产品中;上海交通大学教授吕宝粮团队采集并公开的上海交通大学情绪脑电数据集SEED是国际上最常用的两个脑机接口标准数据集之一,已被全球770余所高校机构使用。
“如果没有情感识别、理解与表达,人工智能为人类更好地服务是不可能实现的。”伍冬睿说。
《中国科学报》 (2021-04-15 第3版 信息技术)