|
SQuAD挑战赛机器阅读理解精准匹配首超人类 |
AI强势开局,NLP未完待续 |
|
司罗
2018年伊始,人工智能就很是“惹眼”。1月11日、12日,在由斯坦福大学发起的机器阅读理解领域顶级赛事SQuAD(Stanford Question Answering Dataset)挑战赛上,历史上首次出现超过人类水平的机器阅读理解成绩:阿里巴巴数据科学与技术研究院(iDST)自然语言理解(NLP)团队提交的“SLQA模型”,与微软亚洲研究院提交的“R-NET模型”先后实现机器阅读理解精确匹配(Exact Match,EM) 达到82.44%和82.65%,略优于人类在2016年创下的82.304%的精准率。
获悉这一结果后,SQuAD负责人Pranav Rajpurkar难掩兴奋之情。他在社交媒体上表示,这是人工智能在2018年“一个强劲的开始”(A strong start to 2018)。
“超越人类”的“正确打开方式”
“阅读理解能力是人类认知环节最关键能力之一,也是汲取知识的主要方式。为了衡量计算机在此项任务上的水平,斯坦福大学NLP课题组设计了一套数据集SQuAD,用于方便NLP及相关领域研究人员进行有效评估。” 1月17日,阿里巴巴iDST–NLP项目负责人司罗在接受《中国科学报》记者采访时说:“阿里和微软都在EM的分数上小幅超过人类的EM分数,在一定程度上证明了计算机所采用的方法的有效性。”
SQuAD挑战赛是行业内公认的机器阅读理解标准水平测试,也是该领域顶级赛事,被誉为“机器阅读理解界的ImageNet”。每年都有来自全球学术界和产业界的研究团队都积极地参与其中,包括阿里巴巴、腾讯、微软亚洲研究院、艾伦人工智能研究院、IBM、Salesforce、Facebook、谷歌以及卡内基·梅隆大学、斯坦福大学等知名企业研究机构和高校。业界普遍认为,该项赛事对自然语言理解的进步有重要推动作用。
记者了解到,SQuAD挑战赛构建了一个大规模的机器阅读理解数据集(包含10万个问题),测试文章来源于500多篇维基百科文章。人工智能在阅读完数据集中的一篇短文之后,需要回答若干个基于文章内容的问题,然后与标准答案进行比对,得出精确匹配和模糊匹配(F1-score)的结果。
“因SQuAD评测采用的数据集有一定条件约束,比如篇章句式难易、问题类型、涉及词汇量不同甚或答案在文章中等,所以,这种有限范围内的‘超过人类’并不能说明机器已经超过人类的阅读理解能力。”司罗认真的说:“我们更愿意认为这次的进步是一个里程碑——那就是借助模型和算法,计算机进行文本的阅读理解工作成为可能。”
司罗同时认为,从技术发展的角度,这次机器在EM分数上超过人类得分对致力于NLP领域的广大研究人员来说,也是一个很大的鼓舞。
“深度学习模型在NLP领域的应用——在SQuAD阅读理解任务上,证明了其有效性。相对于之前采用的需要大量训练数据的统计学模型的方式,端到端的深度神经网络可以更好地发现一些潜在特征和表示,降低人工抽取特征的成本。”司罗解释说,如果用航空业的发展来做类比的话,类似于“从螺旋桨驱动变为了喷气式发动机驱动”。
“虽然在模型解释性上还需要进一步研究和探索,但我们相信这是一个充满希望和挑战的方向。”司罗表示。
并非盲目模拟人类思维
iDST-NLP团队提交的模型名为“SLQA”,这是该团队经不断研究后提出的“基于分层融合注意力机制”的深度神经网络模型,让阿里巴巴在全球自然语言理解研究领域脱颖而出。
“SLQA模型模拟了人类在做阅读理解问题时的一些行为,包括结合篇章内容审题、带着问题反复阅读文章、避免阅读中遗忘而进行相关标注等,从而实现阅读理解能力的提升。”司罗说,结合以上思路,团队构建的模型在阅读理解实操中“练就”了逐步聚焦并兼顾全局的解答方式,并最终收获佳绩。
这是否意味着机器已经可以并开始模拟人类思维了呢?司罗认为这种说法并不准确。
“准确的说法是设计机器的算法和模型中采用的方式是‘试图模拟人类的思维过程’。”司罗再以飞行器举例说,人类设计飞机时,是受到飞鸟的启示;但从原理上,飞机的制造源自对空气动力学的研究。“在空气动力学指导下研究鸟类飞行,并设计与之对应的飞行部件,才是有意义的。”
同样地,司罗团队在对阅读理解任务建模时,也并非盲目地试图模仿人类思维,而是基于人类思考方式的启示,在机器学习相关理论(如,可学习性)的指导下进行模型的设计。“我们将机器阅读理解拆解成很多与人类思维方式对应子问题,基于前人理论和实验发现,选择深度学习模型,并采用分层表示框架设计来完成这一目标。”
找到用武之地
司罗介绍说,机器阅读理解及问答技术已经在电商领域找到了合适的应用场景。“阿里小蜜”对交易规则的解读及“店小蜜”的商品售前咨询即是例证。
2017年“双11”期间,不少“剁手党”吐槽商家活动规则难懂、涉及红包的“阅读理解题”难做,纷纷前往网店咨询。殊不知,给出他们清晰解读的,95%都是机器人。
“在每次‘双11’等活动时,都会有大量的用户对活动规则进行咨询。以往,阿里小蜜的知识运营同学都需要提前研究淘宝和天猫上的活动规则,从一堆规则描述、活动介绍文本中提炼可能的问题。而通过机器阅读理解的运用,则让机器直接为用户提供规则解读服务,并呈现最自然的交互方式。”司罗说,如今阿里小蜜、店小蜜具有如同人一般的阅读理解能力,这使得问答产品体现出真正的智能,进一步提升服务效率。
近年来,机器人屡屡在一些考试中胜出,2017年答题机器人挑战数学高考、科大讯飞医考机器人挑战医考,今有阿里巴巴、微软的NLP模型在SQuAD中胜出。在人机对战中机器迎来一个又一个胜利,将会带来什么?
“我们更觉得是研究的结果可以落地到应用场景的一种表现,非常值得称赞。”司罗对记者说,所谓的胜利其实是之前人类不会对计算机的复杂问题解决能力有多高期望,但随着技术发展和相关研究成果的产出,渐渐让人类见到希望。“对这种成功的应用,我们可能有时会给出一些过高的褒奖。”
“万里长征的开始”
自然语言处理是实现机器和人机交互愿景的重要技术基石,机器阅读理解则可被视为自然语言处理领域皇冠上的明珠之一。在学术界已成为热门研究领域。在2017年ACL会议中,“Reading Comprehension(阅读理解)”成为录取论文中最热门的关键词。不过,司罗认为,目前的机器阅读理解技术对于解决wiki类客观知识问答已经取得比较好的结果,但对于复杂问题来说“仍处于比较初级的阶段”。
“机器阅读理解将让知识获取不受人脑的限制。但对于机器阅读理解的‘能理解会思考’的终极目标来说,现在还只是万里长征的开始。”司罗认为,对自然语言的更深层次的归纳总结、知识引用、推理归因以及知识图谱和迁移学习,将是机器阅读理解的未来发展方向。