■斯峒
百度副总裁、AI技术平台体系(AIG)总负责人王海峰
百度的人工智能,正在让我们更加快捷地触及“知识”。
设想在百度中搜索“长城的长度”,传统的结果是一个包含了这个关键词的网页链接列表,用户只有点击链接,或者通过百度反馈的摘要内容,来获取长城长度这个“知识”。但现在,用户体验有了显著的提升,实际的搜索结果将会直接呈现:“长城的长度:21196.18千米”。
这就是知识图谱的威力,通过这项技术的大规模应用,百度正致力于将人与“知识”连接起来,智能获取知识。
现如今,知识图谱已经大规模应用到了日常生活当中,正悄悄改变着以往的使用体验。
人工智能的核心技术
知识图谱是一个宏大的数据模型,可以构建庞大的“知识”网络,包含世间万物构成的“实体”以及它们之间的“关系”,图文并茂地展现知识方方面面的“属性”,让人们更便捷地获取信息、找到所求。知识图谱将人与知识智能地连接了起来。
知识图谱可谓是人工智能的重要技术基石。近些年蓬勃发展的人工智能本质上是一次知识革命,其核心在于通过数据来观察感知世界,通过数据来快速、自动地获取知识,通过知识做预测、做自动化、做端到端的智能化服务,产生无穷多的机会,最终实现目标。
“知识图谱技术包括知识的获取、组织、运用和传承等,这将是人工智能核心基础能力。”百度副总裁、AI技术平台体系(AIG)总负责人王海峰表示。
知识图谱的重要性也被政府所关注,《新一代人工智能发展规划》提出,要“重点突破知识加工、深度搜索和可视交互核心技术,实现对知识持续增量的自动获取,具备概念识别、实体发现、属性预测、知识演化建模和关系挖掘能力,形成涵盖数十亿实体规模的多源、多学科和多数据类型的跨媒体知识图谱”。
百度在知识图谱方面的发展与成就,为《新一代人工智能发展规划》作了注脚。百度在人工智能方面的技术路线,也与国家的发展规划相得益彰。
知识图谱创造智能应用
知识图谱能够对各类应用进行智能化升级,为用户带来更智能的应用体验。实际上,知识图谱已经大规模应用到了日常生活当中,正悄悄改变着以往的使用体验。目前,知识图谱已经在百度的生态中展现实力。
首先是智能问答,利用知识图谱理解用户搜索语义,并给出正确答案。例如本文开头提到的“长城的长度”,这是一个典型的有标准答案的问题,自然难不倒百度知识图谱。不仅如此,他们可以做得更好更多。例如,“春节还有多少天”这样需要根据当前日期来进行判断的问题也不在话下,甚至是“李白描写春天的诗”这样的开放性问题,都可以通过百度知识图谱获得准确详尽的解答。
其次是相关推荐。例如,当用户搜索某个明星时,系统会自动根据人物关系,给出推荐人物等。而在搜索“九寨沟”时,不仅有九寨沟的景区介绍,还有其中各景点分布介绍和推荐。在信息流推荐上,知识图谱也发挥着重要的作用,通过知识图谱,百度会给用户推荐个性化的内容,甚至还可以自动生成文章。据了解,百度知识图谱每天都会给信息流内容打数万个标签,每年甚至可以自动生成数十万篇稿件。
再次是对话系统,这在百度度秘上有着充分的发挥。在“度秘”上,用户可以进行多轮的对话交互,提交文理科、考试成绩等信息,系统根据这些信息,推荐适合他填报志愿的学校。
百度汉语也是知识图谱的重要应用场景。当用户在汉语学习中遇到困难,可以通过搜索引擎以及背后的知识图谱技术,获得专业的解答。比如可以直接搜索“承上启下的意思”,也可以搜索“承上启下的造句”,全面学习这个成语释义和用法。而对于不认识的字,也可以搜索“一丘之貉的貉怎么写”“凹的笔顺”“一个木一个斤是什么字”来获得专业解答。
智能提醒通过融入知识图谱技术,让用户体验获得极大提升,不仅可以帮助用户主动订阅快递等提醒,还可以实现智能的信息流推送,帮助用户获取到感兴趣的文章、视频。
百度学术中也有知识图谱的身影。通过知识图谱,百度学术已经形成了数百万中文学者库,数以亿计的学术论文实体,可以每年响应数十亿次学术服务请求,为海内外科研工作者提供了全面的学术资源检索和优秀的科研服务体验。
除此以外,知识图谱还在百度各个产品线发挥作用,包括百度地图、百度金融、百度教育等。通过与传统企业、政府机构合作,百度知识图谱在客服、销售以及打击网络诈骗上也发挥出重要作用。
百度知识图谱部主任架构师朱勇表示,知识图谱基于丰富的属性和关系,能够精准地理解用户需求,展现事物的方方面面,聚合实体相关的信息和服务,提供最能满足需求的智能结果。
百度技术发挥重要作用
近年来,百度在前瞻技术上的每一次突破,都引发了业界的关注。而事实上,每一次技术突破,都彰显了百度背后的技术战略与实力。
为实现“搜索所得即知识”,王海峰带领团队为这个目标注入了大量前沿技术。据介绍,将知识转化成为智能应用,大致的流程是:知识抽取,从庞大的网页中获取知识——将知识形成图谱——进一步的知识挖掘以对知识进行整合补全——推理和计算形成知识认知能力。而在这背后,还有大规模自动化图谱生产和服务,以支撑知识图谱全流程的运营。
知识抽取,需要从海量网页中找到实体,并精准找到实体边界,同时抽取出实体相关的知识,抽取出有信息量的知识,将海量网页转化成为一个个知识。
知识图谱目前已经在百度生态拥有广泛应用,拓展无限可能。同时,知识图谱开放平台已经悄然上线。
目前,两项服务已经可以接入,分别是数据引入和数据抽取。通过数据引入服务,开发者可以提交优质数据,融入知识图谱技术改善用户搜索体验,实现数据价值最大化。通过数据抽取服务,开发者可以便捷、快速地抽取、解析全网结构化数据。
据了解,目前已经有数万的第三方站点接入知识图谱,数据重量已经达到数十亿条,日均更新的URL达到百万量级。
在人工智能发展的浪潮中,百度不仅喊出了“All in AI”的口号,更是在行动上展示了自身的底气。知识图谱将成为百度弄潮人工智能时代重要支撑,推进人工智能的全面创新。
《中国科学报》 (2017-09-28 第8版 首都科技)