■本报记者 计红梅
学术搜索一直是谷歌、微软、百度等IT巨头角力的战场之一。最近,微软学术搜索频频发力,给这一市场又增添了一些变数。
10月28日,在计算领域大师云集的第十七届“二十一世纪的计算”大型学术研讨会上,微软与清华共同签署了“学术大数据项目”合作备忘录,力图将清华在大数据领域的研究成果与微软在搜索方面的丰富经验相结合,进一步完善微软学术搜索的结果。此前,微软学术搜索刚刚上线了一个新版本,并将之嵌入必应搜索引擎。
“与传统的搜索引擎相比,我们更强调的是‘智能’。”在接受《中国科学报》记者采访时,微软研究院首席研究员、互联网研究中心总监王冠三对微软学术搜索的“新气象”作了这样的概括。那么,这一“智能”的学术搜索又是怎样的呢?
让搜索也有“图书管理员”
“二十一世纪的计算”大会是微软亚洲研究院自成立之初便开始举办的学术盛会,已成为中国及亚太地区规模最大、最具影响力的计算机科学教育与研究盛会之一。而本届大会的主题是“人工智能”。
王冠三告诉《中国科学报》记者,从去年开始,微软就将人工智能技术应用到了搜索上,这使得必应搜索可以利用云计算、大数据等技术变得更加“聪明”,为用户提供更定制化的服务。正因为此,目前上线的微软学术搜索新版本,基于必应的大数据搜索技术及微软研究院的先进算法,整合了Azure云计算能力,并在产品性能、数据更新、使用体验等方面进行了深度优化。
“传统的搜索引擎基本上是依靠关键词,而我们更强调的是智能搜索。”王冠三告诉记者。他举了一个例子,就好像在图书馆里检索相关书目,如果知道关键词是什么,例如书名或者作者,就可以通过检索索引很快找到相应的材料。而当你对关键词不太清楚的时候,则可以寻求图书管理员的帮助。
“现在我们在做的事情,就是提供类似图书管理员这样的‘智能’服务。”王冠三说。以人工智能(Artificial Intelligence)为例,如果依靠关键词检索,那么搜到标题中带有“Artificial Intelligence”词汇的文章将数不胜数。但是,对于一个新人来说,无论是按时间检索还是按相关性检索都无法在短时间内对人工智能有比较全面的了解。例如,人工智能的定义是什么?相关领域有哪些?哪些会议与之密切相关?这个领域有哪些重要学者的研究值得关注?
通过微软学术搜索,则可以得到一个学术图谱式的认知。其搜索结果可以通过对学术论文、国际会议、权威期刊、研究专家及领域等专业学术资源实体的聚合,构建出一个学术图谱体系。具体到一些论文,可能这些论文的标题中并没有“人工智能”这四个字,但微软学术搜索可以在了解语义和学科的情况下作出智慧排序,而这与传统的搜索有很大不同。
异构的网络
此次微软与清华合作后,清华将成立跨学科研究的科技大数据研究中心,而清华大学计算机科学与技术系副教授唐杰将担任这一中心的执行主任。
唐杰告诉记者,清华学术大数据成果主要体现在其研发的学术社会网络服务系统AMiner上。该系统以学者为中心,利用数据挖掘和社会网络分析技术,从海量文献和互联网信息中自动获取研究者相关信息,如学者的职位、邮件地址、相关论文等,以此来分析学者们的研究领域和成果,将相关知识点连接起来。
与之相比,微软的优势则是借助必应高效的分布系统抓取并解析大量结构化页面和论文,获得更大覆盖率与高准确率的数据。因此,微软与清华合作,就可以将知识与学者关联起来,建立信息和人融合的异构网络,提供更多的搜索功能和知识的服务。
这一合作对于解决学术搜索中受到广泛关注的“重名排歧”问题具有重要意义。王冠三告诉记者,微软与清华合作的内容之一,就是充分利用搜索引擎检索到的所有信息,如社交网络上的相关信息,以让搜索结果进一步优化。“例如,利用现在的微软学术搜索,搜迈克尔·乔丹时,会发现有五六个人叫这个名字,而我们利用重名排歧的方法,就会给搜索者以提示,你是找医生、球星还是某个领域的教授,利用这些辅助信息把准确的搜索对象检测出来。”
唐杰坦言,重名排歧是一个很难解决的问题。目前的解决方法主要有机器学习、基于规则的方法等。“未来我们希望通过众包的方式,让大家不仅把自己的论文排歧,还可以排歧导师和朋友的,在排歧过程中得到一些小分值奖励,而这些小分值可以用来免费下载论文等。这样就可以把整个生态系统打通了。”
开放的平台
记者在必应的首页看到,目前微软学术搜索支持的语言是英语。未来,与清华大学等国内的机构合作后,中文等语言是否也可以加入这一行列呢?
在唐杰看来,搜索语言的扩展与内容密切相关。“希望未来有一天搜索的内容会变成开放的市场,每一家与科技相关的出版社、数字内容提供商都可以贡献出自己的数字化内容,这样就解决了中文、英文等语言问题。”
王冠三也表示,微软学术搜索将致力于打造开放的平台。现在,爱思唯尔、汤森路透等内容提供商以及美国计算机协会(ACM)、电气与电子工程师学会(IEEE)等学术权威机构都是微软的合作对象及客户。未来他希望会有更多的数字内容提供商参与到这一平台中来。
搜索到的论文是否能够全文下载也是学者们关注的一个问题。王冠三告诉记者,随着国际学术界开放获取运动的推进,以后只要是开放获取、没有版权问题的期刊内容,通过微软学术搜索都可以免费下载。而一些不属于开放获取范畴的内容,微软学术搜索也会按照要求,把用户带到出版商的主页去。如果高校或研究机构与该出版商签订有协议,学者们就可以全文下载这些论文。
《中国科学报》 (2015-11-03 第5版 技术经济周刊)