最近中国学术期刊《计算机科学技术学报》(Journal of Computer Science and Technology)在2008年第1期上发表了一篇题为“Clustering Text Data Streams”(中文题目:文本数据流聚类)的学术论文。
该论文以日常的电子邮件分类为例展开论述。首先,分析了现有文本数据聚类方法具有较低聚类精度的重要原因,指出了语义过滤模型对提高文本数据聚类精度的有效性,同时介绍了文本数据流聚类和传统文本数据聚类的不同点和文本数据流聚类的特殊难点。接下来,分析了语义过滤模型的特点,指出现有语义过滤模型难以用于文本数据流的动态环境之中。然后,将现有语义过滤模型扩展到了文本数据流环境之中,提出了一种扩展的语义过滤模型。基于扩展的语义过滤模型,提出了两种大规模文本流聚类的新方法。最后,通过一系列的对比实验和严格理论证明充分论述了新方法的有效性和正确性。
随着网络和信息技术的快速发展,现实生活中人们往往会接触到大量的文本流数据,如即时通讯工具ICQ和QQ等产生的大量聊天记录,连续到达的电子邮件以及定时更新的网络新闻等等。如何从这些大量的文本数据流中挖掘有用的知识?文本数据流聚类是有效的方法之一,可用于文本数据流的分类。
比如,对连续到达的电子邮件内容进行主题提取,利用文本流聚类工具可以根据不同主题将邮件内容分成不同的类型,如包含重要活动安排的邮件或者普通日常信息的邮件等等。邮件的这种分类和“导航”功能有助于用户更好地处理大量的不同类型的邮件,在垃圾邮件盛行的今天,其重要性不言而喻。
利用文本数据流聚类工具对QQ用户的聊天记录进行分类,进而对QQ用户进行潜在的分类。这种分类更有助于相关企业如网络广告公司有针对性地向不同类型的用户投放网络广告。
利用文本数据流聚类工具也可对网络商店的销售情况和客户信息进行在线实时的分类。如,某客户的基本资料是20-30岁的男性,基本收入是5000-8000元之间,在网络商店上成功购买了电器MP4。
当客户成功点击“确定”按钮购买某商品后,系统可以维护一个实时更新的点击流。该点击流可以看作是一个文本流,由记录客户的基本信息以及商品信息(不同客户的基本信息及购买的商品信息可能都不同)。通过对该点击流的聚类分析可以得到如下的实时分类信息:比如20-30岁的男性更可能购买某品牌的MP4和某品牌的手机等等。这种分类信息可以实时地被更新,不但可以给其他在线的客户提供“购买”向导,也可方便企业实时掌握商品的销售动态。
此外,文本流聚类还能应用到其他相关的领域,如连续更新的网络新闻组、网络文本数据的分类收集、以及在线文本数据的组织和网络文本的主题检测等等。
目前,文本数据流聚类已成为数据库和数据挖掘研究领域的重要课题之一。和传统的文本数据聚类不同,在文本流的相关应用中,文本数据往往以流的形式连续地出现,这给传统的文本聚类带来了巨大挑战:
(1)文本流中数据连续出现的特点使得不能一次将整个数据集读入到内存处理;
(2)文本流聚类要求实时的响应时间,因此不能对数据集进行多趟扫描等等。该论文提出的新方法具有较高的聚类精度,较低的系统开销,能够满足实时环境下文本流的数据分析需求。
在国家自然科学基金、广东省自然科学基金以及广州市科技计划等相关项目的支持下,论文的研究者正在对该课题做进一步的研究,新方法有望广泛应用到相关的具体应用之中。(来源:人民网科技)
(《计算机科学技术学报》(Journal of Computer Science and Technology),23(1): 112-128,Yu-Bao Liu,Ada Wai-Chee Fu)