近日,中国科学院声学研究所HNC研究团队集多年从事自然语言理解处理的核心技术,成功研发出具有语义理解特点的“网络不良信息检测系统”,将为净化网络世界的内容做出贡献。目前这一系统主要针对网络上出现的色情、反动、低俗等不良信息,根据指定的网站自动进行内容下载、检测并给检测报告。不同于以往的基于关键字词的检测系统,能够区分出不良信息和批判不良信息的网页内容,对不能做出判断的内容还能提出警告,供人工判别。和传统的检测系统相比能够大大地提高网页的处理数量和减少人工干预的次数。
另外,据悉该系统通过更换知识库还可以用在热点信息跟踪、舆情分析等领域。
中科院声学所从20世纪80年代末开始探索模拟人脑语言智能的自然语言理解处理模式,创立了“概念层次网络(Hierarchical Network of Concepts,简称HNC)理论”,并发展形成了HNC自然语言理解处理技术。HNC的最大特点是能够进入语义深层处理自然语言的内容,而不是仅仅利用语言的表层信息进行处理。因此尽管涉及同样的关键词,但是HNC技术能够区分不良信息和对不良信息进行批判的网络内容。通过多年的科研攻关,HNC团队已经取得了多项成果,形成了自主知识产权的自然语言理解处理技术,为形成满足信息时代要求的各种特定的信息处理技术奠定了坚实的基础。“网络不良信息检测系统”的研发就是将这些自然语言理解处理技术与先进的网络技术结合而形成的。