作者:程唯珈 来源: 中国科学报 发布时间:2019-3-25
选择字号:
寻求智能时代的语音空间

 

■本报见习记者 程唯珈

当前,互联网语音与影像的内容遍布生活各个角落,而语言当之无愧地成为信息最重要的载体。如何实现高效的语音处理、识别和关联检索,成为互联网音频检索业务智能化的竞争关键。

“基于人们互联网连接方式的改变,以语音为核心的智能交互将是大趋势。”在接受《中国科学报》采访时,中科院声学所研究员颜永红如是说。然而,与美国等发达国家相比,我国智能语音处理技术的民用市场普及率较低,面对新一轮科技竞争,智能化语音发展成为国家需求。

在国家自然科学基金委员会(以下简称自然科学基金委)重大研究计划“视听觉信息的认知计算”支持下,颜永红带领团队就多人多方对话中的语音分离、内容分析与理解开展深入研究,并取得了良好的市场效应。复杂声学场景下的语音分离、内容分析与理解是信息处理领域前沿性和基础性的研究课题。

颜永红表示,该研究最大的亮点在于多语言建模。“我们做的混合语音识别,比如中文里面夹杂着英语,系统都可以有效地识别与解码。而且通过数据共享,我们建立了语音的统一表达,这样在引擎构建的时候,可以大幅削减数据量需求。”

在基础理论和关键技术研究的基础上,团队还构建了语音交互系统和海量音频内容检索系统,并针对国家重大需求研究开发了相应的平台进行应用推广。

基于海计算和云计算环境的音频内容识别与理解服务平台就是其中之一。该平台重点解决了在实际应用环境下语音识别技术面对噪声、信道和口音的稳健性问题及大规模并发处理等实际应用难题。

“在互联网领域,我们先后跟国内三大互联网企业——百度、腾讯和阿里巴巴,进行了卓有成效的合作,推出了语音输入、语音和音乐检索、语音客服等应用。

另一个则是多语种海量音频信息自动处理平台。团队研发出语音关键词识别、说话人/语种识别、固定音频检索等核心技术,有效提高了识别系统对噪声、信道及口音的适应性和在实际应用环境下的识别性能,构建了符合实际业务流程的多语种海量音频自动理解系统。

在颜永红看来,这些都离不开自然科学基金委的统筹规划。“视听觉的认知计算”重大研究计划专家指导组充分发挥顶层设计作用,聚集了各领域的优秀人才,并尽最大可能发挥已有优势项目的潜力。

颜永红表示,团队未来将继续加强基础研究建设,开展对韵律识别等领域的前瞻研究并将项目集成与推广。“假以时日,基于语音操作的科技产品会有更大的市场和更广阔的用途。”他说。

《中国科学报》 (2019-03-25 第4版 自然科学基金)
 
 打印  发E-mail给: 
    
 
以下评论只代表网友个人观点,不代表科学网观点。 
相关新闻 相关论文

图片新闻
中国超重元素研究加速器装置刷新纪录 彩色油菜花又添7色!总花色达70种
考研复试,导师心仪这样的学生! 地球刚刚经历最热2月
>>更多
 
一周新闻排行 一周新闻评论排行
 
编辑部推荐博文