作者:赵广立 来源:中国科学报 发布时间:2024/6/25 13:39:20
选择字号:
这项智能技术凭啥获国家科学技术进步奖一等奖?

 

6月24日,2023年度国家科学技术奖在京揭晓,科大讯飞作为第一完成单位申报的“多语种智能语音关键技术及产业化”获国家科学技术进步奖一等奖。据科大讯飞介绍,这是深度学习引发新一代人工智能浪潮以来,人工智能领域首个国家科学技术进步奖一等奖。

由于评选周期调整等因素,2023年度国家科学技术奖竞争激烈。“多语种智能语音关键技术及产业化”有哪些技术突破?它为啥能成为人工智能领域的“国奖之光”?

“这是科大讯飞继2002年和2011年分别获得国家科学技术进步奖二等奖之后,首次获得国家科学技术进步奖一等奖。”科大讯飞副总裁、研究院院长刘聪对《中国科学报》表示,多语种智能语音技术对于支撑人机交互、人类语言互通及国家安全等需求具有战略意义,产业前景广阔,科大讯飞经过多年攻关和积累,攻克了多个技术难题,提出并突破了四个方面的技术创新。

关键技术突破之一:复杂语音信号解耦建模

语音识别研究中最具挑战的是远场、噪声、多人语音混叠等现象导致的“鸡尾酒会”效应典型难题。

针对此,刘聪介绍说,科大讯飞提出了多通道语音信号时空分离建模方法和多维度语音属性解耦表征方法,实现语音信号中内容、噪声等高度耦合的多维属性特征解耦,解决了“鸡尾酒会”的难题,使得复杂场景下语音识别准确率得到重大突破。

在这些技术的支撑下,科大讯飞连续4届获得国际多通道语音分离和识别比赛 CHIME 冠军;连续8届获得国际语音合成大赛 Blizzard Challenge 冠军。2015年,相关技术首次在大会演讲场景实现语音转写超过人类速记员水平;2019年起连续六年服务全国两会;个性化语音合成首次应用于媒体平台节目配音(《创新中国》),并得到广泛应用。

关键技术突破之二:多语种共享建模

要在多语种技术方面取得突破,必须解决小语种智能语音系统构建所面临的知识匮乏、训练数据稀缺等难题。

为此,科大讯飞设计了全新的多语种通用音素体系和基本语言单元,实现多语种统一音素韵律体系的构建,又通过基于元学习的多语种预训练和基于语族分组的多语种共享建模。刘聪介绍说,通俗地说,就是将不同的小语种进行分类,找到同类语种的共同规律,进行分析建模和训练。

这一策略最终显著提升了小语种语音系统性能。据介绍,相关技术在2021 年在国际低资源多语种语音识别竞赛 OpenASR 中获得15个语种受限赛道和7个语种非受限赛道的冠军。2024年,科大讯飞将语音属性解耦表征、多语种多任务共享建模等关键技术成果集成于星火语音大模型,首批37个主流语种的语音识别效果超过OpenAI Whisper V3。另外,在奇瑞、一汽等的交互评测中,科大讯飞的技术效果也优于国际车载语音技术竞品赛伦思(原Nuance车载公司),在华为的评测中也领先谷歌。

关键技术突破之三:语音语义联合建模

复杂应用场景下,语音交互、语音翻译往往面临着深层次语义理解困难、专业性不足等问题。

科大讯飞提出了语音语义互增强的鲁棒口语理解技术,有效提升语音交互、语音翻译等复杂场景的语义理解准确率;提出了多源知识增强的可信文本生成技术,专有词汇及领域知识引用的准确率得到提升。

刘聪说,相关技术于2018年在业内首次达到CATTI考试英语二级《口译实务(交替传译类)》合格标准;并在2021~2023 年连续三届获得国际权威机器口语翻译评测比赛 IWSLT冠军,覆盖同传、离线、方言翻译等多类任务。

该技术成果还在多个方面得到应用,例如:英语口语评测首次达到人类专家水平,成为可满足高考应用要求的技术,累计服务超1.3亿考生;智能客服系统规模应用,累积服务超8亿人,多行业对话成功率超90%。

关键技术突破之四:国产异构硬件平台训练及推理加速

在驱动智能技术的“引擎”方面,目前使用国产芯片开展智能语音算法模型训练和推理,面临着性能低、适配难等问题。

刘聪介绍,面对这一困境,科大讯飞提出硬件亲和的变长输入算子融合和联合统一量化感知训练技术,通过软硬件协同优化的动态张量算子自动融合方法,实现对语音等变长输入的训练性能优化达到国际主流芯片水平;同时,通过多硬件联合的量化计算模拟,模型单次训练后可在不同硬件平台上一键部署。

2023年,科大讯飞与华为联合攻关大模型国产化算力底座核心难题,建设了首个万卡全国产算力平台“飞星一号”,填补了国产超大模型训练平台空白。目前,已有5个国产化集群建成,支持语音合成、识别、翻译、交互等技术能力日服务8.73亿次。

跨越“技术牛”到“产业牛”的鸿沟

刘聪告诉记者,基于这些关键技术的持续攻关和突破,该项目获批牵头建设了4个国家级创新平台:语音产业界唯一的国家级研究开放平台语音及语言信息处理国家工程研究中心、智能语音国家新一代人工智能开放创新平台、认知智能全国重点实验室、国家技术标准创新基地;并主导编制11 项国际和国家标准,获授权发明专利 257 项,近五年累计获得国际权威评测冠军20 余项。

更难得的是,科大讯飞跨越了“技术牛”到“产业牛”的鸿沟,相关技术产品市场占有率居国内前列。例如,讯飞在业界率先推出双屏翻译机新品类;牵头语音同传行业标准,服务全球50余个国家超4亿观众,每年翻译服务达51.5亿次,在北京冬奥会、进博会、博鳌论坛、国家安全、海关等重大活动和场景中获广泛应用。同时,相关技术还为中国制造”破浪出海装上AI助手,中国汽车出口十强企业,有8家和科大讯飞合作,产品覆盖23个语种,出口60余个国家。

 

 
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
数百个包含种族歧视的植物名称将被改变 平均每棵树干中都有超过1万亿个微生物
野外回归的墨脱百合在原生地首次开花 科学家创有机小分子催化新纪录
>>更多
 
一周新闻排行
 
编辑部推荐博文