6月26日,记者从腾讯获悉,其主导的新一代实时语音编码行业标准AVS3P10即将正式发布。
该标准由腾讯提议启动、推进和维护,以腾讯首款神经网络语音编解码器Penguins为原型,经过AVS音频组多家成员单位共同参与。
据介绍,作为首个系统性引入人工智能并实现真正意义上的低码率下高质量语音编码标准,AVS3P10的表现达到国际一流水准。仅需现有主流标准1/3的编码码率,就能实现同等清晰的音质。
这意味着,今后在线上会议、语音通话等实时音频场景,带宽要求大幅降低。即使在电梯、地库、隧道等网络很差的环境,也能实现清晰流畅的语音通话。
在有限的带宽条件下,想要将声音高质量传递到接收方,压缩原始数据、去除冗余信息的语音编码技术是关键。然而,基于现有主流音频编解码标准,当码率降低到10千比特每秒以下时,语音质量下降明显。
对此,Penguins将AI与传统技术紧密融合,从算法研究、工程化、产品化层面开展了系统性创新,打破传统香农定律的性能极限,引入大数据并在可控算力增量下提供了新的性能上界,从而对下一代通信系统,尤其是信源编码器部分,提供了新的技术基础和方法论。
多方测试表明,AVS3P10标准实现了6千比特每秒下的高质量语音通信,即使在“2G”网络下也能实现清晰通话。AVS工作组指出,“AVS3P10 实时语音编码,作为新一代的语音编解码技术标准,是对AVS系列标准的重要补充。”
据了解,在编解码、音频降噪、语音增强等领域,腾讯会议天籁实验室正在探索实时音频通信前沿技术,打造领先的实时音频通信端到端解决方案。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。