百度取得汉语语音识别技术重大突破—新闻

作者：郑金武来源：中国科学报发布时间：2015/11/11 13:36:28

选择字号：小中大

百度取得汉语语音识别技术重大突破

使汉语安静环境普通话语音识别准确率接近97%

■本报记者郑金武

百度语音技术部负责人贾磊

近年来，借助机器学习领域深度学习技术的发展，以及大数据语料的积累，语音识别技术突飞猛进。但如何进一步提升语音识别准确率、识别速度，有效控制成本，使语音技术未来能够大规模产业化应用，仍是一个很大的难题。

而这个难题在近期获得重大突破。

不久前，百度公司对外宣布，其在汉语语音识别方面已获得重大理论和产品突破，研究出的更先进的汉语语音识别技术，能够使机器的语音识别相对错误率比现有技术降低15%以上，使汉语安静环境普通话语音识别的准确率接近97%，进一步接近人的识别能力。

据悉，这是继2011年引入深度学习技术，相对错误率降低20%~30%之后，语音技术领域又一次具有标志性意义的重要进展。

一次框架性的创新

近年来，语音识别技术突飞猛进。2011年，随着深度学习技术被引入语音识别领域，语音识别技术翻开了新的篇章。随后的几年里，CNN（卷积神经网络）、LSTM（长短时记忆模型）、CNN混合LSTM的建模技术在语音识别工业产品中不断涌现，并持续提升语音识别产品效果。

“百度研发出了基于多层单向LSTM的汉语声韵母整体建模技术，并成功把连接时序分类（CTC）训练技术嵌入到传统的语音识别建模框架中，再结合语音识别领域的决策树聚类、跨词解码和区分度训练等技术，大幅度提升线上语音识别产品性能。”百度语音技术部负责人贾磊说。

据介绍，百度此次研发的突破性技术，是汉语语音技术上一次框架性的革新。

贾磊表示，该技术相比于工业界现有的基于状态建模的深度学习的语音识别产品技术，相对错误率降低15%以上。

据了解，这一技术创新并非依靠单点的突破，而是“打造基于多层单向LSTM的汉语声韵母整体建模技术”、“引入CTC技术”、“与语音识别领域的传统技术相结合”三大方面共同作用的结晶，是一项框架性的创新。

“这一创新不仅对学科发展有重要的促进作用，而且还可以直接应用在产品上，助推语音识别技术大规模产业化进程。”贾磊说。

三大因素助力攻克十年技术困局

百度在语音识别技术方面的突破，得益于三大因素：大数据机器学习与语音识别传统理论结合、创新的算法、强大的计算能力。贾磊表示，这是百度成功突破语音识别技术困局的重要原因。

2015年6月初，这项突破性研究就已经展开。“我们详细地研究和分析了汉语状态建模、声韵母整体半音节建模、音节整体建模等多种汉语建模单元，并深入探索了不同建模单元的CTC训练的价值和作用。”贾磊介绍。

功夫不负有心人。经过短短4个月的不断探索与试验，百度在世界范围内率先攻克了在汉语领域使用CTC技术训练单向LSTM的高精度建模难题。

相比双向LSTM，单向LSTM的好处十分明显。“单向比双向更适于产品系统。因为用双向LSTM技术建立的模型，需要使用语音的未来一段时间的数据，这就造成了解码器的额外等待，会给语音识别造成延时；而单向则不需要，解码过程和数据达到同步进行，识别速度更快。”贾磊介绍，“虽然单向LSTM在做建模单元的整体建模上有诸多好处，但一直以来，因其存在解码路径右边信息的不完整性，导致识别效果较低，始终超不过传统的三状态建模。”

实际上，LSTM与CTC技术都已经存在很长时间。但10多年来，LSTM与CTC的结合一直没有在语音工业领域成功应用。

“LSTM和CTC建模技术结合，其核心难度之一就在于海量数据下的深度学习需要强大的计算能力，这两项技术的计算量比传统深度学习的计算量大一个数量级。直接按照数学公式去实现上述算法，LSTM和CTC训练就需要采用单帧递推模式，这样的训练速度在工业条件下的将近1万小时训练数据下，几乎是不可能实现的。”贾磊解释说。

为此，百度进行了一系列的算法革新，并利用百度大数据平台计算优势，成功地攻克了这一学术训练难题，打破十年来的技术困局。

据了解，对比谷歌2015年9月份于Interspeech 发表的在英文领域的类似研究成果，百度的训练数据是谷歌的4~5倍，模型训练参数规模是谷歌的10~20倍。而该技术成功突破的核心要素之一就是训练能力的极大提升，大模型大数据下的难度要比实验室小数据、小模型的情况下难很多。百度研发出的全新训练算法，更接近工业大数据的产品实践，是可以推广到10万小时训练的全新技术。

仅凭上述深度学习技术的创新，要想推动汉语识别技术的产品重大突破是远远不够的。深度学习技术必须和行业专业理论结合才能以质变的方式提升工业产品技术。

“过去，有很多机器学习技术应用于语音识别领域取得了不错的效果，但是在解决产品上线的计算量和用户等待时间方面总是差强人意。”贾磊指出，百度根据自己在语音产品实践中的长期积累和经验，经过大量实验详细的比较，在尝试了音节、声韵母和状态等不同长度的建模单元之后，最后探索出最适合汉语的声韵母整体建模。最终，把上述成果一起应用到语音识别的传统技术框架中，结合决策树聚类、跨词解码技术和区分度训练等一系列传统技术，实现了汉语语音识别工业产品技术的实质性提升。

更深刻的变革正在来临

在解决工业难题的同时，百度还最先对工业情况下的CTC技术在语音产品中发挥巨大作用的本质进行了深入探索。相关理论的探索和发现，对于CTC技术进一步在语音识别中的创新研究打下了很好的基础。

据悉，百度产品团队还探索了语音识别中CTC训练后的模型具有超快的解码速度的本质原因，并向业界公开其相应的解码器加速策略。

如今，百度已经开始使用上万小时的样本进行模型训练。不难预测，不久，语音识别技术发展将很快进入10万小时数据样本训练阶段，只有这样，才能覆盖千差万别的用户口音差异。再考虑环境变化的影响，未来训练语料量可能会突破100万小时。

在贾磊看来，随着训练数据量的迅速增加，如何实现大规模LSTM建模和CTC的有效训练，会成为一个核心的技术难题。“以后，语音识别领域的深度学习将进入数百GPU并行训练的状态，理论创新和算法技术创新都将围绕大数据展开。语音识别技术的研发方法，相对于现在必将发生深刻的变革。”

除此之外,CTC建模技术进一步降低了语音识别应用的解码成本，随着适合深度模型计算的专业硬件的大量涌现，语音识别云服务的成本将大量降低，从而推动语音交互技术的更大范围的普及。

贾磊告诉我们，这次百度做出的重大技术创新，更大程度上是百度对计算能力极限挖掘的一次尝试。“未来这样的尝试一定还会更多”。

《中国科学报》 (2015-11-10 第8版专题)

以下评论只代表网友个人观点，不代表科学网观点。

�� SSI �ļ�ʱ��

编辑部推荐博文
逻辑混乱的草图，比高温更让人窒息！科学网2025年6月十佳博文榜单公布！热能、势能、光能和射线发电大脑如何从睡眠中醒来，这是个问题不收版面费的C刊 \|对青年学者友好中国科学院纳米能源所王中林院士/翟俊宜等综述更多>>