科学网—让奥巴马用中文演讲的“声音魔术”

作者：袁一雪来源：中国科学报发布时间：2016-12-2

选择字号：小中大

让奥巴马用中文演讲的“声音魔术”

■本报记者袁一雪

神经网络是人工智能研究方向之一，虽然它并没有一个严格的定义，但它基本的特点是试图模仿大脑神经元之间传递、处理信息的模式。

在科大讯飞公司2016年度发布会上，一段视频吸引了不少人的眼球：视频中，美国现任总统奥巴马用一段流利的中文预祝科大讯飞公司的发布会取得成功。

虽然并没有人真的听过奥巴马用中文演讲，但视频中播放的声音俨然是奥巴马的声音。原来，这种神奇的“声音魔术”是基于科大讯飞目前推出的一款名为“讯飞快听”的App。同时，另外一款名为配音阁的声音软件也有异曲同工之妙。

神经网络语音合成技术

其实，早在几年前，使用过GPS的人就知道可以选择导航的人声。如果你不喜欢机械性的声音，那么，台湾名模林志玲和相声大咖郭德纲的声音，或许可以为枯燥的旅途平添一些快乐。

现在，多样的声音选择不再局限于导航。科大讯飞推出的讯飞快听就可以合成名人的声音，让他（她）读出你指定的文字。“我们推出的讯飞快听和配音阁都是用最新的神经网络语音合成最新算法。”科大讯飞轮值总裁、消费者事业群总裁胡郁在接受《中国科学报》采访时解释说。

神经网络是人工智能研究方向之一，虽然它并没有一个严格的定义，但它基本的特点是试图模仿大脑神经元之间传递、处理信息的模式。

众所周知，人对世界的感知和理解主要通过数以亿计的神经元来完成，神经元之间彼此连接构成巨大的神经元网络，从外界输入的信号会经过神经元往脑部传递，不断作出决策，再通过神经元输出到反馈端。同时，科学家们还发现神经并非对于每一道指令都会马上“回应”，有些则是将其累加，超过某个阈值时才将这个信号传递给其他神经。而大脑通过调节这些连结的数目和强度进行学习。尽管这是个生物行为的简化描述，但同样可以充分有力地被看作是神经网络的模型。

这一发现促进了深度机器学习的发展，也就是“神经网络”学习。这一点在语音识别的应用上，突出体现在针对声音音素的识别中。随着技术的进步和深度学习的加强，人工智能在语音识别过程中错误率逐年降低。

科大讯飞抓住机会，不仅在语音技术上实现了突破，更利用这项技术提取人声的音色与音率，进而提升声音合成技术。

音色和音率是关键

“奥巴马用中文演讲本身就是声音合成技术，它更好地提取了奥巴马声音中的音色与语言要素等特点。”胡郁进一步阐述道。

音色是声音的特色，根据不同的音色，即使在同一音高和同一声音强度的情况下，也能区分出是不同乐器或人声发出的。这里的语言要素，则是指人说话的特点。抓住这两点才能将人声模拟得惟妙惟肖。于是便有了发布会上奥巴马用中文演讲的一幕。不仅如此，现场还出现了锤子手机CEO罗永浩的声音，但是镜头却显示罗永浩并未发言，说话的也是通过讯飞快听模拟的罗永浩的声音。

在科大讯飞的声音库中，不仅有罗永浩和奥巴马、林志玲、郭德纲以及周星驰等明星的声音皆可模拟。“讯飞快听能够支持多种可选音色去随时随地朗读任何文章，解放双眼。”胡郁表示。

相比较而言，配音阁致力于为用户提供智能语音合成、真人配音及各种特色化、个性化配音服务。

“未来，我们甚至可以提炼自己的声音，并且让这个声音给孩子讲故事，给父母朗读报纸等。”胡郁展望道。

无法忽视的版权

当然，名人声音的模拟自然与名人的利益本身相关。而且，声音权在国外已经有立法保护，虽然在国内尚未有相关法律出台，但是一直有人不断提出建议期望立法。

“我们属于双方合作，会在名人授权同意的情况下使用他们的声音，而且在后台我们也有监测系统，防止有人利用名人声音从事其他活动。”胡郁表示。据悉，目前科大讯飞快听以及配音阁中的名人声音均是双方协商、合作下的成果。

《中国科学报》 (2016-12-02 第4版新知)

以下评论只代表网友个人观点，不代表科学网观点。

�� SSI �ļ�ʱ��

编辑部推荐博文
科学网编辑部：我们悄悄准备了一份惊喜…… 科学网2024年4月十佳博文榜单公布！量子物理学的方法里程碑梭菌产氢气涉及的代谢网络写好Introduction的秘诀在于....... 全球领先的人文与社会科学出版品牌Routledge 更多>>