你知道科幻小说《银河系漫游指南》中的“巴别鱼”吗?这种小鱼能侵入耳朵,即时将一种口语翻译成另一种口语。现在,科学家已经通过人工智能实现了这种从语音到语音,且可能翻译多大101种类语言的“超级同传”。
在1月16日发表于《自然》的一项研究中,美国Meta公司旗下基础人工智能研究团队介绍了一个人工智能模型——SEAMLESSM4T,能翻译多达101种语言的语音和文本,包括直接语音到语音翻译。它填补了语言覆盖方面的空白,并且性能优于现有的系统。这项工作或可为快速通用翻译铺平道路,其资源公开可用(非商业用途),可协助进一步研究包容性语音翻译技术。
尽管人工智能已经极大地促成了全球互联环境下的交流,但目前大多数现有机器学习翻译系统都是文本导向的,或需要好几步——语音识别、翻译成文本、再将文本转换成语音。同时,现有语音到语音模型的语言覆盖范围也远低于文本到文本的模型,并且倾向于从源语言翻译成英语,而非从英语到另一种语言。
为了解决这些限制,Meta的无缝交流团队开发的SEAMLESSM4T模型可支持多种翻译模式,支持语音到语音(识别101种语言并翻译为36种语言)、语音到文本(101种语言译为96种)、文本到语音(96种语言译为36种)、文本到文本(96种语言)的翻译,以及自动语音识别(96种语言)。在语音到语音的翻译中,SEAMLESSM4T的文本翻译比现有系统准确23%。这一AI模型可过滤背景噪音并适应说话者的差异。
研究者表示,虽然还需要进一步优化,SEAMLESSM4T可能代表着向跨越语言障碍促进交流的进步。
相关论文信息:
https://doi.org/10.1038/s41586-024-08359-z
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。