作者:计红梅 来源:中国科学报 发布时间:2012-12-6
选择字号:
机器翻译进入3.0时代

 
机器翻译技术已经渗透到日常生活中。
 
图片来源:www.e0817.com
 
机器翻译技术从计算机诞生起就开始酝酿,在过去60多年里历经了草创、低谷、复苏、繁荣等不同阶段,翻译思路也发生了巨大变迁,但至今仍被认为是21世纪世界十大科技难题之一。
 
■本报记者 计红梅
 
雷切尔·梅茨是一位美国媒体从业者。11月30日,她在麻省理工学院《技术评论》杂志上发表了一篇文章,讲述自己携带安装了多个翻译软件的手机“勇闯”韩国、中国和日本的体验。
 
“应用这些翻译软件确实比查字典快多了,它们能够理解许多完整的句子。”梅茨说,“不过,在嘈杂的环境下,这些软件识别语音的能力还有待加强,特别是当说话者不讲英语的时候。”
 
就在不久前,微软公司全球首席研究官里克·雷斯特在微软亚洲研究院“21世纪的计算大会”上所作的一段演示刚刚掀起了一轮机器翻译的热潮。演示中,雷斯特每讲完一句英语,计算机很快就能以准确的中文翻译出来。
 
梅茨的体验与雷斯特所作的演示为我们打了一个问号:机器翻译的发展目前到底处于哪个阶段,我们距离多语言无障碍的沟通还有多远?
 
最好的时期
 
周明博士是微软亚洲研究院自然语言计算组首席研究员。自上世纪80年代中期起,他就开始从事机器翻译的研究。
 
11月30日,在接受《中国科学报》记者采访时,周明表示,在他看来,现在是机器翻译发展最好的时期。
 
机器翻译是指利用计算机把一种人类语言以文本或者语音的形式自动翻译成另一种人类语言的技术。
 
这项技术从计算机诞生起就开始酝酿,在过去60多年里历经了草创、低谷、复苏、繁荣等不同阶段,翻译思路也发生了巨大变迁,但至今仍被认为是21世纪世界十大科技难题之一。
 
周明告诉记者,机器翻译的基本方法主要经历了由规则翻译到统计翻译的颠覆性变化。
 
1957年,美国学者V. Yingve在《句法翻译框架》一文中提出了对源语言和目标语言均进行适当描述、把翻译机制与语法分开、用规则描述语法的实现思想,它成为基于规则的翻译方法的雏形。
 
上世纪60年代~90年代中期,基于规则的翻译方法一直是机器翻译领域的主流思路。1996年到1999年周明访问日本的时候,还曾经基于这一方法开发出了中—日、日—中机器翻译产品。
 
但是,基于规则的翻译方法“先天不足”之处是,因为它的语法规则完全由语言学家所确定,因此翻译的效果比较生硬,无法顾及词汇和语法的细微变化,而且编写和维护的代价很大,不能实现顺畅的扩展。
 
正是在这一背景下,上世纪90年代初期诞生了基于语料库的统计机器翻译方法。
 
“基于语料库的翻译最开始是基于实例的翻译。”周明举例说,在翻译“我想吃蔬菜”这个句子之前,可以先到数据库中查找,看历史上别人是怎么翻译的,然后再“改头换面”一番。例如,库中已经有“我想吃饭”这句话的翻译方法,那么只要把“饭”换成“蔬菜”就可以了。
 
随着这一思路的发展,上世纪90年代中后期,大家越来越关注基于统计的翻译。统计翻译的前提也是把大规模的语料搜集起来,形成一个巨大的双语对照的数据库,然后再建立翻译模型和语言模型。
 
“基于统计的翻译方法就好像是赌博。”中国科学院自动化研究所模式识别国家重点实验室副主任宗成庆研究员给《中国科学报》记者打了一个形象的比喻。依据这一方法,翻译一个句子的时候,翻译模型会给出多个翻译候选,然后得分最高的选项最终胜出。这一过程中,语言模型的作用是,避免不自然的句子出现,例如可以说“我想吃饭”,却不能说“我想吃桌子”。
 
“在互联网出现之前,双语对照的句子是非常稀少的。”周明说,正是得益于互联网的飞速发展,统计翻译获得了强劲的前进动力。
 
从单向到互动
 
周明告诉记者,统计翻译的优点是,在这一框架之下,一切都是自动做的,只要双语语料库足够大,就可以在一夜之间建立一个统计翻译系统平台。
 
而互联网则为语料库提供了源源不断的信息来源。例如,许多双语对照的网页、手册,形形色色的翻译论坛,提供中外文专有名词对照的出版物电子版,以及网友对于译法的讨论等等,均是巨大的双语资源。如何通过互联网挖掘手段将这些翻译知识搜集、利用起来,成了主要的问题。计算能力、存储能力的重要性也随之凸显。
 
“其实语料库的思路在计算机刚刚出现的时候就已经有人想到过,但当时计算机的性能跟不上,难以实现。”宗成庆说。
 
而随着云计算和云存储等技术的出现,这些制约统计翻译发展的瓶颈问题也得以解决。
 
“对机器翻译来说,互联网不只是提供了丰富的资源、解决了计算能力问题,而且还体现了强大的实施能力。”周明说。
 
他举例说,如果将翻译软件放到软件商店去卖,消费者的数量就会受到限制,而且不能普及化,用户也无法及时提供使用反馈。而如果通过互联网在线词典、在线翻译等形式,用户就可以随时提交使用中出现的问题,推动翻译技术尽快完善。
 
周明告诉记者,微软亚洲研究院从2004年起就开始倡导DDR(Deployment Driven Research),即以实践为驱动的研究。换句话说,一旦产生一些研究成果,就要快速地放到网上跟用户互动,以得到用户的反馈,从而使系统越来越好。微软的必应搜索引擎、必应词典以及必应翻译等都是基于这一方式来扩展的。其前提是一定要有互联网,一定要有大规模实施云计算的能力。
 
周明认为,从这个角度来说,基于规则翻译的时代可以称之为机器翻译的1.0时代,统计翻译基于互联网发展的初期是2.0时代,现在则是进入了3.0时代。
 
“3.0时代的特点就是将用户的互动融合到开发者的开发过程中,这是最重要的特色。”周明说。
 
离完美有多远
 
近日,国内市场调查机构艾瑞发布了《2012互联网翻译服务行业报告》。该报告显示,从2011年11月到2012年7月,互联网翻译服务用户覆盖规模继续呈上升趋势,用户对互联网翻译服务的需求继续增长,其中在线翻译覆盖人群已超过6000万。随着日益扩大的对外文化交流,中国互联网翻译服务在整体网民中的渗透率也越来越高,73.7%的网民在使用互联网翻译,渗透率仅次于网络购物、搜索服务和微博,是网民的第四大需求。
 
“可以说,现在机器翻译技术已经渗透到了我们的日常生活中。”周明总结说。未来,除了文字机译和语音机译这两种主要形式外,图像、手势等也将会成为机器翻译的对象。
 
不过,周明和宗成庆都认为,机器翻译永远也不可能达到媲美人类最高阶智慧的程度。
 
“语音机译目前面临的一个很大障碍是如何在噪声环境中进行很好的语音识别。”宗成庆指出。除此之外,如何对自然语言过程中出现的缺省、啰嗦、语气词、口头禅等支离破碎、不符合语法的地方进行修正,以及区分不同说话人的口音等也是一些困难的问题。而文字机译,则因为书面语言用词丰富、结构复杂等特点,离“信、达、雅”还有很大距离。
 
周明告诉记者,自2005年以来,微软亚洲研究院和微软雷德蒙研究院就开始联合进行机器翻译研究。过去10年,语音翻译的水平提高非常快,特别是过去3到5年,随着一些新的统计学方法,如深度神经网络技术的出现,语音识别错误率已大为减少,从大约5个词错一个提高为7个词错一个。“现在的问题是,用户对机译技术的容忍度有多大。机器翻译的应用范围越大,其发展速度也会越快。”
 
周明认为,现在是机器翻译发展最好的时期,可谓是具备了“天时地利人和”的条件。“我认为我们可以对未来10年抱有更大的期待,届时机器翻译将会跃上一个更高的台阶。”
 
《中国科学报》 (2012-12-06 第5版 技术经济周刊)
 
 打印  发E-mail给: 
    
 
以下评论只代表网友个人观点,不代表科学网观点。 
SSI ļʱ
相关新闻 相关论文

图片新闻
中国超重元素研究加速器装置刷新纪录 彩色油菜花又添7色!总花色达70种
考研复试,导师心仪这样的学生! 地球刚刚经历最热2月
>>更多
 
一周新闻排行 一周新闻评论排行
 
编辑部推荐博文
 
论坛推荐