对失传已久的语言进行破译,一直是考古学家和语言学家关注的焦点和难点。随着大型注释库的应用以及机器学习技术的发展,人们开始思考,机器能否帮助破译失传已久的语言。近日,美国麻省理工学院的罗家明和雷吉娜·巴兹雷以及加州山景城谷歌人工智能实验室的曹元团队发明了能够破译失传语言的机器学习系统,并用它破译了线形文字B。
1886年,英国考古学家阿瑟·埃文斯在地中海的克里特岛发现了刻着奇特未知语言铭文的古老石头。而石头上所刻的正是线形文字A和线形文字B。
线形文字A可追溯到公元前1800年至1400年间,当时该岛被青铜时代的米诺斯文明统治。线形文字B在公元前1400年后出现,当时该岛被来自希腊大陆的迈锡尼人征服。多年来,考古学家一直试图破译这些古老的文字,但都失败了。直到1953年,业余语言学家迈克尔·文特里斯破译了线形文字B。
但破译更古老的线形文字A至今仍是语言学中令人瞩目的难题。
罗家明等人发明的破译失传语言的机器学习系统,通过破译线形文字B证实了这一系统的有效性——这是首次机器完成自动破译,其实现方式与机器翻译技术不同。
机器在不知其意的情况下,是如何实现翻译的呢?
无论机器翻译哪种语言,原理都是从目的语中寻找与源语词汇相对应的单词,因而首先要将特定语言的对应关系映射出来。这一过程需要庞大的文本数据库。机器通过搜索该文本库,得出每个单词和每个与它相邻单词出现的频率。每个单词可以看做多维参数空间中的一个向量,该向量作为约束条件,限制了对应单词出现在机器翻译中的形式,并且这些向量会遵循一些简单的数学法则。
机器翻译的关键是,不同语言中的单词在各自参数空间内占据着相同的“点”。这使得从一种语言一对一映射到另一种语言成为可能。因此,翻译句子的过程变成了在这些空间中寻找相似轨迹的过程。机器甚至无需“知道”这些句子的含义。
罗家明等人研发的机器学习系统,其约束条件与语言发展方式息息相关。该原理是任何语言只能以特定的方式改变——比如,对应语言中的符号以相似的分布出现,对应单词以相同的字符顺序排列,以此类推。有了这些规则约束机器,只要知道源语言,就可以轻松破译。
为了更好地测试该技术,罗家明等人使用了两种消失的语言——线形文字B和乌加里特语。线形文字B记录了古希腊的早期形式,而发现于1929年的乌加里特语则是希伯来语的早期形式。
试验证明,罗家明等人研究的机器学习系统能非常准确地翻译这两种语言。“在破译过程中,我们能准确地将67.3%的线形文字B的同源词翻译成对应的希腊语。”他们说,“我们的实验是机器自动破译线形文字B的首次尝试。”
然而他们却没有提到线形文字A的破译,众多语言学家都认为线形文字A的研究意义重大。所以,在机器能够破译线形文字A之前,仍需取得重大的研究突破。
虽然没有源语,新技术也行不通,但机器翻译的最大优点是,它可以不知疲倦地快速检测一种又一种语言。因此,罗家明和他的团队很可能会使用粗略近似法破译线形文字A,试图把它破译成机器翻译已在使用的每种语言。
(田小雨)
《中国科学报》 (2019-07-18 第7版 信息技术)