雷锋网 AI 科技评论按:说到机器翻译,谷歌吃螃蟹并商用的 NMT、微软研究院媲美人类水平的 AI 翻译系统我们都做过比较多的报道,大家也都比较熟悉;不过它们都是需要监督的。谷歌自然可以使用海量语料训练 NMT,微软研究院的系统即便使用了许多新的技巧来大幅提高样本效率,也仍然需要足够的平行双语语料。然而我们无法为所有语言对都找到大量双语平行语料,训练出有监督 MT 系统。
Facebook 的 EMNLP 2018 论文《Phrase-Based & Neural Unsupervised Machine Translation》(基于词语的、无监督神经网络的机器翻译)就介绍了他们在无监督机器翻译方面的最新成果。无监督机器翻译是目前的热门研究课题之一,Facebook 的研究人员们通过巧妙的设计得到了高达 11 BLEU 的表现提升;而 EMNLP 官方推特今天宣布这篇论文是 EMNLP 2018 的两篇最佳论文之一。论文作者们早些时候也撰写了一篇通俗介绍文章发表在了 Facebook 博客上,介绍了他们的主要思路。雷锋网(公众号:雷锋网) AI 科技评论全文编译如下。
二维词嵌入的旋转对齐
自动语言翻译对于 Facebook 来说非常重要,它可以让数十亿用户以他们喜欢的语言进行联系和交流。为了做到这一点,当前的机器翻译(MT)系统需要访问大量的已翻译文本(例如,分别用英语和西班牙语表示的相同文本对)。因此,MT 目前仅对于已拥有大量翻译文本的少数语言集表现出不错的效果。
在训练模型时无需访问任何翻译文本资源的 MT 模型的建立(称为无监督翻译)是必要的下一步。EMNLP 2018 上我们展示了在该任务上完成的最新研究成果(http://arxiv.org/abs/1804.07755)。我们的新方法相较于之前最先进的无监督方法有了显着的改进,效果与用近 100,000 个参考译文训练过的监督方法近乎一致。在这个领域中,1 BLEU (判断MT准确度的常用指标)的提升都被看作不小的成绩,而我们的新方法相比之前的方法有超过 10 BLEU 的改善。
无监督翻译模型的建立是 MT 领域的一个重要发展方向,特别是世界上 6,500 种语言中,大多数语言对之间都没有可用翻译文本资源库或译文数据量极小以至于无法使用现有技术。对于匮乏译文的语言,现在有一种方法可以学习在任意的语言,比如乌尔都语和英语之间进行互译,只需使用英语中的文本和与乌尔都语中的完全不相关的文本,而不需要任何相应的翻译文本。
这种新方法开启了更多语言翻译更快、更准确的大门,而这仅仅是将此类原理应用于机器学习和人工智能的方法的一个开始。
逐字翻译
迈向我们伟大的目标的第一步是让系统学习双语词典,将一个词与其他语言中的合理翻译联系起来。为此,我们使用了我们在之前的论文中介绍到的方法(https://arxiv.org/abs/1710.04087),其中系统首先为每种语言中的每个单词训练词嵌入(单词的矢量表示)。
训练词嵌入通过上下文(例如,给定单词前面的五个单词和之后的五个单词)来预测给定单词周围的单词。尽管词嵌入的形式简单,但是词嵌入可以抓取有趣的语义结构。例如,离「kitty」最近的是「cat」,并且「kitty」这个词嵌入更接近于「animal」的嵌入,而不是「rocket」这个词嵌入(因为「rocket」很少出现在「kitty」这个词所在的语境中)。
此外,不同语言的词嵌入具有相似的邻域结构,因为不同国家的人毕竟活在同一个世界中。例如,英语中「cat」和「furry」之间的关系类似于它们在西班牙语中的相应翻译(「gato」和「peludo」)之间的关系,因为这些单词的频率和它们的上下文是相似的。
由于这些相似之处,我们提出了一个包含各种新旧技术的组合,例如对抗训练等,让系统学习旋转变换一种语言中的词嵌入,以匹配另一种语言中的词嵌入。有了这些信息,无需访问任何平行的翻译译文,我们就能推断出一个相当准确的双语词典,并且基本上实现逐字翻译。
可以通过简单的旋转(右)对齐两种语言(左)的二维词嵌入。旋转后,通过最近邻搜索实现单词翻译。
翻译句子
使用无监督方法得到双语词典的逐字翻译并不能完成一个很好的翻译——单词可能会丢失,无序或者完全错误。但是,它保留了大部分词义。我们可以在此基础上进行改进。通过使用已在大量单语数据上训练好的语言模型进行局部编辑,它可以对不同的单词排序打分,故此流畅的句子得分要高于不符合语法或构造不良的句子。
因此,如果已拥有大量乌尔都语的单语数据集,我们可以在已有英语语言模型的同时,训练乌尔都语的语言模型。在有了语言模型和初始的逐字翻译模型之后,我们就可以构建翻译系统的早期版本。
这个早期的系统虽然还不够好,但比逐字翻译效果更好(感谢语言模型),并且它可以用来将大量句子从源语言(乌尔都语)翻译成目标语言(英语)。
接下来,我们将这些系统翻译出的语句(原文为乌尔都语,翻译为英语)作为标注过的真实数据进行处理,以训练从英语到乌尔都语的反向 MT 系统。不可否认,由于第一个系统翻译中存在错误,输入的英语句子会有些问题。ACL2015论文 中 R. Sennrich 等人在半监督学习的 MT 系统中(有大量平行语料的情况下)曾介绍过这种技术,并将其称为反向翻译。本次是该技术首次应用于完全无监督的系统;通常,它最初是在有监督数据上训练的。
现在我们有了一个更偏向流畅句子的乌尔都语语言模型,我们可以将反向翻译中人工生成的平行句子与乌尔都语语言模型提供的校正相结合,以此来训练从英语到乌尔都语的翻译系统。
一旦系统经过训练,我们就可以用它将英语中的许多句子翻译成乌尔都语,形成另一种类型的数据集(原始句子为英语,翻译成乌尔都语),有利于改进以前的乌尔都语到英语的 MT 系统。随着一个系统得到改进,我们可以使用它以迭代方式在相反方向上为系统生成训练数据,并根据需要进行多次迭代。
两全其美的方法
在研究中,我们确定了三个步骤——逐字嵌入初始化,语言建模,以及反向翻译——作为无监督 MT 的核心原理。根据这些原理,我们可以最终得到各种模型。我们将它们应用于两种截然不同的通向无监督 MT 目标的方法。
第一种方法是无监督的神经模型,它产生的翻译比逐字翻译更流畅,但没有达到我们想要的质量。然而,它们足以用作反向翻译句子。通过反向翻译,该方法与经 100,000 个并行句子训练的监督模型效果一样。
接下来,我们将这些原理应用于经典的基于计数的统计方法的另一个模型,称为基于短语的 MT。有趣的是,这些模型往往在低资源语言对上表现更好,但这是第一次将此方法应用于无监督的 MT。在这种情况下,我们发现翻译具有正确的单词但不太流畅。同样,这种方法优于以前最先进的无监督模型。
最后,我们将两种模型结合起来得到一个两全其美的方法:一个既流利又善于翻译的模型。为此,我们从训练好的神经模型开始,然后使用基于短语模型的其他反向翻译句子对其进行训练。
根据经验,我们发现最后一种组合方法显着提高了之前无监督 MT 的准确性——在英语——法语和英语——德语作为测试集的两种语言对中(即使对于这些语言对,在训练时也没有使用任何并行数据——仅在测试时进行评估),此组合方式在 BLEU 得分上提高了超过 10 个点。
我们还在以下语言上测试了我们的方法:远距离语言对,如英语——俄语;译文资源匮乏的语言,如英语——罗马尼亚语;资源极度匮乏且远距离的语言对,如英语——乌尔都语。在所有情况下,我们的方法相较于其他无监督方法都有很大改进,有时甚至超过使用来自其他域或其他语言的并行语言数据的有监督方法。
下面的德语——英语翻译示例显示了每种方法的结果:
在机器翻译之外还有更大的世界
完成超过 10 BLEU 得分的增加是一个令人兴奋的开始,但对我们来说更令人兴奋的是它为未来改进开启的可能性。从短期来看,这必然有助于我们翻译更多语言并提高少资源语言的翻译质量。但是,从这种新方法和基本原理中可获得的知识远远超出 MT 本身。
我们认为,这项研究的潜力可以应用于任何领域的无监督学习,并有可能使智能体能够利用未标注的数据,并对于当前需要专家演示(在本例中是翻译)中的任务,未来只需要很少就能够执行得到很好的效果。这项工作表明,系统至少有可能在无监督的情况下学习,并建立一个双向的系统,在这个系统中,每个组件都可以在良性循环中不断改进。
论文地址:https://arxiv.org/abs/1804.07755
代码地址:https://github.com/facebookresearch/UnsupervisedMT
博客地址:https://code.fb.com
EMNLP 2018 论文奖情况
根据 EMNLP 官方推特宣布的消息,两篇最佳论文中的另一篇来自谷歌
Linguistically-Informed Self-Attention for Semantic Role Labeling
-
用于语义角色标注的考虑语言学信息的自我注意力方法
还有一篇最佳资源论文
MultiWOZ – A Large-Scale Multi-Domain Wizard-of-Oz Dataset for Task-Oriented Dialogue Modelling(论文内容尚未公开)
EMNLP 2018 将于 10 月 31 日到 11 月 4 日在比利时布鲁塞尔召开,更多报道请继续关注雷锋网 AI 科技评论。
。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/134494.html