规模化的多语言翻译。10000个语言对及以上

发表于 2021年11月22日2021年11月22日的 Microsoft Translator

微软正在追求的是规模化的人工智能具有实现下一代人工智能体验的高度雄心。微软翻译机 ZCode 团队正在与微软图灵项目在这一举措的核心，是微软亚洲研究院推进语言和多语言支持。我们继续推动多语言模型的前沿发展，以支持整个微软的各种语言场景。去年夏天，我们宣布了我们大规模的多语言混合的专家模型与深速的，可以胜过单个大规模的双语言模型。最近，最新的图灵通用语言表示模型(T-ULRv5)，微软创建的模型再次成为最先进的技术，并在谷歌的顶部 XTREME公共排行榜在那个时候。最近，微软宣布了最大的威震天-图灵 NLG 530B 参数模型。

一年一度的机器翻译会议（又称WMT 2021）上周在美丽的多米尼加共和国蓬塔卡纳结束。WMT将来自整个机器翻译领域的研究人员聚集在一起，包括工业界和学术界，参与一系列共享任务，每个任务都在机器翻译的一个重要领域定义了一个基准，以推动该领域进入新的前沿领域。

微软翻译ZCode团队与图灵团队和微软亚洲研究院合作，参加了 "大规模多语言翻译 "的比赛，其中包括在101种语言的所有10,000个方向之间进行翻译的完整任务，以及两个小任务。其中一项任务侧重于5种中欧和南欧语言，另一项任务侧重于5种东南亚语言。微软ZCode-DeltaLM模型以巨大的优势赢得了所有三个任务，包括在对大量的10,000种语言对进行评估的大型任务中，比M2M100模型获得了令人难以置信的10多分。(WMT 2021大型多语言机器翻译共享任务的研究结果, Wenzek等人，WMT 2021）。)

图1：WMT 2021年大规模多语言翻译共享任务中的全任务和小任务1的官方结果（BLEU分数）。

ZCode-DeltaLM方法

在这篇博文中，让我们来看看微软ZCode-DeltaLM模型的获奖情况。我们的出发点是DeltaLM (DeltaLM：通过增强预先训练的多语言编码器，对语言生成和翻译进行编码器-解码器预训练)，是微软公司日益强大的大规模多语言预训练语言模型系列中的最新产品。

DeltaLM是一个编码器-解码器模型，但它不是从头开始训练，而是从先前预训练的最先进的纯编码器模型中初始化，具体是(TULRv3).虽然初始化编码器很简单，但解码器就不那么简单了，因为它要在编码器的自我注意上加上交叉注意。DeltaLM用一种新的交错结构解决了这个问题，在这种结构中，自注意和交叉注意在各层之间交替进行，自注意用于奇数层，交叉注意用于偶数层。通过这种交错结构，解码器的结构与编码器相匹配，因此也可以用TULRv3的相同方式进行初始化。

DeltaLM得到了ZCode强大的多任务学习的增强。多语言神经机器翻译的多任务学习.我们的模型显示，结合多任务和多语言学习可以大大改善大规模预训练语言模型的训练。这样的多任务多语言学习范式是利用同时来自几个任务和语言的归纳偏见和正则化，在各种下游任务中表现得更好。我们正在使用翻译任务、去噪自动编码器任务和翻译跨度损坏任务，如下图所示。

赢得大规模多语种翻译的赛道

为了建立我们获胜的大规模多语言翻译系统(微软为WMT21共享任务提供的多语言机器翻译系统)，我们从zCode-DeltaLM开始，并增加了一些技巧。

我们采用渐进式学习，首先训练一个具有24个编码器层和12个解码器层的模型，然后继续训练，增加12个编码器层，从而形成一个深度的36层编码器。为了覆盖所有的语言对，我们产生了双伪平行数据，其中平行数据的两边都是合成的，由模型从英语翻译过来。我们还应用迭代回译来生成合成数据。我们应用课程学习，从整个嘈杂的训练数据开始，然后将其减少到一个干净的子集。我们对翻译目标进行了重新加权，以使平行数据优于回译和双伪平行数据。我们应用温度采样来平衡各语言对。对于每个语言对，我们根据dev集，选择是否倾向于直接翻译或通过英语的枢轴翻译。

把这一切放在一起，我们知道我们有一个惊人的大规模多语言系统，但盲测集的正式结果超出了我们的预期。我们的得分比下一个竞争者高出2.5到9个BLEU，比基线M2M-175模型高出10到21个BLEU点。在设计测试中，我们与更大的M2M-615模型进行了比较，我们也以10至18分的优势击败了它。

超越翻译。通用语言的产生

虽然我们对在WMT 2021的大胜感到兴奋，但更令人兴奋的是，与其他竞争对手不同，我们的ZCode-DeltaLM模型不仅仅是一个翻译模型，而是一个通用的预训练编码器-解码器语言模型，可用于翻译以外的各种生成任务。这确实使我们的模型能够在各种多语言自然语言生成任务中表现得相当出色。

我们在许多流行的生成任务中达到了新的SOTA，从 GEM 基准包括Wikilingua（总结），文本简化（WikiAuto），和结构到文本（WebNLG）。DeltaLM-ZCode模型广泛地超越了更大的模型，如mT5 XL（3.7B），它也是在更大的数据上训练出来的。这证明了模型的效率和多功能性，使其在许多任务中都有强大的表现。

图2.ZCode-DeltaLM在GEM基准中的总结和文本简化任务的性能（RL分数）。

展望未来

多语言机器翻译已经达到了一个地步，在低资源和高资源语言上的表现都非常好，超过了双语系统。专家混合模型（MoE）已被证明是一种非常合适的扩展此类模型的方法，这一点在GShard中已经得到证实。我们探索如何用专家混合模型有效地扩展这类模型。多任务多语言模型的可扩展和高效的MoE训练.具有海量多语言数据和无监督多任务训练的MoE模型为这种模型提供了前所未有的机会，可以提供真正的通用系统，进一步使微软翻译团队消除世界各地的语言障碍，并支持各种自然语言生成任务。

鸣谢

我们要感谢Francisco Guzman和他的团队，他们收集了大量的多语言FLORES测试集，并组织了这次WMT的大规模评估。

微软翻译博客

ZCode-DeltaLM方法

赢得大规模多语种翻译的赛道

超越翻译。通用语言的产生

展望未来

鸣谢