机器之心专栏
机器之心编辑部
在刚刚完毕的国际机器翻译大赛上,字节跳动 AI Lab 的火山翻译提交并行翻译体系 GLAT,一举夺得了德语到英语方向机器翻译主动评价榜首。这是并行翻译体系初次参与国际级的竞赛,打败一众自回归翻译体系。并行翻译体系的兴起给自然语言生成技能的开展指明晰新的方向。
作为国际尖端的机器翻译竞赛,WMT 大赛自 2006 年以来现已举办了 16 届,每年都会招引来自国际各地的尖端企业、高校和科研机构参赛。历年参赛部队来自微软、脸书、腾讯、阿里巴巴、百度、华为等。
在 WMT 的各个翻译使命中,火山翻译团队应战的德英翻译更是参赛部队竞赛的中心项目。在德语-英语翻译方向上,火山翻译团队仅运用了官方供给的数据,成功摘得桂冠。
导言
历年的 WMT 竞赛中,各个团队大多依据自左向右解码的自回归式生成模型开发自回归式翻译体系。
比较于自回归式翻译体系自左向右的逐词输出,并行翻译体系则采用了更新颖的并行生成技能,在翻译的进程中一起输出一切的词,然后可以获得数倍的翻译加快。
图 1:自左向右生成和并行生成。
惋惜的是,虽然并行翻译体系在翻译速度上存在优势,但在之前的实践中其翻译质量相对于自回归式体系还落于劣势。因而,并行生成仍在学术探究阶段,许多技能没有老练,实践运用更是屈指可数。
虽然困难重重,在火山翻译团队的技能攻坚下,其自研的 GLAT 模型终究成功打败了自回归式翻译体系,成为历史上首个夺得 WMT 冠军的并行翻译体系,展现出并行生成技能巨大的潜力。
抢先的自研并行生成技能
在本次大赛中,火山翻译团队运用的并行生成技能彻底依据自研的 Glancing Transformer 模型。GLAT 提出了一种为并行生成建模词之间依靠联系的有用练习方法,大幅提升了并行生成的作用。现在,GLAT 的 paper 已被 ACL2021 接纳。
论文地址:arxiv.org/abs/2008.07905项目地址:github/FLC777/GLAT详细地,GLAT 会先学习并行输出一些较为简略的句子片段,然后逐步学习整句话的一次性并行生成。GLAT 的练习示例如下图 2 所示:
图 2:GLAT 的练习示例。
在练习中,GLAT 会进行两次解码。在榜初次解码中,GLAT 将模型并行生成的成果和方针句子进行比照。依据榜初次解码成果和方针句子的差异,GLAT 会决议方针词的采样数量,差异越大采样数量就越多。在第2次解码中,GLAT 将被采样的方针词的向量表明替换到解码器输入中,然后让模型运用新的解码器输入学习猜测剩下的方针词。
在图 2 的比如中,模型的翻译成果「travel to to a world」和方针句子「travel all over the world」仅有两个词在对应方位上相同。因而,GLAT 随机采样了词「over」作为解码器的输入来协助练习。而跟着模型在练习中能更好捕获方针词之间的依靠联系,生成成果与方针句子会更挨近。所以在练习后期需求作为解码器输入的方针词数量越来越少,GLAT 会逐步学习整个句子的并行生成。
为了进一步进步翻译作用,团队在此基础上对模型结构和练习方法进行了各方面的优化,例如在模型中参加动态线性网络层组合,运用多种方法的原始和蒸馏数据,分阶段练习等等。除此之外,经过结合多种结构的 Glancing Transformer 和改善的重排序技能,可以获得更超卓的翻译成果。需求着重的是,模型在生成时不运用任何方法的次序解码或许迭代式解码,只进行一次并行的解码,坚持了翻译的高效性。
除了在国际级大赛中夺冠,GLAT 在实践工业体系的运用中也展现出优势。GLAT 现已在火山翻译的部分语种上线,其并行的生成方法有用地加快了解码进程,缩短了翻译服务的呼应时刻。