ByteDance的“Glancing Transformer”(GLAT)是一种用于无自回归神经机器翻译(NAT)的创新模型。该模型通过一种称为“glancing sampling”的策略,显著提高了翻译的质量和效率。
GLAT 的主要特性
-
Glancing Sampling 机制:
- 核心概念:在训练过程中,GLAT 会对比初始预测和真实目标句子,并根据模型的初始预测精度选择部分真实词汇作为输入。如果初始预测不准确,模型会选择更多的真实词汇进行输入。
- 自适应采样:在训练初期,模型不够成熟时,采样较多的真实词汇,随着模型逐渐收敛,采样的真实词汇逐渐减少,从而实现从部分句子生成到完整句子的逐步学习【116†source】【117†source】。
-
架构:
- 编码器:与传统的Transformer相同,采用多头注意力机制。
- 解码器:包括多层多头注意力,每一层都关注整个编码器的表示和解码器前一层的表示【117†source】。
- 训练与推理:GLAT仅修改训练过程,推理过程是完全并行的单次传递(single pass),无需多次迭代生成【117†source】。
-
非自回归生成:
- GLAT在推理时通过并行生成序列,极大地提高了生成效率。推理时需要预先确定输出的长度,这可以通过编码器的表示来预测【116†source】【117†source】。
-
实验结果:
- GLAT在多个机器翻译基准数据集上(如WMT14和WMT16)表现出色,达到了与自回归Transformer模型相近的性能,同时显著提高了生成速度【117†source】。
实现细节
- 初始预测:利用编码器输出生成初始预测。
- glancing 采样:根据初始预测选择一部分真实词汇,将其嵌入并替换初始预测中的相应位置,增强模型对真实目标词的学习。
- 并行生成:在推理过程中,模型通过一次并行传递生成整个目标序列,提高了生成速度【116†source】【117†source】。
参考文献
- “Diffusion Glancing Transformer for Parallel Sequence-to-Sequence Learning” by ByteDance, arXiv 2023
- “Glancing Transformer for Non-Autoregressive Neural Machine Translation” by ByteDance, arXiv 2021
通过这些特性和改进,GLAT实现了高效且高质量的机器翻译,成为无自回归模型中的一个重要进展。更多详细信息可以访问相关论文:Diffusion Glancing Transformer 和 Glancing Transformer。