学习人工智能：Attention Is All You Need-1-介绍；Transformer模型架构；编码器，解码器

Transformer模型是目前最成功的chatGPT，Sora，文心一言，LLama，Grok的基础模型。

《Attention Is All You Need》是一篇由Google DeepMind团队在2017年发表的论文，该论文提出了一种新的神经网络模型，即Transformer模型，该模型主要用于自然语言处理任务。

Transformer模型的创新点在于其使用了自注意力机制（self-attention mechanism）来取代传统的循环神经网络（RNN）和卷积神经网络（CNN）等结构。这使得模型在处理序列数据时具有更好的并行性和可扩展性，同时能够捕捉序列中各个位置之间的相对关系，进而更好地对序列进行建模。具体来说，自注意力机制允许模型同时计算输入序列中所有位置之间的关系权重，进而加权得到每个位置的特征表示。在Transformer模型中，自注意力机制被运用在了Encoder和Decoder两个部分中，分别用于编码输入序列和生成输出序列。

Transformer架构包含多层堆叠的编码器和解码器，其中编码/解码器内部包含了多头注意力机制（multi-head attention）、层级归一（layer norm）和残差结构（residual）。这种设计使得Transformer模型能够高效地处理序列数据，并且在机器翻译等序列转换任务中取得了优异的性能。此外，Transformer模型还具有广泛的应用前景，例如语音识别、图像处理和自然语言生成等任务。

Attention is all you needhttps://arxiv.org/abs/1706.03762

论文摘要Abstract：

目前主流的序列转换模型主要基于复杂的循环或卷积神经网络，其中包括编码器和解码器。表现最佳的模型还通过注意力机制连接编码器和解码器。我们提出了一种全新的简单网络架构——Transformer，该架构完全基于注意力机制，完全摒弃了循环和卷积。在两个机器翻译任务上的实验表明，这些模型不仅质量上乘，而且更易于并行化，所需的训练时间也大大减少。在WMT 2014英语至德语翻译任务中，我们的模型取得了28.4的BLEU评分，超过了现有最佳结果（包括模型集成）超过2个BLEU评分。在WMT 2014英语至法语翻译任务中，我们的模型在八个GPU上训练3.5天后建立了新的单一模型最高BLEU评分41.0，这仅仅是文献中最佳模型训练成本的一小部分。

1，介绍Introduction

循环神经网络，特别是长短时记忆网络（LSTM）和门控循环单元（GRU），已牢固确立为序列建模和转导问题（如语言建模和机器翻译）中的最先进方法。从那时起，人们付出了大量努力来不断推动循环语言模型和编码器-解码器架构的边界。

同等贡献。名单顺序是随机的。雅各布（Jakob）提出了用自注意力机制替换循环神经网络（RNNs）的想法，并开始着手评估这一想法。阿什什（Ashish）与伊利亚（Illia）一起设计和实现了第一个Transformer模型，并在这项工作的各个方面都发挥了至关重要的作用。诺姆（Noam）提出了缩放点积注意力、多头注意力和无参数位置表示，并成为了几乎参与每一项细节的另一个人。尼基（Niki）在我们的原始代码库和tensor2tensor中设计、实现、调优和评估了无数模型变体。利昂（Llion）也尝试了新颖的模型变体，负责我们最初的代码库，以及高效的推理和可视化。卢卡斯（Lukasz）和艾丹（Aidan）花费了无数漫长的时间设计和实现tensor2tensor的各部分，替换了我们早期的代码库，大大提高了结果，并极大地加速了我们的研究。

循环模型通常将计算分解为输入和输出序列中符号位置的因素。通过将位置与计算时间步骤对齐，它们会生成一个隐藏状态序列ht，这是前一个隐藏状态ht-1和位置t的输入的函数。这种固有的序列性质排除了训练示例内的并行化，这在序列长度较长时变得至关重要，因为内存限制会限制跨示例的批处理。最近的工作通过分解技巧[18]和条件计算[26]显著提高了计算效率，同时也在后者的情况下提高了模型性能。然而，顺序计算的基本约束仍然存在。
在各种任务中，注意力机制已成为引人注目的序列建模和转导模型不可或缺的一部分，它允许建模依赖关系，而不考虑输入或输出序列中的距离[2，16]。然而，除了少数情况[22]外，这种注意力机制都是与循环网络结合使用的。
在这项工作中，我们提出了Transformer，这是一种模型架构，它摒弃了循环，而是完全依赖注意力机制来绘制输入和输出之间的全局依赖关系。Transformer允许进行更多的并行化，并在八个P100 GPU上仅训练十二个小时后就能达到翻译质量的新水平。

2，背景Background

减少顺序计算的目标也构成了扩展神经GPU（Extended Neural GPU）[20]、ByteNet[15]和ConvS2S[8]的基础，它们都使用卷积神经网络作为基本构建块，为所有输入和输出位置并行计算隐藏表示。在这些模型中，将两个任意输入或输出位置的信号关联起来所需的操作数量随着位置之间的距离而增长，对于ConvS2S是线性增长，对于ByteNet是对数增长。这使得学习远距离位置之间的依赖关系变得更加困难。在Transformer中，这被减少到固定数量的操作，尽管由于平均了注意力加权的位置而降低了有效分辨率，但我们通过第3.2节描述的多头注意力来抵消这一影响。

自注意力，有时称为内部注意力，是一种注意力机制，用于关联单个序列中不同位置，以计算序列的表示。自注意力已成功用于各种任务，包括阅读理解、抽象摘要、文本蕴含和学习任务无关的句子表示。

端到端记忆网络基于循环注意力机制，而不是序列对齐的循环，并已被证明在简单语言问答和语言建模任务上表现良好。

然而，据我们所知，Transformer是第一个完全依赖自注意力来计算其输入和输出的表示，而不使用序列对齐的RNN或卷积的转导模型。在以下部分中，我们将描述Transformer，解释自注意力的动机，并讨论其相对于其他模型的优势。

3，模型架构Model Architecture

大多数具有竞争力的神经序列转导模型都具有编码器-解码器结构[5，2，29]。在这里，编码器将符号表示（x1，...，xn）的输入序列映射为连续表示（z1，...，zn）的序列。给定z，解码器则逐个元素地生成符号的输出序列（y1，...，ym）。在每个步骤中，模型都是自回归的[9]，在生成下一个符号时，将先前生成的符号作为额外输入。

Transformer遵循这种总体架构，对编码器和解码器都使用了堆叠的自注意力和逐点全连接层，分别如图1的左半部分和右半部分所示。

3.1 编码器和解码器堆叠Encoder and Decoder Stacks

编码器：编码器由N=6个相同的层堆叠而成。每个层都有两个子层。第一个是多头自注意力机制，第二个是简单的、位置敏感的全连接前馈网络。我们在每个子层周围都使用了残差连接[10]，然后是层归一化[1]。也就是说，每个子层的输出是LayerNorm(x + Sublayer(x))，其中Sublayer(x)是子层本身实现的函数。为了便于这些残差连接，模型中的所有子层以及嵌入层都产生维度为dmodel=512的输出。

解码器：解码器也是由N=6个相同的层堆叠而成。除了每个编码器层中的两个子层外，解码器还插入了第三个子层，该子层对编码器堆叠的输出执行多头注意力。与编码器类似，我们在每个子层周围使用残差连接，然后进行层归一化。我们还修改了解码器堆叠中的自注意力子层，以防止位置关注到后续位置。这种掩蔽操作，结合输出嵌入位置偏移一个位置的事实，确保了位置i的预测只能依赖于位置小于i的已知输出。