简单易懂的Transformer学习笔记

1. 整体概述

2. Encoder

2.1 Embedding

2.2 位置编码

2.2.1 为什么需要位置编码

2.2.2 位置编码公式

2.2.3 为什么位置编码可行

2.3 注意力机制

2.3.1 基本注意力机制

2.3.2 在Trm中是如何操作的

2.3.3 多头注意力机制

2.4 残差网络

2.5 Batch Normal & Layer Narmal

2.5.1 Batch Normal

2.5.2 Layer Normal

3. Decoder

3.1 Mask

3.2 交互层

1. 整体概述

Transformer模型首次提出是在论文Attention is All You Need中。在论文中，Transformer被用来实现机器翻译的工作。相较于RNN难以并行处理信息与CNN窗口短难以处理长序列的缺点，Transformer具有更高的效率与更加优秀的性能。

总体来看，Transformer由编码器与解码器两部分组成。

其中，Encoder与Decoder是可以堆叠N（论文中N=6）层的，这些层结构相同，参数独立。

论文中的Transformer架构如下，下文将针对各个环节进行解释。

2. Encoder

$Encoder$ 分为三个部分，输入部分、注意力机制与前馈神经网络。将输入送入 $Embedding$ (词嵌入层)，与位置编码对位相加。之后进行多头注意力机制处理，进入残差网络并将结果进行 $Layer Normal$ 。之后进入双层全连接网络，并对结果进行残差和正则化处理。

论文中的 $Encoder$ 有6层堆叠网络，其中每层有2层子层网络。

2.1 Embedding

$Embedding$ 可以看作是一个查找表，用来获取每个单词的学习向量表示。神经网络通过数字进行学习，所以将每个单词映射到一个连续值的向量来表示该单词。

2.2 位置编码

2.2.1 为什么需要位置编码

不同于RNN的按时间线串行处理，Transformer是并行处理的。为了保存序列顺序，引入位置编码。

2.2.2 位置编码公式

将Embedding与位置编码相加得到的值作为下面环节的输入。

2.2.3 为什么位置编码可行

对于一个特定位置的 $d_{model}$ 维的位置向量，借助三角函数的性质

我们可以得到：

可以看出， $pos+k$ 位置的位置向量的某一维 $2i$ 或 $2i+1$ ，可以由 $pos$ 位置与 $k$ 位置的位置向量的 $2i$ 与 $2i+1$ 为的线性组合表示。这意味着向量中蕴含了相对位置信息（但该相对位置信息会在注意力机制处消失）。

2.3 注意力机制

2.3.1 基本注意力机制

注意力即关注点。比如给你一张包含婴儿的图片，并提问婴儿在干嘛，此时你对图片中各部分的关注度是不同的，可能对婴儿的脸与手的部分关注度更高，而对图片边缘部分则关注度较低。

论文中给出的注意力公式如下：

下面以输入“我不爱你”为例解释公式。如图，阶段1中向量Q与向量K点乘，点乘得到的值可以反映两个向量之间的相似程度。阶段2对阶段1中得到的值做了类softmax的归一化处理。除以 $\sqrt{d_k}$ 可以防止值向两端偏导致梯度消失。阶段3中将阶段2得到的值分别与对应的value值相乘，最后将这些结果相加得到了Attention Value。

以上是nlp的举例，cv中也类似，图像的分割可类比词的分割。

2.3.2 在Trm中是如何操作的

首先，我们需要由单词向量获取 $q,k,v$ 的值。对于词向量 $X_i$ ，将其分别与 $W^Q, W^K, W^V$ 相乘（注意这里与所有的词向量相乘的都是同一套 $W$ 参数），可以得到 $q_i,k_i,v_i$ 。接着，计算 $QK$ 的相似度，得到 $Attention$ 的值。在实际代码中，通常使用矩阵表示，方便并行。

2.3.3 多头注意力机制

将词向量与不同的 $W$ 参数相乘，可以得到多组值。亦即将 $Q,K,V$ 投影到低维 $h$ 次，做j次注意力函数，合并每个输出得到最终输出。

类似于 $CNN$ 里的多通道输出，使得Trm有可学习的参数。

$MultiHead(Q,K,V)=Concat(head_1,...,head_h)W^O$

$where \ head_i = Attention(QW_i^Q,KW_i^K,VW_i^V)$

2.4 残差网络

残差网络将原先的输出 $F(X)$ 与输入 $X$ 对位相加。要求输入与输出维度相同，论文中设置维度为512。

将上图简化如下：

根据后向传播的链式法则： $\frac{\partial L}{\partial X_{Aout}} = \frac{\partial L}{\partial X_{Din}} \frac{\partial X_{Din}}{\partial X_{Aout}}$ ，

而 $X_{Din} = X_{Aout}+C(B(X_{Aout}))$ ，

所以 $\frac{\partial L}{\partial X_{Aout}} = \frac{\partial L}{\partial X_{Din}} (1+\frac{\partial X_{Din}}{\partial X_C}\frac{\partial X_C}{\partial X_B}\frac{\partial X_B}{\partial X_{Aout}})$ 。