图解注意力

Part #2: The Illustrated Self-Attention

在文章前面的部分，我们展示了这张图片来展示自注意力被应用于正在处理单词"it"的一层中：
在这里插入图片描述

在本节中，我们将看看这是如何完成的。请注意，我们将以一种试图理解单个单词发生什么的方式来看待它。这就是为什么我们将展示许多单独的向量。实际的实现是通过将巨大的矩阵相乘在一起来完成的。但我想专注于这里单词层面上发生的事情的直觉。

Self-Attention (without masking)

让我们首先看看在编码器模块中如何计算原始自注意力。让我们看看一个一次只能处理四个标记的玩具变压器模块。

自注意力通过三个主要步骤应用：

为每个路径创建查询（Query）、键（Key）和值（Value）向量。
对于每个输入标记，使用其查询向量与所有其他键向量进行评分。
在将它们乘以相关分数后，将值向量相加

在这里插入图片描述

1- Create Query, Key, and Value Vectors

让我们专注于第一条路径。我们将采用其查询，并与所有键进行比较。这为每个键产生了一个分数。自注意力的第一步是为每个标记路径计算三个向量（现在让我们暂时忽略注意力头）：

在这里插入图片描述

2- Score

现在我们已经有了向量，我们只在步骤#2中使用查询和键向量。由于我们专注于第一个标记，我们将它的查询与所有其他键向量相乘，为这四个标记中的每一个都产生了一个分数。

在这里插入图片描述

3- Sum

现在我们可以将分数乘以值向量。得分高的值将在我们加总它们后构成结果向量的很大一部分。

在这里插入图片描述

分数越低，我们展示的值向量就越透明。这是为了表示乘以一个小数如何稀释向量的值。

如果我们对每条路径执行相同的操作，我们最终会得到一个向量，代表每个标记包含该标记的适当上下文。然后，这些向量被呈现给Transformer模块中的下一个子层（前馈神经网络）：

在这里插入图片描述

The Illustrated Masked Self-Attention

现在我们已经查看了Transformer自注意力步骤的内部，让我们继续看看掩蔽自注意力。掩蔽自注意力与自注意力相同，只是在步骤#2时有所不同。假设模型只有两个标记作为输入，我们正在观察第二个标记。在这种情况下，最后两个标记被掩蔽了。因此，模型在打分步骤中进行了干预。它基本上总是将未来标记的分数设为0，这样模型就不能提前看到未来的单词：

在这里插入图片描述

这种掩蔽通常是通过一个称为注意力掩蔽矩阵来实现的。想象一个由四个单词组成的序列（例如“robot must obey orders”）。在语言建模场景中，这个序列以四个步骤吸收——每个单词一步（假设现在每个单词都是一个标记）。由于这些模型以批量工作，我们可以假设这个玩具模型的批量大小为4，它将整个序列（及其四个步骤）作为一批处理。

在这里插入图片描述

在矩阵形式中，我们通过将查询矩阵乘以键矩阵来计算分数。让我们如下可视化它，只是不是单词，而是与该单词在该单元格中相关联的查询（或键）向量：

在这里插入图片描述

乘法之后，我们应用注意力掩蔽三角矩阵。它将我们想要掩蔽的单元格设置为负无穷大或一个非常大的负数（例如，在GPT-2中为-10亿）：

在这里插入图片描述

然后，对每一行应用softmax会产生我们用于自注意力的实际分数：

在这里插入图片描述

这个分数表的意思是：

- 当模型处理数据集中的第一个示例（行#1），其中只包含一个单词（“robot”），它的全部注意力（100%）将集中在那个单词上。
- 当模型处理数据集中的第二个示例（行#2），其中包含单词（“robot must”），当它处理单词“must”时，它的48%注意力将集中在“robot”上，52%的注意力将集中在“must”上。