自注意力机制Self-attention（1）

目录：
自注意力机制Self-attention（1）
自注意力机制Self-attention（2）

本文是对李宏毅老师的课程进行了整理。
视频地址为：
https://www.bilibili.com/video/BV1Wv411h7kN?p=23

1 问题引入

在这里插入图片描述
问：为什么要引入自注意力机制？
答：输入一个向量，经过Model预测后得到一个分类结果/数值型结果；当输入一组向量，经过Model预测后有三种可能的输出，第一种输出是一个分类结果/数值型结果，第二种输出是每个向量输出一个分类结果/数值型结果（有多少个输入向量，就有多少个分类结果），第三种输出是多种分类结果/数值型结果（输入向量个数和输出分类结果个数不相同），例如句子"I saw a saw (我看到了一个锯子)"中判断"saw"的词性，第一个是动词，第二个是名词，如果没有上下文，很难判断"saw"的词性。

问：哪些应用场景会有一组向量的输入呢？
答：
（1）一段文字：
在这里插入图片描述
（2）一段语音：

（3）social network：

(4) 药物发现：

2 方法介绍

在这里插入图片描述
问：如何利用输入的一组向量 $a^1$ ， $a^2$ ， $a^3$ ， $a^4$ ，得到输出 $b^1$ ， $b^2$ ， $b^3$ ， $b^4$ ？
答：首先通过目标向量 $a^1$ ，找到关联的 $a^2$ ， $a^3$ ， $a^4$ ；然后只要知道怎么计算出 $b^1$ ，就同理知道 $b^2$ ， $b^3$ ， $b^4$ 计算了。
在这里插入图片描述
问：如何得到注意力分数？
答：这个模块是自注意力机制的核心模块。
上图介绍了两种方法来计算注意力分数。
左边方法为：用一个矩阵 $W^q$ 乘上左边的向量得到一个向量 $q$ ，再用另外一个矩阵 $W^k$ 乘上左右边的向量得到向量 $k$ ；注意力分数 $α=q⋅k\alpha = q \cdot k$ 。
右边方法为：用一个矩阵 $W^q$ 乘上左边的向量得到一个向量 $q$ ，再用另外一个矩阵 $W^k$ 乘上左右边的向量得到向量 $k$ ；注意力分数 $α=Wtanh⁡(q+k)\alpha = W \tanh (q + k)$ 。
李老师在本次课程采用的是左边的方法。
在这里插入图片描述
query： $q^1 = W^q a^1$ （备注：transform）
key： $k^2 = W^k a^2$ （备注：transform）
attention score： $α1,2=q1⋅k2\alpha_{1,2} = q^1 \cdot k^2$

Soft-max： $α1,i′=exp⁡(α1,i)∑jexp⁡(α1,j)\alpha_{1,i}^{'} = \frac{\exp(\alpha_{1,i})}{\sum_j \exp(\alpha_{1,j})}$