transformer初探

- - - self-attention
    - multihead-attention
    - encoder
    - decoder

self-attention

其实就是三个矩阵， $W_q$ 、 $W_k$ 、 $W_v$ ，这三个矩阵就是需要训练的参数。分别得到每个token对应的 $q$ $k$ $v$ ，其中 $q$ $k$ 用来计算每个token之间的相似度，这里一般称为attention scores，然后通过一个Soft-max作一个norm。

拿到attention scores以后呢，既然已经知道了token的之间的“关联性”，再分别和 $v$ 作一个简单的加权求和，最后得到attention以后的输出 $b$

值得注意的是，上述操作是可以通过矩阵表示的，如下所示

multihead-attention

其实就是把前面一小节得到的 $q$ $k$ $v$ 作一个拆分，每一个都拆成 $n$ 份，其中 $n$ 是head的数量。在 $q$ $k$ $v$ 的第 $i$ 个head中，都只与对应head作计算，然后将结果拼接起来就好。

encoder

encoder输入还会考虑一个位置编码，一起嵌入到Embedding表示后的token中。

整个计算过程也很直观

decoder

这里有一个很关键的点是，在encoder中只有self-attention，因为是一次性输入所有的token，计算每个token之间的关联性，得到一个编码后的输出。但是decoder是一个一个输入，每输入一个产生一个输出，虽然说这一步也可以用矩阵并行计算，其原理就是masked-attention。计算 $b^1$ 的时候，我们只考虑 $a^1$ ，计算 $b^2$ 的时候，我们考虑 $a^1$ 和 $a^2$ ，依此类推。实现原理其实就是一个mask矩阵。