
理解 transformer 中的 encoder + decoder
- 详细的 transformer 教程见:【极速版 – 大模型入门到进阶】Transformer
文章目录
- 🌊 Encoder: 给一排向量输出另外一排向量
- 🌊 Encoder vs. Decoder: multi-head attention vs. masked multi-head attention
- 🌊 Decoder: Cross attention

🌊 Encoder: 给一排向量输出另外一排向量

🌊 Encoder vs. Decoder: multi-head attention vs. masked multi-head attention
- 从下图可以看出,除了灰色遮住的区域, encoder 和 decoder 结构基本完全相同,除了在 decoder 中: multi-head attention 变为了 masked multi-head attention

- masked multi-head attention: 之和自己前面的做 attention

🌊 Decoder: Cross attention
- 另外,还差一部分就是 – cross attention

