什么是Transformer
Transformer 架构是由 Vaswani 等人在 2017 年提出的一种深度学习模型架构,首次发表于论文《Attention is All You Need》中
Transformer 的结构
Transformer = 编码器(Encoder) + 解码器(Decoder)
-
编码器(Encoder):将输入序列编码成上下文相关的表示。
-
解码器(Decoder):根据编码器输出和已有的目标序列预测下一个词。
标准的 Transformer 模型通常包含:
-
6 个编码器层(Encoder Layers)
-
6 个解码器层(Decoder Layers)
编码器结构(每层)
每个编码器层包含两个子层(Sublayers):
- 多头自注意力机制(Multi-Head Self-Attention)
- 前馈全连接网络(Feed-Forward Neural Network)提供非线性能力
每个子层外面都有:
- 残差连接(Residual Connection),避免梯度消失
- 层归一化(Layer Normalization),保持每一层输入和输出的数值稳定、分布一致
解码器结构(每层)
每个解码器层包含三个子层:
- Masked 多头自注意力机制
- Encoder-Decoder 注意力机制
- 前馈神经网络
也有残差连接和层归一化。