文章目录
- 九、Transformer 江山一统
- 9.1、**消除恐惧:**我们亲手写一个 Transformer
- 9.1.1、Embeddings
- 9.1.2、单头 Attention
- 单个头的注意力计算
- 9.1.3、多头 Attention
- 9.1.4、全连接网络(Feed-Forward Network)
- 9.1.5、拼成一层 Transformer
- 9.1.6、多层 Transformer 构成 BERT Encoder
- 9.2 Transformer 怎么用
- 9.2.1. Encoder-