文章目录
- Concepts
- Embedding
- Encoder
- Decoder
- Self-Attention matric calculation
- Final Linear and Softmax Layer
- Loss function
- 参考
学一下已经问鼎中原七年之久的Transformer
Concepts
开始拆积木!
Embedding
Encoder
Decoder
Self-Attention matric calculation
Final Linear and Softmax Layer
这一块输出的非常非常长的vector叫做logits vector
,又是一个不好翻译的专有词汇。
在图像分类的领域里,这里的Linear+Softmax
就是Classifier
;
Loss function
不管是连续的还是离散的,反正下面这一堆概率就是probability distribution
(我之前一直以为是像高中那样的高斯曲线图才叫这个distribution
),其实分布也不一定非要符合什么规律,毫无规律也可以;
参考
The Illustrated Transformer
Transformer通俗笔记:从Word2Vec、Seq2Seq逐步理解到GPT、BERT
The Annotated Transformer 非常完整的一份代码