传统Transformer
经典QKV算法
Transformer架构的优势与问题
- 万能模型,直接套用,代码实现简单,现成例子一大片
- 并行的,比LSTM快,全局信息丰富,注意力机制效果好
- 长序列中attention需要每一个点跟其他点计算(如果序列太长,效率很低
- Decoder输出挺墨迹的,要基于上一个预测结果来推断当前的预测结果
要解决的三大问题
- Attention要算的更快
- Decoder要一次性输出所有预测
- 堆叠encoder也得要更快
- 论文的三大核心模块
Encoder改进后的效果
1.一方面就是速度快效率高了,论文中计算复杂度由L^2->LlogL
2.下采样之后,特征更明显,且跟之前的模式基本一致
左右对比可以发现,特征更明显了(该亮的地方变的亮了)