1.transformer transformer self-attention 当前编码的词和整个句子所有词做attention,权重加在所有句子上获得当前的表示 encoder-decoder-attention 当前解码的单元和编码器的所有输出做attention,权重加在所有编码输出上,获得当前的表示 1.1 self-attention 单头 多头 1.2 残差 2.Bert Bert-