基本原理:
Transformer 的核心概念是 自注意力机制(Self-Attention Mechanism),它允许模型在处理每个输入时“关注”输入序列的不同部分。这种机制让模型能够理解每个单词或符号与其他单词或符号之间的关系,而不是逐个地线性处理输入。
Transformer 主要由两个部分组成:
编码器(Encoder):将输入序列转换为一个隐表示(向量表示)。
解码器(Decoder):从隐表示生成输出序列。
编码器 和 解码器 都由多个 层(layers) 组成,每层都包括一个 自注意力机制 和一个 前馈神经网络(Feed-Forward Neural Network, FFN)。
整体组成:
Encoder block由6个encoder堆叠而成,一个Encoder由两个子层组成,即Multi-Head Attention和全连接神经网络Feed Forward Network,每个子层都采用了残差连接的结构,后面接一个layer_norm层。
Decoder block由6个decoder堆叠而成,一个Decoder包含两个 Multi-Head Attention 层。第一个 Multi-Head Attention 层采用了 Masked 操作。第二个 Multi-Head Attention 层的K, V