目录
FFN层,全称为Feed-Forward Network层
Layer Normalization
操作步骤
归一化和Softmax
归一化解决量纲问题
归一化(Normalization)
Softmax
FFN层,全称为Feed-Forward Network层
是Transformer架构中的一个关键组件。它本质上是一个简单的多层感知机(MLP),用于在Transformer模型中进行特征的非线性变换。FFN层通常包含两个线性变换(即全连接层)中间夹以一个激活函数,以引入非线性
Layer Normalization
针对每一层的神经元输出进行标准化处理,目的是让每一层的输入数据具有稳定的分布。具体操作是对每个样本的所有特征维度进行归一化,而不是像Batch Normalization那样对每个mini-batch内的数据进行归一化。这意味着,Layer Norm的归一化是基于特征维度的,而不是基于样本批次的。
操作步骤
-
计算均值和方差:对于一个序列中的每个token(或特征向量),计算其所有