下面通过举个例子来说明Batch Normalization的原理,我们假设在网络中间经过某些卷积操作之后的输出的feature map的尺寸为4×3×2×2,4为batch的大小,3为channel的数目,2×2为feature map的长宽
整个BN层的运算过程如下图:
上图中,batch size一共是4, 对于每一个batch的feature map的size是3×2×2
对于所有batch中的同一个channel的元素进行求均值与方差,比如上图,对于所有的batch,都拿出来最后一个channel,一共有4×2×2=16个元素
然后求区这16个元素的均值与方差。求取完了均值与方差之后,对于这16个元素中的每个元素进行减去求取得到的均值,并除以方差,然后乘以gamma加上beta,公式如下:
因为求取的均值与方差是对于所有batch中的同一个channel进行求取,batch normalization中的batch体现在这个地方
在pytorch求取batch normalization的函数是nn.BatchNorm2d(),其传入参数是channels数,例如上面的例子中,
nn.BatchNorm2d(3)