Pytorch常用的函数(六)常见的归一化总结(BatchNorm/LayerNorm/InsNorm/GroupNorm)

Pytorch常用的函数(六)常见的归一化总结(BatchNorm/LayerNorm/InsNorm/GroupNorm)

常见的归一化操作有:批量归一化(Batch Normalization)、层归一化(Layer Normalization)、实例归一化(Instance Normalization)、组归一化(Group Normalization)等。

其归一化操作示意图如下:

(下图来自Group Normalization论文,地址: https://arxiv.org/pdf/1803.08494.pdf)

在这里插入图片描述

在CV领域,深度网络中的数据维度一般是[N, C, H, W]格式,N是batch size,H/W是feature的高/宽,C是feature的channel,压缩H/W至一个维度。

其三维的表示如上图,假设单个方格的长度是1,那么其表示的是[6, 6,*, * ]

上图形象的表示了四种norm的工作方式:

  • BN在batch的维度上norm,归一化维度为[N,H,W],对batch中对应的channel归一化;
  • LN避开了batch维度,归一化的维度为[C,H,W];
  • IN 归一化的维度为[H,W];
  • 而GN介于LN和IN之间,其首先将channel分为许多组(group),再对每一组做归一化。
  • 我们下面以nlp中三维数据[N, L, C]为例进行详细讲解。

1 批归一化(BatchNorm)

BN应该是我们最熟悉的归一化操作了,批归一化的核心思想是:以一个小批量数据样本为单位在对应维度上进行标准化

1.1 批归一化的计算公式

数据归一化方法很简单,就是要让数据具有0均值和单位方差,如下式:
y = x − E [ x ] V a r [ x ] + ϵ y = \frac{x - \mathrm{E}[x]}{\sqrt{\mathrm{Var}[x] + \epsilon}} y=Var[x]+ϵ xE[x]
但是如果简单的这么干,会降低层的表达能力。比如在使用sigmoid激活函数的时候,如果把数据限制到0均值单位方差,那么相当于只使用了激活函数中近似线性的部分,这显然会降低模型表达能力。

为此,作者又为BN增加了2个参数,用来保持模型的表达能力,这样就公式就变为下式的形式:
y = x − E [ x ] V a r [ x ] + ϵ ∗ γ + β y = \frac{x - \mathrm{E}[x]}{\sqrt{\mathrm{Var}[x] + \epsilon}} * \gamma + \beta y=Var[x]+ϵ xE[x]γ+β

  • 上述公式中用到了均值E和方差Var,需要注意的是理想情况下E和Var应该是针对整个数据集的,但显然这是不现实的。因此,作者做了简化,用一个Batch的均值和方差作为对整个数据集均值和方差的估计。
  • BN与常用的数据归一化最大的区别就是加了后面这两个参数,这两个参数主要作用是在加速收敛和表征破坏之间做的trade off。
    • 以Sigmoid激活函数为例,批量归一化之后数据整体处于函数的非饱和区域, 只包含线性变换,破坏了之前学习到的特征分布。
    • 为了恢复原始数据分布,具体实现中引入了变换重构以及可学习参数gamma和beta ,即规范化后的隐层表示将输入数据限制到了一个全局统一的确定范围,为了保证模型的表达能力不因为规范化而下降
    • beta 是再平移参数,gamma是再缩放参数。

1.2 批归一化的api验证

批归一化的计算步骤如下:

  1. 对于每个批次的输入样本,在每个通道上分别计算均值和标准差。
    • 如下图所示,一共有6(embeding_dim)个通道
    • 每个通道,用36(seq_len×batch_size)个数据计算出1个均值,一共计算出6个均值
  2. 使用每个通道上的均值和标准差,对该样本中的每个通道内的元素进行归一化。

在这里插入图片描述

api官方文档: https://pytorch.org/docs/stable/generated/torch.nn.BatchNorm1d.html

torch.nn.BatchNorm1d(num_features,   # 通道eps=1e-05,      # 避免归一化时分母为0momentum=0.1,   # 用来计算running_mean和running_var的一个量affine=True,    # 是否进行缩放平移,即gamma和beta参数是否启用track_running_stats=True,  # 是否统计全局的running_mean和running_vardevice=None, dtype=None
)

我们通过手动实现BatchNorm1d来验证公式:

import torch
import torch.nn as nndef bn_nlp():batch_size = 2seq_len = 3embedding_dim = 4input_x = torch.randn(batch_size, seq_len, embedding_dim)  # N L Cprint('原始的输入:\n', input_x)# 1、调用官网api# 设置affine=False,不启用gamma和beta参数bn_op = nn.BatchNorm1d(num_features=embedding_dim, affine=False)# 输入要求是 N C L,需要变换维度# N is the batch size, # C is the number of features or channels# L is the sequence lengthbn_y = bn_op(input_x.transpose(-1, -2)).transpose(-1, -2)print('官方api的bn结果:\n', bn_y)# 2、手动实现bn# 在【每个通道】上分别计算均值和标准差# 这里一共4(embedding_dim)个通道# 即在batch维度和seq_len维度,求均值和标准差(即上图蓝色部分)bn_mean = input_x.mean(dim=(0, 1), keepdim=True)# unbiased=False  使用有偏估计来计算标准差bn_std = input_x.std(dim=(0, 1), unbiased=False, keepdim=True)print('均值:\n', bn_mean)print('标准差:\n', bn_std)eps = 1e-5# note: 官方文档是将eps放入方差之中再开根号,不过这里对值影响不大verify_bn_y = (input_x - bn_mean) / (bn_std + eps)  # bn_mean和bn_std会触发广播机制print('自己实现的bn结果:\n', verify_bn_y)if __name__ == '__main__':bn_nlp()
# 可以看到官方api的bn结果和自己计算的bn结果一致
原始的输入:tensor([[[-1.9182, -0.8153, -0.2014, -0.0894],[ 0.6366, -1.1906, -1.2189, -0.2368],[ 2.1686, -0.3856, -0.1906,  0.9672]],[[ 0.5857, -0.7613, -0.0867, -0.6334],[ 0.1875, -1.3680,  0.2689,  0.5938],[-0.8454,  1.4016,  0.7525, -0.8184]]])
官方api的bn结果:tensor([[[-1.6096, -0.3228, -0.1488, -0.0839],[ 0.3925, -0.7329, -1.8555, -0.3162],[ 1.5930,  0.1468, -0.1306,  1.5814]],[[ 0.3525, -0.2638,  0.0436, -0.9413],[ 0.0405, -0.9268,  0.6400,  0.9928],[-0.7689,  2.0996,  1.4513, -1.2329]]])
均值:
# (-1.9182+0.6366+2.1686+0.5857+0.1875-0.8454)/6 = 0.1358tensor([[[ 0.1358, -0.5199, -0.1127, -0.0362]]])
标准差:tensor([[[1.2761, 0.9151, 0.5961, 0.6345]]])
自己实现的bn结果:tensor([[[-1.6096, -0.3228, -0.1488, -0.0839],[ 0.3925, -0.7329, -1.8555, -0.3162],[ 1.5930,  0.1468, -0.1306,  1.5814]],[[ 0.3525, -0.2638,  0.0436, -0.9413],[ 0.0405, -0.9268,  0.6400,  0.9928],[-0.7689,  2.0996,  1.4513, -1.2329]]])

1.3 批归一化的注意点

1.3.1 使用场景

BN的适用性

  • 每个 mini-batch 比较大,数据分布比较接近。
  • 在进行训练之前,要做好充分的 shuffle,否则效果会差很多。

不能使用BN的场景

  • 在使用小batch size的时候不稳定

  • 对于在线学习不好

  • 对于循环神经网络不好,RNN不适合用BN的原因:Normalize的对象(position)来自不同分布。

    • CNN中使用BN,对一个batch内的每个channel做标准化。多个训练图像的同一个channel,大概率来自相似的分布。(例如树的图,起始的3个channel是3个颜色通道,都会有相似的树形状和颜色深度)
    • RNN中使用BN,对一个batch内的每个position做标准化。多个sequence的同一个position,很难说来自相似的分布。(例如都是影评,但可以使用各种句式,同一个位置出现的词很难服从相似分布)
    • 所以RNN中BN很难学到合适的μ和σ,将来自不同分布的特征做正确变换,甚至带来反作用,所以效果不好。

1.3.2 BN的作用

  • 改善流经网络的梯度

  • 允许更大的学习率,大幅提高训练速度。现在我们可以采用初始很大的学习率,然后学习率的衰减速度也很大,因为这个算法收敛很快。当然这个算法即使你选择了较小的学习率,也比以前的收敛速度快,因为它具有快速训练收敛的特性;

  • 减少对初始化的强烈依赖

  • 改善正则化策略。作为正则化的一种形式,轻微减少了对dropout的需求。你再也不用去理会过拟合中drop out、L2正则项参数的选择问题,采用BN算法后,你可以移除这两项参数,或者可以选择更小的L2正则约束参数了,因为BN具有提高网络泛化能力的特性;

  • 再也不需要使用使用局部响应归一化层了(局部响应归一化是Alexnet网络用到的方法),因为BN本身就是一个归一化网络层;

  • 可以把训练数据彻底打乱(防止每批训练的时候,某一个样本都经常被挑选到,文献说这个可以提高1%的精度)。

1.3.3 BN在训练和推理时候的差异

  • 在训练时,是对每一批的训练数据进行归一化,也即用每一批数据的均值和方差。

    • BN训练时为什么不用全量训练集的均值和方差呢?
    • 因为用全量训练集的均值和方差容易过拟合,对于BN,其实就是对每一批数据进行归一化到一个相同的分布,而每一批数据的均值和方差会有一定的差别,而不是用固定的值,这个差别实际上能够增加模型的鲁棒性,也会在一定程度上减少过拟合。
    • 也正是因此,BN一般要求将训练集完全打乱,并用一个较大的batch值,否则,一个batch的数据无法较好得代表训练集的分布,会影响模型训练的效果。
  • 在推理时,比如进行一个样本的预测,就并没有batch的概念,因此用的是全量训练数据的均值和方差,可以通过移动平均法求得。

2 层归一化(LayerNorm)

2.1 层归一化概述

层归一化的公式,和批归一化相同:
y = x − E [ x ] V a r [ x ] + ϵ ∗ γ + β y = \frac{x - \mathrm{E}[x]}{\sqrt{\mathrm{Var}[x] + \epsilon}} * \gamma + \beta y=Var[x]+ϵ xE[x]γ+β

2.2.1 层归一化的优缺点

  • 层规范化就是针对 BN 的不足而提出的。

  • LN 针对单个训练样本进行,不依赖于其他数据,因此可以避免 BN 中受 mini-batch 数据分布影响的问题

    • 可以用于 小mini-batch场景、动态网络场景和 RNN,特别是自然语言处理领域。
    • LN则是独立于batch_size的。
  • 此外,LN 不需要保存 mini-batch 的均值和方差,节省了额外的存储空间。

  • 需要注意的是:

    • BN 的转换是针对单个神经元可训练的,即不同神经元的输入经过再平移和再缩放后分布在不同的区间。
    • 而 LN 对于一整层的神经元训练得到同一个转换,即所有的输入都在同一个区间范围内。
    • 因此,如果不同输入特征不属于相似的类别(比如颜色和大小),那么 LN 的处理可能会降低模型的表达能力。

2.2.2 BN和LN的差异

  • BatchNorm就是通过对batch size这个维度归一化来让分布稳定下来。

  • LayerNorm则是通过对Hidden size这个维度归一化来让某层的分布稳定。

  • 在BN和LN都能使用的场景中,BN的效果一般优于LN,原因是基于不同数据,同一特征得到的归一化特征更不容易损失信息。

  • 但是有些场景是不能使用BN的,例如: batchsize较小或者在RNN中,这时候可以选择使用LN,LN得到的模型更稳定且起到正则化的作用。LN能应用到小批量和RNN中是因为LN的归一化统计量的计算是和batchsize没有关系的。

2.2.3 Bert、Transformer中为何使用的是LN

为何CV数据任务上很少用LN,用BN的比较多,而NLP上应用LN是比较多?

第一种解释如下:

我们用文本数据句话来说明BN和LN的操作区别。

我是中国人我爱中国
武汉抗疫非常成功0
大家好才是真的好0
人工智能很火000
  • 上面的4条文本数据组成了一个batch的数据,那么BN的操作的时候,就会把4条文本相同位置的字来做归一化处理,例如:我、武、大、人(每个embedding第i个位置一起进行归一化),这里就破坏了一个字内在语义的联系。

  • 而LN则是针对每一句话的每个token embedding做归一化处理。从这个角度看,LN就比较适合NLP任务,也就是bert和Transformer用的比较多。

  • 第一个解释从反面证明BN不适合作归一化,它是对batch个词的某个embedding位置进行归一化,不合理。

第二个解释如下:

batch normalization不具备的两个功能:

  • 1、layer normalization 有助于得到一个球体空间中符合均值为0、方差为1高斯分布的 embedding。NLP数据则是由embedding开始的,这个embedding并不是客观存在的,它是由我们设计的网络学习出来的。通过layer normalization得到的embedding是以坐标原点为中心,1为标准差,越往外越稀疏的球体空间中,这个正是我们理想的数据分布

  • 2、layer normalization可以对transformer学习过程中由于多词条embedding累加可能带来的“尺度”问题施加约束,相当于对表达每个词一词多义的空间施加了约束,有效降低模型方差。简单来说,每个词有一片相对独立的小空间,通过在这个小空间中产生一个小的偏移来达到表示一词多义的效果。transformer每一层都做了这件事,也就是在不断调整每个词在空间中的位置,这个调整就可以由layer normalization 来实现,batch normalization是做不到的。

2.2 层归一化的api验证

  • 层归一化计算步骤
  1. 对于每个样本内的每个层级,计算该层级上的均值和标准差。
    • 如下图所示,每一道红线(embeding_dim个数据计算)计算一个均值和标准差
    • 下图中,一共有6个样本,每个样本有6个层级,因此会计算出36个均值
  2. 使用每个层级的均值和标准差,对每个样本内的通道进行归一化。

在这里插入图片描述

api官方文档:https://pytorch.org/docs/stable/generated/torch.nn.LayerNorm.html

torch.nn.LayerNorm(normalized_shape, eps=1e-05, elementwise_affine=True, bias=True, device=None, dtype=None
)

我们通过手动实现LayerNorm来验证公式:

def ln_nlp():batch_size = 2seq_len = 3embedding_dim = 4input_x = torch.randn(batch_size, seq_len, embedding_dim)  # N L Cprint('原始的输入:\n', input_x)# 1、调用官网api# 设置elementwise_affine=False,不启用gamma和beta参数ln_op = nn.LayerNorm(normalized_shape=embedding_dim, elementwise_affine=False)# 输入要求是 [N, *],不需要变换维度ln_y = ln_op(input_x)print('官方api的ln结果:\n', ln_y)# 2、手动实现layer norm# 对于【每个样本内的每个层级】,计算该层级上的均值和标准差# 这里有2(batch_size)个样本,每个样本有3(seq_len)个层级ln_mean = input_x.mean(dim=-1, keepdim=True)# unbiased=False  使用有偏估计来计算标准差ln_std = input_x.std(dim=-1, unbiased=False, keepdim=True)print('均值:\n', ln_mean)print('标准差:\n', ln_std)eps = 1e-5# note: 官方文档是将eps放入方差之中再开根号,不过这里对值影响不大verify_ln_y = (input_x - ln_mean) / (ln_std + eps)  # 触发广播机制print('自己实现的ln结果:\n', verify_ln_y)if __name__ == '__main__':ln_nlp()
# 可以看到官方api的ln结果和自己计算的ln结果一致
原始的输入:tensor([[[-0.9624,  1.2447,  0.6740,  0.2548],[-0.4195,  1.3283, -2.7728,  0.8382],[ 0.8185, -0.5858,  0.0787,  0.6890]],[[-0.8232, -2.5022, -0.7234,  0.3765],[ 1.2651, -0.9825, -0.3684, -0.1102],[ 0.0357,  1.5741,  1.1220, -0.5346]]])
官方api的ln结果:tensor([[[-1.5608,  1.1621,  0.4580, -0.0592],[-0.1028,  0.9989, -1.5861,  0.6900],[ 1.0193, -1.4990, -0.3074,  0.7871]],[[ 0.0922, -1.5400,  0.1892,  1.2586],[ 1.5983, -1.1353, -0.3885, -0.0744],[-0.6120,  1.2212,  0.6825, -1.2916]]])
均值:tensor([[[ 0.3028],  # (-0.9624+1.2447+0.6740+0.2548)/4 = 0.3028[-0.2565],[ 0.2501]],[[-0.9180],[-0.0490],[ 0.5493]]])
标准差:tensor([[[0.8106],[1.5865],[0.5576]],[[1.0286],[0.8222],[0.8392]]])
自己实现的ln结果:tensor([[[-1.5608,  1.1621,  0.4580, -0.0592],[-0.1028,  0.9989, -1.5861,  0.6900],[ 1.0193, -1.4990, -0.3074,  0.7871]],[[ 0.0922, -1.5400,  0.1892,  1.2585],[ 1.5983, -1.1353, -0.3885, -0.0744],[-0.6120,  1.2212,  0.6825, -1.2916]]])

3 实例归一化(InstanctNorm)

3.1 实例归一化概述

  • 区别:实例归一化独立于批次和通道。每个样本都有自己的归一化参数。
  • 适用场景:适用于图像生成、风格迁移等需要保留每个样本独特性的任务,因为它不会引入批次间的相关性,更适合处理单个样本或小批量的情况。

3.2 实例归一化的api验证

  • 实例归一化的计算步骤
  1. 对于每个输入样本,在每个通道上分别计算均值和标准差。
    • 如下图,一共有6个输入样本,6个通道数据
    • 下图的蓝色区域计算一个均值和标准差,一共计算出36个均值
  2. 使用每个通道上的均值和标准差,对该样本中的每个通道内的元素进行归一化。

在这里插入图片描述

api官方文档:https://pytorch.org/docs/stable/generated/torch.nn.InstanceNorm1d.html

torch.nn.InstanceNorm1d(num_features, eps=1e-05, momentum=0.1, affine=False, track_running_stats=False, device=None, dtype=None
)

我们通过手动实现InstanceNorm1d来验证公式:

def in_nlp():batch_size = 2seq_len = 3embedding_dim = 4input_x = torch.randn(batch_size, seq_len, embedding_dim)  # N L Cprint('原始的输入:\n', input_x)# 1、调用官网api# 设置affine=False,不启用gamma和beta参数in_op = nn.InstanceNorm1d(num_features=embedding_dim, affine=False)# 输入要求是 [N, C, L],需要变换维度in_y = in_op(input_x.transpose(-1, -2)).transpose(-1, -2)print('官方api的in结果:\n', in_y)# 2、手动实现instant norm# 对于每个输入样本,在每个通道上分别计算均值和标准差# 这里有2(batch_size)个样本,有4(embedding_dim)个通道in_mean = input_x.mean(dim=1, keepdim=True)# unbiased=False  使用有偏估计来计算标准差in_std = input_x.std(dim=1, unbiased=False, keepdim=True)print('均值:\n', in_mean)print('标准差:\n', in_std)eps = 1e-5# note: 官方文档是将eps放入方差之中再开根号,不过这里对值影响不大verify_in_y = (input_x - in_mean) / (in_std + eps)  # 触发广播机制print('自己实现in结果:\n', verify_in_y)if __name__ == '__main__':in_nlp()
原始的输入:tensor([[[ 1.4341, -0.4215,  1.1963, -0.6798],[-0.4178, -0.3566,  0.6031, -0.9045],[ 0.2921, -1.4179,  0.8111, -1.7165]],[[-0.8753,  1.8243,  1.7770, -0.6461],[ 0.6337,  1.9972,  0.1212, -1.1680],[ 0.2313,  0.4167, -1.0360, -0.3761]]])
官方api的in结果:tensor([[[ 1.3082,  0.6393,  1.3270,  0.9443],[-1.1194,  0.7728, -1.0866,  0.4396],[-0.1888, -1.4121, -0.2404, -1.3838]],[[-1.3665,  0.5815,  1.2904,  0.2554],[ 0.9986,  0.8257, -0.1440, -1.3323],[ 0.3680, -1.4072, -1.1464,  1.0768]]])
均值:# (1.4341-0.4178+0.2921)/3 = 0.4361tensor([[[ 0.4361, -0.7320,  0.8701, -1.1003]],[[-0.0034,  1.4127,  0.2874, -0.7301]]])
标准差:tensor([[[0.7629, 0.4857, 0.2457, 0.4453]],[[0.6380, 0.7078, 1.1544, 0.3287]]])
自己实现in结果:tensor([[[ 1.3081,  0.6393,  1.3271,  0.9443],[-1.1194,  0.7728, -1.0867,  0.4396],[-0.1888, -1.4121, -0.2404, -1.3838]],[[-1.3665,  0.5815,  1.2904,  0.2554],[ 0.9986,  0.8257, -0.1440, -1.3323],[ 0.3680, -1.4071, -1.1464,  1.0768]]])

4 组归一化(Group Norm)

4.1 组归一化概述

  • 我们已经知道对于BN来说,过小的batch size会导致其性能下降,一般来说每GPU上batch设为32最合适

  • 但是对于一些其他深度学习任务batch size往往只有1-2,比如目标检测,图像分割,视频分类上,输入的图像数据很大,较大的batchsize显存吃不消。

  • 在这里插入图片描述

  • 另外,BN是在batch这个维度上Normalization,但是这个维度并不是固定不变的,比如训练和测试时一般不一样,一般都是训练的时候在训练集上通过滑动平均预先计算好平均-mean,和方差-variance参数,在测试的时候,不在计算这些值,而是直接调用这些预计算好的来用,但是,当训练数据和测试数据分布有差别是时,训练机上预计算好的数据并不能代表测试数据。

  • 既然明确了问题,解决起来就简单了,归一化的时候避开batch这个维度是不是可行呢,于是就出现了layer normalization和instance normalization等工作,但是仍比不上GN。

  • GN的极端情况就是LN和IN,分别对应G等于1和G等于C,作者在论文中给出G设为32较好。

4.2 组归一化的api验证

  • 组归一化的计算步骤
  1. 对于每个输入样本,在每个组上(下图整块蓝色区域)分别计算均值和标准差。
    • 如下图,一共有6个输入样本,2个组
    • 下图的蓝色区域计算一个均值和标准差,一共计算出12个均值
  2. 使用每个组上的均值和标准差,对该组中的元素进行归一化。

在这里插入图片描述

api的官方文档:https://pytorch.org/docs/stable/generated/torch.nn.GroupNorm.html

torch.nn.GroupNorm(num_groups,   # 分组的组数num_channels, # channel的个数eps=1e-05, affine=True, device=None, dtype=None
)

我们通过手动实现GroupNorm来验证公式:

def group_nlp():batch_size = 2seq_len = 3embedding_dim = 4input_x = torch.randn(batch_size, seq_len, embedding_dim)  # N L Cprint('原始的输入:\n', input_x)# 1、调用官网api# 设置affine=False,不启用gamma和beta参数# 设置分为2组group_op = nn.GroupNorm(num_groups=2, num_channels=embedding_dim, affine=False)# 输入要求是 [N, C, *],需要变换维度group_y = group_op(input_x.transpose(-1, -2)).transpose(-1, -2)print('官方api的group结果:\n', group_y)# 2、手动实现group norm# 将输入按照通道切分为2组g_input_xs = torch.split(input_x, split_size_or_sections=embedding_dim // 2, dim=-1)# 循环2组,进行归一化results = []for index, g_input_x in enumerate(g_input_xs):# 对于每个输入样本,在每个组上分别计算均值和标准差group_mean = g_input_x.mean(dim=(1, 2), keepdim=True)# unbiased=False  使用有偏估计来计算标准差group_std = g_input_x.std(dim=(1, 2), unbiased=False, keepdim=True)print(f'第{index + 1}组均值:\n', group_mean)print(f'第{index + 1}组标准差:\n', group_std)eps = 1e-5# note: 官方文档是将eps放入方差之中再开根号,不过这里对值影响不大g_result = (g_input_x - group_mean) / (group_std + eps)results.append(g_result)# 再次拼接    verify_gn_y = torch.cat(results, dim=-1)print('自己实现group结果:\n', verify_gn_y)if __name__ == '__main__':group_nlp()
原始的输入:tensor([[[ 0.6412, -0.9580,  0.1505, -0.9598],[-0.2981, -1.5032,  0.3579, -0.8543],[ 0.0351, -0.0369, -1.4433,  1.0080]],[[-0.2616,  0.2139, -0.8719,  3.2135],[-1.0790,  0.0833,  0.8177, -0.0801],[ 1.2287, -2.2719,  0.6443, -0.3537]]])
官方api的group结果:tensor([[[ 1.4229, -0.8651,  0.5148, -0.7823],[ 0.0790, -1.6452,  0.7571, -0.6591],[ 0.5557,  0.4527, -1.3472,  1.5167]],[[ 0.0785,  0.5116, -1.0883,  2.0133],[-0.6661,  0.3926,  0.1944, -0.4872],[ 1.4360, -1.7527,  0.0627, -0.6949]]])
第1组均值:tensor([[[-0.3533]], # (0.6412-0.2981+0.0351-0.9580-1.5032-0.0369)/6=-0.3533[[-0.3477]]])
第1组标准差:tensor([[[0.6989]],[[1.0978]]])
第2组均值:tensor([[[-0.2902]],# (0.1505+0.3579-1.4433-0.9598-0.8543+1.0080)/6=-0.2902[[ 0.5616]]])
第2组标准差:tensor([[[0.8559]],[[1.3172]]])
自己实现group结果:tensor([[[ 1.4229, -0.8651,  0.5148, -0.7823],[ 0.0790, -1.6452,  0.7571, -0.6591],[ 0.5557,  0.4527, -1.3472,  1.5167]],[[ 0.0785,  0.5116, -1.0883,  2.0133],[-0.6661,  0.3926,  0.1944, -0.4872],[ 1.4360, -1.7527,  0.0627, -0.6949]]])

5 总结

四者联系:

  • 都属于归一化技术, 基本数学原理一模一样,目标是减少内部协变量偏移,加速网络训练
  • 都会计算均值和标准差,并做归一化处理

四者区别:

  • 适用场景不同:BN用于CNN,LN用于RNN,IN用于样式迁移,GN兼具BN和LN的优点
  • 归一化粒度不同:BN针对批,LN针对层,IN针对实例,GN针对通道组
  • 计算量不同:BN和GN计算量大,LN和IN计算量小
  • 是否使用批信息:BN使用批信息,LN、IN、GN不使用
  • BN和GN会减少特征表达的灵活性,LN和IN能够保留特征表达的灵活性

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/606285.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【React系列】React生命周期、setState深入理解、 shouldComponentUpdate和PureComponent性能优化、脚手架

本文来自#React系列教程:https://mp.weixin.qq.com/mp/appmsgalbum?__bizMzg5MDAzNzkwNA&actiongetalbum&album_id1566025152667107329) 一. 生命周期 1.1. 认识生命周期 很多的事物都有从创建到销毁的整个过程,这个过程称之为是生命周期&…

案例分析——如何优化跨境直播网络

跨境直播 风口已至 这些年越来越多商家加入直播带货行列,各种玩法日渐成熟。而TikTok作为当前国外最火爆的直播平台,不少卖家都会定期做TikTok直播引流,但时常会面临着远程访问导致直播画面模糊、卡顿掉线、延迟高,甚至可能限流黑…

Django 4.2.7 ORM 连接MySQLServer 完成单表CRUD

文章目录 Django ORM介绍1.使用pycharm新建一个Django项目2.修改settings.py文件中 DATABASES3.创建APP4.创建模型5.操作数据库 Django ORM介绍 Django 模型使用自带的 ORM。 对象关系映射(Object Relational Mapping,简称 ORM )用于实现面向…

OpenHarmony内存泄漏指南 - 解决问题(综合)

本系列文章旨在提供定位与解决OpenHarmony应用与子系统内存泄露的常见手段与思路,将会分成几个部分来讲解。首先我们需要掌握发现内存泄漏问题的工具与方法,以及判断是否可能存在泄漏。接着需要掌握定位泄漏问题的工具,以及抓取trace、分析tr…

Golang : Bson\Json互转

代码 package bson_jsonimport ("encoding/json""errors""fmt""gopkg.in/mgo.v2/bson""os""testing" )type User struct {Name string json:"name,omitempty" bson:"name,omitempty"CSD…

静态网页设计——天行九歌(HTML+CSS+JavaScript)(dw、sublime Text、webstorm、HBuilder X)

前言 声明:该文章只是做技术分享,若侵权请联系我删除。!! 感谢大佬的视频:https://www.bilibili.com/video/BV1de411m7y4/?vd_source5f425e0074a7f92921f53ab87712357b 源码:https://space.bilibili.com…

java回溯算法、最短路径算法、最小生成树算法

回溯算法 回溯算法实际上一个类似枚举的搜索尝试过程,主要是在搜索尝试过程中寻找问题的解,当发现已不满足求解条件时,就“回溯”返回,尝试别的路径。 最短路径算法 从某顶点出发,沿图的边到达另一顶点所经过的路径中…

高通开发系列 - toolchain交叉编译器编译kernel以及生成boot镜像

By: fulinux E-mail: fulinux@sina.com Blog: https://blog.csdn.net/fulinus 喜欢的盆友欢迎点赞和订阅! 你的喜欢就是我写作的动力! 返回:专栏总目录 目录 背景概述分析过程generate_defconfig.sh脚本环境准备合并其他几个配置文件开始编译生成dtb镜像

Python-PyQt5树莓派上位机

Python-PyQt5树莓派上位机 一个使用PythonQT设计的树莓派的上位机,功能大概如下 1.笔记本电脑与树莓派的通讯是否成功显示(给个信号显示判断是否通讯成功); 2.阈值的设置显示; 3.图像成像的显示; 4.是否发生…

【python爬虫】如何开始写爬虫?来给你一条清晰的学习路线吧~

记录一下我自己从零开始写python爬虫的心得吧! 我刚开始对爬虫不是很了解,又没有任何的计算机、编程基础,确实有点懵逼。从哪里开始,哪些是最开始应该学的,哪些应该等到有一定基础之后再学,也没个清晰的概…

模糊综合评价

第一步:确定评语指标集 评语集 第二步:求出模糊评价矩阵P,往往结合具体数据 通常用频率法确定隶属度 用变异系数法确定权重 前几篇博客有讲变异系数法 移步 模糊合成

【hcie-cloud】【19】云原生详细介绍、华为云Stack中云原生服务简介

文章目录 前言云原生简介云计算和云原生云原生的特征云原生技术架构云原生的定义云原生关键技术 - 容器&不可变基础设施1、 容器2、微服务3、服务网格4、DevOps5、 不可变基础设施6、 声明式API 云原生关键技术 - 申明式API 华为云Stack中云原生服务简介构建以应用为中心的…

Day1Qt

1、实现登录窗口界面 头文件 #ifndef MAINWINDOW_H #define MAINWINDOW_H#include <QMainWindow> #include <QIcon>//图标 #include <QLabel>//标签类 #include <QMovie>//动态类 #include <QLineEdit>//行编辑类 #include <QPushButton>…

龙芯+RT-Thread+LVGL实战笔记(29)——电子琴弹奏

【写在前面】临近期末,笔者工作繁忙,因此本系列教程的更新频率有所放缓,还望订阅本专栏的朋友理解,请勿催更。笔者在此也简要声明几点: 有些硬件模块笔者并没有,如LED点阵、压力传感模块、RFID模块等,因此这些模块的相关任务暂时无法给出经过验证的代码。其实,教程进行…

一文带你全面了解什么是自动化测试?

&#x1f4e2;专注于分享软件测试干货内容&#xff0c;欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1f4dd; 如有错误敬请指正&#xff01;&#x1f4e2;软件测试面试题分享&#xff1a; 1000道软件测试面试题及答案&#x1f4e2;软件测试实战项目分享&#xff1a; 纯接口项目-完…

打造专属个人或企业知识付费平台,核心功能设计

在当今信息爆炸的时代&#xff0c;知识管理已经成为了每个人必须面对的问题。然而&#xff0c;市面上的知识付费平台大多数都是通用的&#xff0c;无法满足个性化需求。 因此&#xff0c;明理信息科技提供了一款专属定制的适合个人的知识付费平台。核心产品能力如下&#xff1…

js逆向第14例:猿人学第7题动态字体,随风漂移

任务7:采集这5页中胜点列的数据,找出胜点最高的召唤师,将召唤师姓名填入答案中 此题采集的是胜点列表的数据如下 通过控制台审查元素查看,可以看到是乱码,记得几年前的快手,小红书,抖音也采用了此类反爬措施,html页面显示的是乱码,浏览器能正常显示数据,大概率就是…

基于ssm的双减后初小教育课外学习生活活动平台的设计与实现论文

双减后初小教育课外学习生活活动平台的设计与实现 摘 要 当下&#xff0c;正处于信息化的时代&#xff0c;许多行业顺应时代的变化&#xff0c;结合使用计算机技术向数字化、信息化建设迈进。以前学校对于课外学习活动信息的管理和控制&#xff0c;采用人工登记的方式保存相关…

基于海洋捕食者算法优化的Elman神经网络数据预测 - 附代码

基于海洋捕食者算法优化的Elman神经网络数据预测 - 附代码 文章目录 基于海洋捕食者算法优化的Elman神经网络数据预测 - 附代码1.Elman 神经网络结构2.Elman 神经用络学习过程3.电力负荷预测概述3.1 模型建立 4.基于海洋捕食者优化的Elman网络5.测试结果6.参考文献7.Matlab代码…

在Spring Cloud Config Github配置中心

关于Spring Cloud系列我们其实讲解了很多&#xff0c;但是这里我们介绍一下Spring Cloud Config&#xff0c;它是一个解决分布式系统的配置管理方案&#xff0c;他包含了Client 和 Server 两个部分&#xff0c;server提供配置文件的存储&#xff0c;以接口的方式将配置文件内容…