dz整站免费网站建设/seo外推软件

在这里插入图片描述

0.论文摘要

卷积神经网络建立在卷积操作的基础上，通过融合局部感受野内的空间和通道信息来提取有意义的特征。为了增强网络的表示能力，最近的一些方法展示了增强空间编码的好处。在本研究中，我们专注于通道关系，并提出了一种新颖的架构单元，称为“压缩-激励”（SE）块，它通过显式建模通道之间的相互依赖关系，自适应地重新校准通道特征响应。我们证明，通过堆叠这些块，可以构建在具有挑战性的数据集上表现出色的SENet架构。关键的是，我们发现SE块在现有最先进的深度架构中，以最小的额外计算成本，带来了显著的性能提升。SENet构成了我们在ILSVRC 2017分类任务中的提交基础，该提交获得了第一名，并将前五错误率显著降低至2.251%，相对于2016年的获胜方案实现了约25%的相对改进。

1.引言

卷积神经网络（CNNs）已被证明是解决各种视觉任务的有效模型 [21, 27, 33, 45]。对于每个卷积层，通过学习一组滤波器来表达输入通道之间的局部空间连接模式。换句话说，卷积滤波器被期望通过将空间和通道信息在局部感受野内融合，形成信息丰富的组合。通过堆叠一系列卷积层，并在其中穿插非线性和下采样操作，CNNs能够捕捉具有全局感受野的层次化模式，作为强大的图像描述。最近的研究表明，通过显式嵌入有助于捕捉空间相关性而无需额外监督的学习机制，可以提升网络的性能。其中一种方法由Inception架构 [16, 43] 推广，该架构表明，通过在模块中嵌入多尺度处理，网络可以实现具有竞争力的准确率。更近期的研究则致力于更好地建模空间依赖性 [1, 31] 并引入空间注意力机制 [19]。

在本文中，我们通过引入一种新的架构单元——“压缩与激励”（Squeeze-and-Excitation，SE）模块，探讨了架构设计的一个不同方面——通道关系。我们的目标是通过显式建模卷积特征通道之间的相互依赖性，来提升网络的表示能力。为此，我们提出了一种机制，使网络能够执行特征重校准，从而学习利用全局信息来有选择地强调信息丰富的特征并抑制不太有用的特征。

SE模块的基本结构如图1所示。对于任意给定的变换 $F_{tr}：X → U$ ，其中 $\mathbb{R}^{H'×W'×C'}$ ， $\mathbb{R}^{H×W×C}$ （例如卷积或一组卷积），我们可以构建相应的SE模块来执行特征重校准，具体步骤如下。首先，特征 $U$ 通过一个压缩操作，该操作在空间维度 $H \times W$ 上聚合特征图，生成一个通道描述符。该描述符嵌入了通道特征响应的全局分布，使得网络全局感受野的信息能够被其较低层利用。接着是激励操作，其中通过基于通道依赖性的自门控机制为每个通道学习样本特定的激活，控制每个通道的激励。然后，特征图 $U$ 被重新加权，生成SE模块的输出，该输出可以直接输入到后续层中。

在这里插入图片描述

图1：一个压缩-激励模块。

SE网络可以通过简单地堆叠一组SE构建块来生成。SE块也可以作为原始块的即插即用替代品，用于架构中的任何深度。然而，尽管构建块的模板是通用的，正如我们在第6.4节中所展示的，它在不同深度所扮演的角色会根据网络的需求进行调整。在早期层中，它学会以类别无关的方式激发信息丰富的特征，从而增强共享的低级表示的质量。在后期层中，SE块变得越来越专业化，并以高度类别特定的方式响应不同的输入。因此，SE块执行的特征重新校准的好处可以在整个网络中累积。

新型CNN架构的开发是一项具有挑战性的工程任务，通常涉及选择许多新的超参数和层配置。相比之下，上述SE模块的设计则较为简单，可以直接应用于现有的最先进架构中，通过直接替换为相应的SE模块来增强其性能。

此外，如第4节所示，SE模块在计算上非常轻量，仅略微增加了模型的复杂性和计算负担。为了支持这些观点，我们开发了多个SENet，并在ImageNet 2012数据集[34]上进行了广泛的评估。为了展示其普遍适用性，我们还提供了在ImageNet之外的结果，表明所提出的方法不仅限于特定数据集或任务。

使用SENets，我们在ILSVRC 2017分类竞赛中获得了第一名。我们表现最佳的模型集成在测试集上实现了2.251%的top-5错误率。与上一年的获胜者（top-5错误率为2.991%）相比，这代表了约25%的相对改进。

2.相关工作

深度架构

VGGNets [39] 和 Inception 模型 [43] 展示了增加网络深度的优势。批量归一化（BN）[16] 通过插入单元来调节层输入，改善了梯度传播，稳定了学习过程。ResNets [10, 11] 展示了通过使用基于恒等映射的跳跃连接来学习更深层次网络的有效性。Highway 网络 [40] 采用了门控机制来调节快捷连接。网络层之间连接的重新表述 [5, 14] 已被证明可以进一步改善深度网络的学习和表示能力。

另一条研究路线探索了如何调整网络模块组件的函数形式。分组卷积可用于增加基数（变换集合的大小）[15, 47]。多分支卷积可以被视为这一概念的泛化，使得算子的组合更加灵活 [16, 42, 43, 44]。最近，通过自动化方式学习的组合 [26, 54, 55] 展现了具有竞争力的性能。跨通道相关性通常被映射为特征的新组合，要么独立于空间结构 [6, 20]，要么通过使用标准卷积滤波器 [24] 与 1×1 卷积联合实现。许多工作集中在减少模型和计算复杂度的目标上，反映了通道关系可以表述为具有局部感受野的实例无关函数的组合这一假设。与此相反，我们主张为单元提供一种机制，利用全局信息显式建模通道之间的动态非线性依赖关系，可以简化学习过程，并显著增强网络的表示能力。

注意力和门控机制

注意力机制可以被广泛视为一种工具，用于将可用的处理资源偏向于输入信号中最具信息量的部分 [17, 18, 22, 29, 32]。这种机制的优势已在多种任务中得到验证，从图像中的定位和理解 [3, 19] 到基于序列的模型 [2, 28]。它通常与门控函数（如 softmax 或 sigmoid）和序列技术结合使用 [12, 41]。最近的研究表明，它在图像描述 [4, 48] 和唇语识别 [7] 等任务中也具有适用性。在这些应用中，它通常被用于一个或多个表示高层抽象的层之上，以实现模态之间的适配。Wang 等人 [46] 提出了一种强大的主干-掩码注意力机制，使用了沙漏模块 [31]。这种高容量单元被插入到深度残差网络的中间阶段之间。相比之下，我们提出的 SE 模块是一种轻量级的门控机制，专门用于以计算高效的方式建模通道间的关系，旨在增强网络中基本模块的表示能力。

3.压缩与激励模块

Squeeze-and-Excitation模块是一种计算单元，可以针对任何给定的变换 $F_{tr}：X → U$ 进行构建，其中 $\mathbb{R}^{H'×W'×C'}$ ， $\mathbb{R}^{H×W×C}$ 。为简化起见，在接下来的表示中，我们将 $F_{tr}$ 视为卷积算子。设 $V = [v_1, v_2, . . . , v_C]$ 表示学习到的滤波器核集合，其中 $v_c$ 表示第 $c$ 个滤波器的参数。然后，我们可以将 $F_{tr}$ 的输出表示为 $U = [u_1, u_2, . . . , u_C]$ ，其中

在这里插入图片描述

其中 $*$ 表示卷积运算， $v_c = [v_c^1, v_c^2, ..., v^{C'}_c]$ 和 $X = [x^1, x^2, ..., x^{C'}]$ （为简化表示省略了偏置项）， $v_c^s$ 是一个二维空间核，因此代表 $v_c$ 作用于 $X$ 对应通道的单个通道。由于输出是通过所有通道求和产生的，通道间的依赖关系隐式地嵌入在 $v_c$ 中，但这些依赖关系与滤波器捕获的空间相关性相互耦合。我们的目标是确保网络能够增强对信息丰富特征（这些特征可被后续变换利用）的敏感性，同时抑制效用较低的特征。为此我们提出通过显式建模通道间的相互依赖关系，在特征被输入下一变换前，通过挤压和激励两个步骤来重新校准滤波器响应。图1展示了SE模块的结构示意图。

在这里插入图片描述

图1：一个压缩-激励模块。

3.1. 压缩：全局信息嵌入

为了解决利用通道依赖性的问题，我们首先考虑输出特征中每个通道的信号。每个学习到的滤波器都在局部感受野内进行操作，因此变换输出 $U$ 的每个单元都无法利用该区域之外的上下文信息。这一问题在网络底层尤为严重，因为其感受野尺寸较小。

为解决这一问题，我们提出将全局空间信息压缩为通道描述符。具体实现方式是通过全局平均池化生成通道级统计量。从形式上看，通过沿 $H \times W$ 空间维度收缩特征图 $U$ 可生成统计量 $z∈\mathbb{R}^C$ ，其中 $z$ 的第 $c$ 个元素计算公式如下：

在这里插入图片描述

讨论。变换输出 $U$ 可视为一组局部描述符的集合，其统计特性能够有效表征整幅图像。此类信息的利用在特征工程工作中十分常见[35,38,49]。我们选择了最简单的全局平均池化方法，但需指出此处同样可采用更复杂的聚合策略。

3.2. 激励：自适应重校准

为了利用挤压操作中聚合的信息，我们在其后引入第二个操作，旨在全面捕捉通道间的依赖关系。为实现这一目标，该函数需满足两个条件：首先，它必须具备灵活性（尤其要能学习通道间的非线性交互）；其次，它必须学习非互斥关系，因为我们希望确保多个通道都能被强调，而非单一通道的独热激活。为满足这些条件，我们选择采用带有sigmoid激活函数的简单门控机制：

在这里插入图片描述

其中 $δ$ 表示ReLU函数[30]， $W_1 ∈ \mathbb{R}^{C/r×C}$ ， $W_2 ∈ \mathbb{R}^{C×C/r}$ 。为限制模型复杂度并提升泛化能力，我们通过非线性层两侧构建全连接层（FC）形成瓶颈结构来实现门控机制的参数化：首先采用降维层 $W_1$ （缩减率为 $r$ ，该参数选择详见6.4节）和ReLU激活，随后接升维层 $W_2$ 。最终通过使用激活值对变换输出 $U$ 进行重新缩放，得到该模块的输出：

在这里插入图片描述

其中 $\tilde{X} = [\tilde{x}_1, \tilde{x}_2, ..., \tilde{x}_C]$ ， $F_{scale}(u_c, s_c)$ 表示特征图 $u_c ∈ \mathbb{R}^{H×W}$ 与标量 $s_c$ 之间的逐通道乘法运算。

讨论。这些激活值作为通道权重，会根据输入特定的描述符 $z$ 进行自适应调整。从这个角度看，SE模块本质上引入了基于输入条件的动态机制，有助于增强特征的可判别性。

3.3. 示例模型：SE-Inception与SE-ResNet

将SE模块应用于AlexNet[21]和VGGNet[39]是直接可行的。SE模块的灵活性使其能够直接应用于标准卷积之外的变换操作。为说明这一点，我们通过将SE模块集成到具有复杂设计的现代架构中，开发了SENet网络。

对于非残差网络（例如Inception网络），我们通过将变换 $F_{tr}$ 设置为完整的Inception模块来构建SE块（见图2）。通过对该架构中所有此类模块进行改造，我们构建了SE-Inception网络。此外，SE块具有足够的灵活性，可应用于残差网络。图3展示了SEResNet模块的结构示意图。在此方案中，SE块的变换 $F_{tr}$ 采用残差模块的非恒等分支，挤压（squeeze）和激励（excitation）操作均在与恒等分支求和前执行。通过类似方案，还可构建与ResNeXt[47]、Inception-ResNet[42]、MobileNet[13]以及ShuffleNet[52]结合的更多变体。表1详细描述了SE-ResNet-50和SE-ResNeXt-50的网络架构。

在这里插入图片描述

表1：（左）ResNet-50。（中）SE-ResNet-50。（右）采用32×4d模板的SE-ResNeXt-50。括号内列出了残差构建模块的具体参数设置对应的形状与操作，括号外标注了各阶段堆叠的模块数量。fc后的内括号表示SE模块中两个全连接层的输出维度。

4. 模型与计算复杂度

为了使提出的SE模块在实际应用中切实可行，它必须在模型复杂度和性能之间取得有效平衡，这对可扩展性至关重要。除特别说明外（更多讨论见第6.4节），我们在所有实验中将压缩比r设为16。为说明该模块的计算成本，我们以ResNet-50和SE-ResNet-50的对比为例：SE-ResNet-50的精度不仅优于ResNet-50，甚至接近更深层的ResNet-101网络（如表2所示）。ResNet-50在处理224×224像素输入图像时，单次前向传播需要约3.86 GFLOPs运算量。每个SE模块在压缩阶段使用全局平均池化操作，在激励阶段采用两个小型全连接层，最后执行计算量极低的通道缩放操作。总体而言，SE-ResNet-50共需约3.87 GFLOPs，相较原始ResNet-50仅增加0.26%的相对计算量。

在这里插入图片描述

表2：ImageNet验证集上的单作物错误率（%）及模型复杂度对比。"原始结果"列指原论文中报告的结果。为公平比较，我们重新训练了基线模型并在"复现结果"列中报告分数。"SENet"列表示添加了SE模块的对应架构。括号内数字表示相对于复现基线的性能提升。†表示该模型在验证集的非黑名单子集上进行评估（详见文献[42]），这可能使结果略有提升。VGG-16和SE-VGG-16均采用批量归一化进行训练。

在实际应用中，使用256张图像组成的训练小批量时，ResNet-50模型完成一次前向传播和反向传播耗时190毫秒，而SE-ResNet-50模型耗时209毫秒（两项测试均在配备8块NVIDIA Titan X GPU的服务器上进行）。我们认为这一额外耗时处于合理范围，尤其是考虑到现有GPU库对全局池化和小型内积运算的优化程度较低。此外，由于该技术对嵌入式设备应用具有重要意义，我们还测试了各模型的CPU推理耗时：对于224×224像素的输入图像，ResNet-50耗时164毫秒，SE-ResNet-50则为167毫秒。SE模块带来的微小计算开销增加完全可以通过其对模型性能的提升得到合理补偿。

接下来，我们讨论该模块引入的额外参数。这些参数全部包含在门控机制的两个全连接层中，仅占网络总容量的很小一部分。更准确地说，新增参数的数量由以下公式给出：

在这里插入图片描述

其中 $r$ 表示缩减比例， $S$ 代表网络阶段数（每个阶段指代在相同空间维度特征图上操作的多个模块集合）， $C_s$ 表示第 $s$ 阶段的输出通道维度， $N_s$ 表示阶段 $s$ 中模块的重复次数。SEResNet-50在ResNet-50约2500万参数的基础上新增了约250万参数，对应约10%的参数增长。这些新增参数主要来自网络的最后阶段——该阶段在最大通道维度上执行激励操作。但我们发现，移除SE模块中计算代价较高的最终阶段仅会带来微小的性能损失（ImageNet数据集上top-1误差增加<0.1%），同时可将相对参数增量降至约4%。在参数使用量是关键考量因素的应用场景中（详见6.4节讨论），这一改进具有实用价值。

5.实施

每个普通网络及其对应的SE变体均采用相同的优化方案进行训练。在ImageNet训练过程中，我们遵循标准实践，采用随机尺寸裁剪[43]至224×224像素（Inception-ResNet-v2[42]和SE-Inception-ResNet-v2为299×299）和随机水平翻转进行数据增强。输入图像通过通道均值减法实现归一化处理。此外，我们采用文献[36]描述的数据平衡策略进行小批量采样。所有网络均在我们设计的分布式学习系统"ROCS"上训练，该系统专为高效并行训练大型网络而构建。优化过程采用同步带动量的随机梯度下降法（SGD，动量系数0.9），小批量规模为1024。初始学习率设为0.6，每30个训练周期降低10倍。所有模型均从零开始训练100个周期，权重初始化策略参照文献[9]实现。

在测试阶段，我们对验证集采用中心裁剪评估方法：对于每张图像，首先将其短边调整为256像素后，从中裁剪出224×224像素区域（对于Inception-ResNet-v2和SE-Inception-ResNet-v2模型，则是先将短边调整为352像素后，从中裁剪出299×299像素区域）。

6.实验

6.1. ImageNet图像分类

ImageNet 2012数据集包含128万张训练图像和5万张验证图像，涵盖1000个类别。我们在训练集上训练网络，并报告top-1和top-5错误率。

网络深度。我们首先将SE-ResNet与不同深度的ResNet架构进行对比。表2中的结果显示，SE模块能在计算复杂度仅轻微增加的情况下，持续提升不同深度网络的性能表现。

在这里插入图片描述

表2：ImageNet验证集上的单裁剪错误率（%）及模型复杂度对比。"原始结果"列显示原论文报告的数据。为确保公平比较，我们重新训练了基线模型并在"复现结果"列中给出分数。"SENet"列表示添加了SE模块的对应架构。括号内数字表示相对于复现基线的性能提升。†表示该模型在验证集的非黑名单子集上进行评估（详见文献[42]），这可能使结果略有提升。VGG-16和SE-VGG-16模型训练时采用了批量归一化。

值得注意的是，SE-ResNet-50以单次剪裁实现了6.62%的Top-5验证错误率，较ResNet-50（7.48%）降低了0.86%，同时以仅一半的计算开销（3.87 GFLOPs vs. 7.58 GFLOPs）逼近了更深层的ResNet-101网络性能（6.52% Top-5错误率）。这一优势在更深层网络中同样成立：SE-ResNet-101（6.07% Top-5错误率）不仅追平了更深的ResNet-152网络（6.34% Top-5错误率），还以0.27%的优势实现超越。图4展示了SE-ResNet-50与ResNet-50的训练和验证曲线（更多网络曲线见补充材料）。需要说明的是，虽然SE模块本身会增加网络深度，但其计算效率极高——即便在基础架构深度增加已呈现收益递减的阶段，仍能带来显著性能提升。此外，实验表明SE模块带来的性能改进在不同深度网络中具有一致性，这意味着SE模块的改进效果可与增加基础架构深度的方式协同使用。

在这里插入图片描述

图4：ResNet-50和SE-ResNet-50在ImageNet上的训练曲线。

与现代架构的整合。接下来我们研究将SE模块与另外两种最先进的架构——Inception-ResNet-v2[42]和ResNeXt（采用32×4d配置）[47]相结合的效果，这两种架构都在模块中引入了先验结构。

我们为这些网络构建了对应的SENet版本——SE-Inception-ResNet-v2和SE-ResNeXt（SE-ResNeXt-50的具体配置见表1）。表2结果显示，SE模块的引入为两种架构均带来了显著的性能提升。其中SE-ResNeXt-50的top-5错误率为5.49%，不仅优于其直接对照模型ResNeXt-50（5.90% top-5错误率），也超越了更深层的ResNeXt-101（5.57% top-5错误率）——后者参数量与计算开销近乎翻倍。在Inception-ResNetv2的实验中，我们推测裁剪策略差异可能导致文献[42]报告结果与我们的复现结果存在偏差，因其未明确原始图像尺寸，而我们从短边调整为352像素的较大图像中裁剪299×299区域。SE-Inception-ResNet-v2（4.79% top-5错误率）相较我们的复现版Inception-ResNet-v2（5.21%）实现了0.42%的绝对提升（相对提升8.1%），同时也优于文献[42]报道的结果。

我们还通过在VGG-16[39]和BN-Inception架构[16]上进行实验，评估了SE模块在非残差网络中的效果。由于深度网络难以优化[16,39]，为便于从头训练VGG-16，我们在每个卷积层后添加了批归一化层。训练SE-VGG-16时采用了相同的方案。如表2所示的对比结果体现了与残差架构中相同的现象。

最后，我们在表3中对两种代表性的高效架构MobileNet[13]和ShuffleNet[52]进行了评估，结果表明SE模块能以极小的计算成本大幅持续提升准确率。这些实验证明SE模块带来的性能改进可广泛应用于各类架构中。此外，该结论在残差和非残差基础结构上均成立。

在这里插入图片描述

表3：ImageNet验证集上的单作物错误率（%）及复杂度对比。其中，MobileNet对应文献[13]中的"1.0 MobileNet-224"，ShuffleNet对应文献[52]中的"ShuffleNet 1×（g=3）"。

ILSVRC 2017分类竞赛结果。SENet构成了我们参赛方案的基础，并助力我们夺得冠军。我们的获胜方案采用了一个小型SENet集成模型，通过标准的多尺度与多裁剪融合策略，在测试集上实现了2.251%的top-5错误率。其中表现优异的SENet-154网络，是通过将SE模块与改进版ResNeXt[47]相结合构建而成（详见补充材料），其设计目标是在不过分强调模型复杂度的前提下追求极致精度。表4展示了该模型与已发表顶尖模型在ImageNet验证集上的对比结果：使用224×224中心裁剪评估时，我们的模型取得了18.68%的top-1错误率和4.47%的top-5错误率。为公平比较，我们还提供了320×320中心裁剪评估结果，显示出较先前工作的显著性能提升。赛后，我们使用更大输入尺寸320×320训练SENet-154，在top-1（16.88%）和top-5（3.58%）错误率指标上均创下新低。

6.2. 场景分类

我们在Places365-Challenge数据集[53]上进行了场景分类实验。该数据集包含365个类别，共计800万张训练图像和36,500张验证图像。相较于分类任务，场景理解能更有效地评估模型的泛化能力和抽象处理能力，因为该任务需要捕捉更复杂的数据关联，并对更高程度的外观变化保持鲁棒性。

我们采用ResNet-152作为强基线模型来评估SE模块的有效性，并遵循文献[37]中的训练和评估流程。表5展示了ResNet-152与SE-ResNet-152的性能对比。具体而言，SE-ResNet152（11.01%的top-5错误率）相比ResNet-152（11.61%的top-5错误率）实现了更低的验证误差，这证明SE模块在不同数据集上均能表现优异。该SENet模型超越了此前最先进的Places365-CNN模型[37]（该任务下top-5错误率为11.48%）。

在这里插入图片描述

表5：Places365验证集上的单裁剪错误率(%)。

6.3. COCO数据集上的目标检测

我们进一步在目标检测任务上评估SE模块的泛化能力，采用包含8万张训练图像和4万张验证图像的COCO数据集[25]，实验设置遵循文献[10]。使用Faster R-CNN[33]作为检测方法，并采用文献[10]的基础实现方案。本研究旨在评估将基础架构ResNet替换为SE-ResNet带来的收益，从而将性能提升归因于更好的特征表示能力。表6展示了在验证集上分别使用ResNet-50、ResNet-101及其SE变体的结果。SE-ResNet-50在COCO标准评价指标AP上比ResNet-50高出1.3%（相对提升5.2%），在IoU阈值为0.5时的AP指标上高出1.6%。值得注意的是，SE模块能使更深层的ResNet-101架构在AP指标上获得0.7%的提升（相对提升2.6%）。

在这里插入图片描述

表6：使用基础Faster R-CNN模型在COCO 40k验证集上的目标检测结果。

6.4. 分析与解读

缩减比例。公式(5)中引入的缩减比例r是一个重要超参数，它允许我们调整模型中SE模块的容量与计算成本。为探究这一关系，我们基于SE-ResNet-50架构对不同r值进行了实验。表7的对比结果表明，性能并不会随着容量增加而单调提升，这可能是由于SE模块对训练集通道依赖关系产生了过拟合。实验发现当r=16时能在精度与复杂度之间取得最佳平衡，因此后续所有实验均采用该设定值。

在这里插入图片描述

表7：ImageNet验证集上SE-ResNet-50在不同缩减比r下的单作物错误率（%）及参数量。其中original指原始ResNet-50。

激励机制的作用。虽然SE模块通过实证研究被证明能提升网络性能，但我们仍希望理解自门控激励机制的实际运作方式。为更清晰地展现SE模块的行为特征，本节我们将研究SE-ResNet-50模型中的激活示例，并分析它们在不同网络层级、不同类别间的分布规律。具体而言，我们从ImageNet数据集中选取了四个在语义和外观上具有多样性的类别（金鱼、巴哥犬、飞机和悬崖，示例图像见补充材料），对每个类别从验证集抽取50个样本，计算每个阶段最后一个SE模块（下采样前）中50个均匀采样通道的平均激活值，其分布情况如图5所示。作为参照，我们还绘制了全部1000个类别的平均激活值分布曲线。

在这里插入图片描述

图5：ImageNet数据集上SE-ResNet-50各模块受激产生的激活状态。模块命名格式为"SE_阶段编号_块编号"。

关于激励（Excitation）的作用，我们得出以下三点观察。首先，在较低网络层（如SE_2_3）中，不同类别间的通道权重分布几乎完全一致。这表明在网络的早期阶段，特征通道的重要性可能由不同类别共享。但有趣的是，我们的第二项观察发现：随着网络深度增加（如SE_4_6和SE_5_1），各通道的权重会呈现出更强的类别特异性，因为不同类别对特征判别力的偏好开始分化。这两项发现与先前研究[23,50]的结论一致——低层特征通常更具通用性（在分类任务中表现为类别无关性），而高层特征则具有更强的特异性。因此，SE模块通过自适应地促进特征提取与特化程度的重新校准，有效提升了表征学习能力。

最后，我们在网络的最终阶段观察到略有不同的现象。SE_5_2表现出趋于饱和状态的特性：大部分激活值接近1，其余接近0。当所有激活值均为1时，该模块将退化为标准残差块。在紧接分类器前进行全局池化的SE_5_3模块中，不同类别间也呈现出相似模式（仅存在可由分类器调整的幅度差异）。这表明SE_5_2和SE_5_3在网络重新校准中的重要性低于前期模块。该发现与第4节的实证研究结果相符：移除最后阶段的SE模块能在仅造成边际性能损失的前提下，显著减少模型参数量。

7.结论

本文提出了一种新型架构单元——SE模块，其通过动态调整通道特征权重来增强网络的表征能力。大量实验表明，SENet在多个数据集上实现了最先进的性能表现。该研究还揭示了先前架构在建模通道特征依赖性方面的局限性，这些发现有望为其他需要强判别性特征的任务提供参考。最后，SE模块所诱导的特征重要性可能对网络压缩剪枝等相关领域具有应用价值。

8.参考文献

[1] S. Bell, C. L. Zitnick, K. Bala, and R. Girshick. Insideoutside net: Detecting objects in context with skip pooling and recurrent neural networks. In CVPR, 2016. 1
[2] T. Bluche. Joint line segmentation and transcription for endto-end handwritten paragraph recognition. In NIPS, 2016. 2
[3] C. Cao, X. Liu, Y. Yang, Y. Yu, J. Wang, Z. Wang, Y. Huang, L. Wang, C. Huang, W. Xu, D. Ramanan, and T. S. Huang. Look and think twice: Capturing top-down visual attention with feedback convolutional neural networks. In ICCV, 2015. 2
[4] L. Chen, H. Zhang, J. Xiao, L. Nie, J. Shao, W. Liu, and T. Chua. SCA-CNN: Spatial and channel-wise attention in convolutional networks for image captioning. In CVPR, 2017. 2
[5] Y. Chen, J. Li, H. Xiao, X. Jin, S. Yan, and J. Feng. Dual path networks. In NIPS, 2017. 2, 6
[6] F. Chollet. Xception: Deep learning with depthwise separable convolutions. In CVPR, 2017. 2
[7] J. S. Chung, A. Senior, O. Vinyals, and A. Zisserman. Lip reading sentences in the wild. In CVPR, 2017. 2
[8] D. Han, J. Kim, and J. Kim. Deep pyramidal residual networks. In CVPR, 2017. 6
[9] K. He, X. Zhang, S. Ren, and J. Sun. Delving deep into rectifiers: Surpassing human-level performance on ImageNet classification. In ICCV, 2015. 5
[10] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016. 2, 5, 6, 7
[11] K. He, X. Zhang, S. Ren, and J. Sun. Identity mappings in deep residual networks. In ECCV, 2016. 2, 6
[12] S. Hochreiter and J. Schmidhuber. Long short-term memory. Neural computation, 1997. 2
[13] A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto, and H. Adam. Mobilenets: Efficient convolutional neural networks for mobile vision applications. arXiv:1704.04861, 2017. 3, 6
[14] G. Huang, Z. Liu, K. Q. Weinberger, and L. Maaten. Densely connected convolutional networks. In CVPR, 2017. 2, 6
[15] Y. Ioannou, D. Robertson, R. Cipolla, and A. Criminisi. Deep roots: Improving CNN efficiency with hierarchical filter groups. In CVPR, 2017. 2
[16] S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In ICML, 2015. 1, 2, 5, 6
[17] L. Itti and C. Koch. Computational modelling of visual attention. Nature reviews neuroscience, 2001. 2
[18] L. Itti, C. Koch, and E. Niebur. A model of saliency-based visual attention for rapid scene analysis. IEEE TPAMI, 1998. 2
[19] M. Jaderberg, K. Simonyan, A. Zisserman, and K. Kavukcuoglu. Spatial transformer networks. In NIPS, 2015. 1, 2
[20] M. Jaderberg, A. Vedaldi, and A. Zisserman. Speeding up convolutional neural networks with low rank expansions. In BMVC, 2014. 2
[21] A. Krizhevsky, I. Sutskever, and G. E. Hinton. ImageNet classification with deep convolutional neural networks. In NIPS, 2012. 1, 3
[22] H. Larochelle and G. E. Hinton. Learning to combine foveal glimpses with a third-order boltzmann machine. In NIPS, 2010. 2
[23] H. Lee, R. Grosse, R. Ranganath, and A. Y. Ng. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations. In ICML, 2009. 8
[24] M. Lin, Q. Chen, and S. Yan. Network in network. arXiv:1312.4400, 2013. 2
[25] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollar, and C. L. Zitnick. Microsoft coco: Common objects in context. ECCV, 2014. 7
[26] H. Liu, K. Simonyan, O. Vinyals, C. Fernando, and K. Kavukcuoglu. Hierarchical representations for efficient architecture search. arXiv: 1711.00436, 2017. 2
[27] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015. 1
[28] A. Miech, I. Laptev, and J. Sivic. Learnable pooling with context gating for video classification. arXiv:1706.06905, 2017. 2
[29] V. Mnih, N. Heess, A. Graves, and K. Kavukcuoglu. Recurrent models of visual attention. In NIPS, 2014. 2
[30] V. Nair and G. E. Hinton. Rectified linear units improve restricted boltzmann machines. In ICML, 2010. 3
[31] A. Newell, K. Yang, and J. Deng. Stacked hourglass networks for human pose estimation. In ECCV, 2016. 1, 2
[32] B. A. Olshausen, C. H. Anderson, and D. C. V. Essen. A neurobiological model of visual attention and invariant pattern recognition based on dynamic routing of information. Journal of Neuroscience, 1993. 2
[33] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In NIPS, 2015. 1, 7
[34] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. Fei-Fei. ImageNet large scale visual recognition challenge. IJCV, 2015. 2
[35] J. Sanchez, F. Perronnin, T. Mensink, and J. Verbeek. Image classification with the fisher vector: Theory and practice. RR-8209, INRIA, 2013. 3
[36] L. Shen, Z. Lin, and Q. Huang. Relay backpropagation for effective learning of deep convolutional neural networks. In ECCV, 2016. 4
[37] L. Shen, Z. Lin, G. Sun, and J. Hu. Places401 and places365 models. https://github.com/lishen-shirley/ Places2-CNNs, 2016. 7
[38] L. Shen, G. Sun, Q. Huang, S. Wang, Z. Lin, and E. Wu. Multi-level discriminative dictionary learning with application to large scale image classification. IEEE TIP, 2015. 3
[39] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In ICLR, 2015. 2, 3, 5, 6
[40] R. K. Srivastava, K. Greff, and J. Schmidhuber. Training very deep networks. In NIPS, 2015. 2
[41] M. F. Stollenga, J. Masci, F. Gomez, and J. Schmidhuber. Deep networks with internal selective attention through feedback connections. In NIPS, 2014. 2
[42] C. Szegedy, S. Ioffe, V. Vanhoucke, and A. Alemi. Inceptionv4, inception-resnet and the impact of residual connections on learning. In ICLR Workshop, 2016. 2, 3, 4, 5, 6
[43] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. In CVPR, 2015. 1, 2, 4
[44] C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna. Rethinking the inception architecture for computer vision. In CVPR, 2016. 2, 6
[45] A. Toshev and C. Szegedy. DeepPose: Human pose estimation via deep neural networks. In CVPR, 2014. 1
[46] F. Wang, M. Jiang, C. Qian, S. Yang, C. Li, H. Zhang, X. Wang, and X. Tang. Residual attention network for image classification. In CVPR, 2017. 2, 6
[47] S. Xie, R. Girshick, P. Dollar, Z. Tu, and K. He. Aggregated residual transformations for deep neural networks. In CVPR, 2017. 2, 3, 5, 6, 7
[48] K. Xu, J. Ba, R. Kiros, K. Cho, A. Courville, R. Salakhudinov, R. Zemel, and Y. Bengio. Show, attend and tell: Neural image caption generation with visual attention. In ICML, 2015. 2
[49] J. Yang, K. Yu, Y. Gong, and T. Huang. Linear spatial pyramid matching using sparse coding for image classification. In CVPR, 2009. 3
[50] J. Yosinski, J. Clune, Y. Bengio, and H. Lipson. How transferable are features in deep neural networks? In NIPS, 2014. 8
[51] X. Zhang, Z. Li, C. C. Loy, and D. Lin. Polynet: A pursuit of structural diversity in very deep networks. In CVPR, 2017. 6
[52] X. Zhang, X. Zhou, M. Lin, and J. Sun. Shufflenet: An extremely efficient convolutional neural network for mobile devices. arXiv:1707.01083, 2017. 3, 6
[53] B. Zhou, A. Lapedriza, A. Khosla, A. Oliva, and A. Torralba. Places: A 10 million image database for scene recognition. IEEE TPAMI, 2017. 7
[54] B. Zoph and Q. V. Le. Neural architecture search with reinforcement learning. In ICLR, 2017. 2
[55] B. Zoph, V. Vasudevan, J. Shlens, and Q. V. Le. Learning transferable architectures for scalable image recognition. arXiv: 1707.07012, 2017. 2, 6