卷积作为神经网络的核心计算之一,在CV领域有着诸多突破性进展,因而近年来关于卷积神经网络的研究不断。由于卷积的计算十分复杂,而且神经网络运行时很大一部分时间都会耗费在计算卷积上,因此优化卷积计算就显得尤为重要。
那么如何在不改变网络主体结构的情况下, 提高卷积神经网络的性能?
今天我就来和大家分享11种经典优化方法,这些方法旨在提升CNN的各项能力,比如平移、旋转、scale、多尺度特征提取、感受野、感知空间位置能力等。
核心代码以及论文原文文末领取
1、STN
论文:Spatial Transformer Networks
标题:空间变换器网络
方法介绍:卷积神经网络定义了一个非常强大的模型类,但仍受限于以计算和参数高效的方式对输入数据空间不变性的缺乏。在这项工作中,作者引入了一个新的可学习模块,即空间转换器,它明确允许网络内数据的空间操作。这个可微分模块可以插入现有的卷积架构中,使神经网络能够主动根据特征映射本身在空间上转换特征映射,而不需要任何额外的训练监督或修改优化过程。作者发现使用空间转换器可以使模型学习对平移、缩放、旋转和更泛化变形的不变性,在几个基准测试中取得了最先进的性能,对一些变换类型也取得了最好的结果。
2、ASPP(atrous spatial pyramid pooling)
论文:DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Conv
标题:DeepLab:使用扩张卷积的语义图像分割
方法介绍:作者利用深度学习来解决语义图像分割任务,并做出了三个主要贡献,这些贡献在实验中被证明具有实质性的实用价值。首先,作者强调了上采样滤波器的卷积,或“空洞卷积”,作为稠密预测任务中的一种强大工具。空洞卷积允许我们在深度卷积神经网络中明确控制特征响应的计算分辨率。它还允许我们有效扩大滤波器的视野,以包含更大的上下文而不增加参数数量或计算量。其次,作者提出了空洞空间金字塔池化(ASPP)来稳健地在多尺度上分割对象。ASPP用多个采样率和有效视野的滤波器探测进入的卷积特征层,从而在多个尺度上捕获对象和图像上下文。第三,作者通过结合DCNN和概率图模型的方法来改进对象边界的定位。DCNN中普遍采用的最大池化和下采样实现了不变性,但代价是 LOCALIZATION accuracy。作者通过将最终DCNN层的响应与全连接条件随机场(CRF)相结合来克服这个问题,这在定性和定量上都被证明可以改进LOCALIZATION性能。
3、Non-local
论文:Non-local Neural Networks
标题:非局部神经网络
方法介绍:作者将非局部运算作为捕捉长程依赖关系的通用基本模块族提出。受计算机视觉中经典的非局部均值方法的启发,非局部运算将一个位置的响应计算为所有位置的特征的加权和。这个基本模块可以插入到许多计算机视觉架构中。在视频分类任务上,即使没有任何装饰,非局部模型也可以与目前的竞赛获胜者在Kinetics和Charades数据集上匹敌或优于其。在静态图像识别中,非局部模型改进了在COCO任务集上的目标检测/分割和姿势估计。
4、SE
论文:Squeeze-and-Excitation Networks
标题:挤压-激励网络
方法介绍:卷积神经网络(CNN)的核心构建块是卷积运算符,它通过在每个层内的局部感受野内融合空间和通道方向的信息,使网络能够构建信息量大的特征。大量的前期研究已经调查了这种关系的空间组成部分,通过增强特征层次结构中的空间编码的质量, seek to strengthen 了CNN的表征能力。在这项工作中,作者转而关注通道关系,并提出了一个新颖的架构单元,称之为“squeeze-and-excitation”(SE)块,它通过明确建模通道之间的相互依赖关系,自适应地重新校准通道方向的特征响应。作者展示了这些块可以堆叠在一起形成SENet架构,可以非常有效地推广到不同的数据集上。我们进一步展示SE块为现有的最先进的CNN带来明显的性能改进,只带来很小的额外计算成本。
5、CBAM
论文:CBAM: Convolutional Block Attention Module
标题:CBAM:卷积块注意力模块
方法介绍:作者提出了卷积块注意力模块(CBAM),这是一个简单而有效的前馈卷积神经网络的注意力模块。给定一个中间特征图,该模块会顺序地沿着两个独立的维度,通道和空间,推断注意力图,然后将注意力图与输入特征图相乘以实现自适应的特征提炼。因为CBAM是一个轻量级和通用的模块,它可以无缝地集成到任何CNN架构中,带来可忽略的开销,并且可以与基础CNN端到端训练。作者通过在ImageNet-1K、MS-COCO目标检测和VOC-2007目标检测数据集上进行大量实验来验证CBAM。实验显示,在各种模型上的分类和检测性能都有持续的改进,证明了CBAM的广泛适用性。
6、DCN v1&v2(Deformable Convolutional)
论文V1:Deformable Convolutional Networks
标题:可变形卷积网络
方法介绍:卷积神经网络(CNN)固有地受其构建模块中的固定几何结构所限,难以对几何变换进行建模。在本工作中,作者引入了两个新的模块来增强CNN的变换建模能力,即可变形卷积和可变形RoI汇聚。两者的思想都是在模块中对空间采样位置增加额外的偏移,并从目标任务中学习这些偏移,无需额外的监督。这些新模块可以很容易地在现有的CNN中替换其普通对等模块,并可以通过标准反向传播进行端到端训练,构成可变形卷积网络。大量实验验证了该方法的有效性,在深度CNN中学习稠密空间变换对复杂的视觉任务如目标检测和语义分割是有效的。
论文V2:Deformable ConvNets v2: More Deformable, Better Results
标题:可变形卷积网络v2: 更可变形,效果更佳
方法介绍:可变形卷积网络的卓越性能来源于其适应对象几何变化的能力,虽然其神经特征的空间支持比常规卷积网络更贴近对象结构,但此支持可能仍然扩展到兴趣区域之外,导致特征被不相关的图像内容影响。为解决此问题,作者提出了可变形卷积网络的重构方案,通过增加建模能力和更强的训练来提高其关注相关图像区域的能力。通过在网络中更全面地集成可变形卷积和引入调制机制扩大变形建模范围,增强了建模能力。为了有效利用这种丰富的建模能力,作者通过提出的特征模仿方案指导网络训练,帮助网络学习反映对象关注点和RCNN特征分类能力的特征。
7、CoordConv
论文:An intriguing failing of convolutional neural networks and the CoordConv solution
标题:卷积神经网络的一个令人 fascination 的失败及CoordConv解决方案
方法介绍:对于任何涉及像素或空间表示的问题,普遍的直觉都认为卷积神经网络可能是合适的。在这篇论文中,作者通过一个看似微不足道的坐标变换问题提供了对这一直觉的令人震惊的反例,这个问题仅仅要求学习在(x,y)笛卡尔空间坐标和onehot像素空间坐标之间的映射。虽然卷积网络看起来适合这个任务,但我们表明它们会惨败。首先作者在一个玩具问题上展示并仔细分析了这个失败,这时一个简单的修复方案变得显而易见。作者称这个解决方案为CoordConv,其工作原理是通过使用额外的坐标通道为卷积提供其自己的输入坐标。在保持普通卷积的计算和参数效率的同时,CoordConv允许网络学习完全的平移不变性或端任务所需的不同程度的平移依赖性。
CoordConv以完美的泛化能力和比卷积快150倍、参数少10-100倍来解决坐标变换问题。这种明显的对比引出了一个问题:这种卷积的无能在多大程度上已经隐秘地潜伏在其他任务内部,微妙地从内部削弱了性能?对这个问题的完整答案还需要进一步的研究,但作者展示了使用CoordConv代替卷积可以改进模型在各种任务上的初步证据。在GAN中使用CoordConv产生的模式坍塌更少,因为在高级空间潜在变量和像素之间的变换更容易学习。
8、Ghost(Ghost module)
论文:GhostNet: More Features from Cheap Operations
标题:GhostNet: 通过廉价操作获得更多特征
方法介绍:在嵌入式设备上部署卷积神经网络(CNN)是困难的,因为内存和计算资源有限。特征图中的冗余是那些成功的CNN的一个重要特点,但在神经网络架构设计中很少被研究。本文提出了一种新的Ghost模块来通过廉价的操作生成更多特征图。基于一组内在特征图,作者应用一系列廉价的线性变换来生成许多ghost特征图,这些特征图可以充分揭示内在特征隐含的信息。所提出的Ghost模块可以作为即插即用的组件来升级现有的卷积神经网络。
9、BlurPool
论文:Making Convolutional Networks Shift-Invariant Again
标题:使卷积网络再次具有平移不变性
方法介绍:现代卷积网络不具有移位不变性,因为小的输入位移或转换可能导致输出的剧烈变化。常用的下采样方法,如最大池化、步进卷积和平均池化,忽略了采样定理。众所周知的信号处理方法是在下采样之前通过低通滤波进行抗混叠。然而,将这个模块简单地插入深度网络会降低性能。因此,它今天很少被使用。作者展示了当以正确的方式集成时,它与现有的架构组件(如最大池化和步进卷积)兼容。作者在ImageNet分类中观察到提高的准确率,跨几种常用的架构,如ResNet、DenseNet和MobileNet,这表明有效的正则化。此外,作者观察到更好的泛化能力,在稳定性和鲁棒性方面对输入损坏具有鲁棒性。
10、RFB(Receptive Field Block)
论文:Receptive Field Block Net for Accurate and Fast Object Detection
标题:对象检测的精确快速感受野块网
方法介绍:当前表现顶尖的目标检测器依赖于深度CNN backbone,如ResNet-101和Inception,它们从强大的特征表达中获益,但也承受高计算量的代价。相反,一些基于轻量模型的检测器可以实现实时处理,但其准确率通常受到批评。本文探索一种替代方法,通过使用手工设计的机制增强轻量级特征来构建快速且准确的检测器。受人类视觉系统中感受野(RF)结构的启发,作者提出了一种新的RF块(RFB)模块,它考虑RF大小与离心率之间的关系,以增强特征的可区分性和稳定性。作者进一步将RFB组装到SSD的顶部,构建RFB Net检测器。
11、ASFF(Adaptively Spatial Feature Fusion)
论文:Adaptively Spatial Feature Fusion Learning Spatial Fusion for Single-Shot Object Detection
标题:适应性空间特征融合学习用于单次目标检测的空间融合
方法介绍:针对单次检测中的尺度变化问题,金字塔特征表示是常见的解决方案。但是,基于特征金字塔的单次检测器存在不同尺度特征不一致的问题。本文提出了一种新颖的数据驱动的金字塔特征融合策略,称为自适应空间特征融合(ASFF)。它可以学习空间过滤冲突信息的方式来抑制不一致性,从而提高特征的尺度不变性,并几乎不增加推理开销。结合ASFF策略和YOLOv3坚实的基线,作者在MS COCO数据集上达到了最佳的速度和准确率权衡,在60 FPS下达到38.1% AP,45 FPS下达到42.4% AP,29 FPS下达到43.9% AP。
关注下方《学姐带你玩AI》🚀🚀🚀
回复“CNN11”获取全部论文+代码合集
码字不易,欢迎大家点赞评论收藏!