paper:YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection
official implementation:https://github.com/fishandwasabi/yolo-ms
背景
尽管已经取得了很好的性能,但识别不同尺度的物体仍是实时目标检测模型面临的一个基本挑战。这促使我们设计一个鲁棒的编码器架构来学习更具表达能力的多尺度特征表示。
本文的创新点
本文没有引入新的训练或优化技术,而是通过学习更丰富的多尺度特征表示来改进实时目标检测模型。这使得我们的方法与之前的工作有很大的不同。具体来说,我们从两个新的角度来思考编码多尺度特征的实时目标检测
- 从局部的角度来看,我们设计了一个具有简单而有效的层次特征融合策略的MS-Block。受Res2Net的启发,我们在MS-Block中引入了多个分支来进行特征提取,但不同的是,我们使用了一个带有深度卷积的inverted bottleneck block,从而可以有效地使用大卷积核。
- 从全局的角度来看,我们提出随着网络的深入,逐渐增加卷积核大小。我们在浅层中使用小卷积核来更高效地处理高分辨率的特征。另一方面,我们在深层采用大卷积核来捕获更大范围的信息。
方法介绍
Multi-Scale Building Block Design
受Res2Net(具体介绍见https://blog.csdn.net/ooooocj/article/details/122430069)的启发,本文提出了一种新的具有层次特征融合策略的block,称为MS-Block,以提高实时目标检测模型在保持推理速度的同时提取多尺度特征的能力。
具体结构如图2(c)所示。假设 \(X\in R^{H\times W\times C}\) 为输入特征,经过1x1卷积后 \(X\) 的通道数增加到了 \(n\times C\)。然后我们将 \(X\) 沿通道分成 \(n\) 组,记为 \(\{X_{i}\},i\in 1,2,3...,n\)。为了降低计算成本 \(n\) 取3。除了 \(X_{1}\) 外,其它每组都经过一个inverted bottleneck layer,表示为 \(IB_{k\times k}(\cdot)\),其中 \(k\) 是kernel size,最终得到 \(Y_{i}\)。数学表示如下
根据这个公式,我们不将反向瓶颈层连接到 \(X_{1}\),而是让它作为一个cross-stage connection,并保留来自前一层的信息。最后,我们将所有的输出拼接起来,并用一个1×1卷积来进行所有splits之间的交互,其中每个都编码了不同尺度的特征。这个1x1卷积也在网络更深时用来调整通道数。
Heterogeneous Kernel Selection Protocol
除了building block的设计之外,作者还从宏观的角度深入研究了卷积的使用。以往的实时目标检测模型在不同的stage采用kernel大小相同的卷积,但作者认为这不是提取多尺度语义信息的最佳选择。
在金字塔结构中,从浅层阶段中提取的高分辨率特征通常用于捕获细粒度的语义,并用于检测小目标。相反,来自网络较深阶段的低分辨率特征被用来捕获高级语义,并用于检测大目标。如果我们在所有的stage统一都采用小核卷积,深层的有效感受野(Effective Receptive Field, ERF)是有限的,影响了大目标的检测性能。在每个stage加入大核卷积可以解决这个问题。但是,具有大ERF的大核可以编码更广泛的区域,这增加了在小目标区域之外包含污染信息的概率,并降低了推理速度。
因此,本文提出在不同的阶段利用不同大小的卷积来帮助捕获更丰富的多尺度特征。具体来说,我们在第一个stage采用最小的卷积核,在最后一个stage采用最大的卷积核,在中间的stage中逐步增加卷积核的大小。这个策略可以同时提取fine-grained和coarse-grained语义信息,增强了编码器的多尺度特征表示能力。
如图3所示,encoder中从浅层到深层的 \(k\) 值分别为3、5、7、9。作者称之为Heterogeneous Kernel Selection(HKS)Protocal。HKS方案能够增加深层的感受野,而不会对浅层有任何影响。此外,HKS不仅有助于编码更丰富的多尺度特征,还保证了高效的推理。
如表1所示,将大核卷积应用于高分辨率特征的计算成本很高。但HKS方案在低分辨率特征上采用了大核卷积,因此与在所有阶段使用大核卷积相比,大大降低了计算成本。实践中我们发现,使用HKS方案的YOLO-MS实现了与仅使用3×3深度卷积的网络几乎相同的推理速度。