为了提升无人机视角下目标检测效果,基于YOLOv5算法,在YOLOv5主干中实现了Omnidimensional Convolution(ODConv),以在不增加网络宽度和深度的情况下提高精度,还在YOLOv5骨干网中用ConvNeXt块替换了原始的C3块,以加快检测速度。
1 Omni-dimensional dynamic convolution
YOLOv5使用传统的二维卷积来生成特征。图1(a)显示了二维卷积如何在具有四个滤波器的卷积层中工作。卷积层的输出通道数等于滤波器数,每个滤波器的维数取决于输入特征的维数。传统的二维卷积可以描述为:𝑂𝑢𝑡𝑝𝑢𝑡 (𝑥) = 𝑊 ∗ 𝑥,其中𝑥 表示输入特征𝑊 表示卷积层;*表示卷积运算。很明显,每个滤波器的卷积核不会随着不同的输入而改变。因此,为了获得更多的特征,通常需要增加滤波器的数量,这效率较低。为了解决这个问题,在我们的网络中利用了动态卷积,它可以提高轻量级CNN的准确性,同时保持高效的推理。
Omni-dimensional Dynamic Convolution(ODConv