大家读完觉得有帮助记得关注和点赞!!!
摘要
随着无人机(UAV)和计算机视觉技术的快速发展,从无人机视角进行目标检测已成为一个重要的研究领域。然而,无人机图像中目标像素占比极小、物体尺度变化显著以及背景信息复杂等问题给检测带来了挑战,极大地限制了无人机的实际应用。为了解决这些挑战,我们提出了一种新的目标检测网络,即多尺度上下文聚合和尺度自适应融合YOLO(MASF-YOLO),该网络是基于YOLOv11开发的。首先,为了解决无人机图像中小目标检测的难题,我们设计了一个多尺度特征聚合模块(MFAM),该模块通过并行多尺度卷积和特征融合,显著提高了小目标的检测精度。其次,为了减轻背景噪声的干扰,我们提出了一种改进的有效多尺度注意力模块(IEMA),该模块通过特征分组、并行子网络和跨空间学习,增强了对目标区域的关注。第三,我们引入了一个维度感知选择性集成模块(DASI),该模块通过自适应地加权和融合低维特征和高维特征,进一步增强了多尺度特征融合能力。最后,我们在VisDrone2019数据集上对我们提出的方法进行了广泛的性能评估。与YOLOv11-s相比,MASF-YOLO-s在VisDrone2019验证集上实现了mAP@0.5提升4.6%,mAP@0.5:0.95提升3.5%。值得注意的是,MASF-YOLO-s的性能优于YOLOv11-m,同时仅需要大约60%的参数和65%的计算成本。此外,与最先进的检测器进行的对比实验证实,MASF-YOLO-s在检测精度和模型效率方面都保持着明显的竞争优势。
一、 引言
近年来,无人机(UAV)和深度学习技术的快速发展给农业、应急救援和交通监控等多个领域带来了革命性的变化[1],[2],[3]。无人机凭借其灵活性、成本效益以及进入难以到达区域的能力,已成为数据收集和实时决策的重要工具。同时,深度学习算法在处理复杂的遥感图像数据方面表现出优于传统方法的性能,使无人机能够以更高的效率执行目标检测和分割等任务。无人机和深度学习的结合为各个领域的信息收集提供了创新的解决方案。
通过空中视觉进行目标检测是无人机任务中的一个关键环节。目前,基于深度学习的图像目标检测方法主要可分为两阶段目标检测算法和单阶段目标检测算法。两阶段目标检测算法通过“区域提议”和“分类回归”两个阶段实现目标检测。代表性算法包括Fast R-CNN [4]、Faster RCNN [5]和Mask R-CNN [6]。它们的优势在于高精度和多任务能力:通过精细的区域提议和分类回归。它们的缺点包括计算复杂度高和实时性差,使其不太适合对速度要求高的应用。相比之下,单阶段检测算法在单个前向传递中完成目标分类和定位,从而显著提高了检测速度。代表性的单阶段检测算法包括YOLO系列[7]、[8]、[9]和SSD [10]。YOLO通过将图像划分为网格来实现端到端检测,其中每个网格负责预测目标的位置和类别。相比之下,SSD采用多尺度特征图进行检测,集成了一种锚机制,以有效满足不同尺度目标的检测需求。受益于其快速的检测速度,能够实现实时推理,单阶段检测器已被广泛采用作为无人机应用、自动驾驶和其他时间关键型系统的首选解决方案。然而,仍需要进一步改进以提高其在复杂场景中的性能。
尽管无人机遥感目标检测在许多任务中取得了成就,但它仍然面临着许多技术挑战。首先,由于无人机拍摄距离较远,大多数目标在图像中所占像素比例极小,导致特征提取困难,容易导致漏检或误检。其次,图像中复杂多样的噪声增加了检测的难度。此外,由于无人机拍摄角度的变化,图像中物体尺度和形状的显著变化进一步复杂化了检测。此外,在无人机任务中,还需要轻量化和高速的检测模型。因此,解决这些挑战是提高无人机目标检测效率和鲁棒性的关键途径。这些研究对于无人机相关应用领域具有重要的理论和实践价值。
为了应对这些挑战,本文提出了一种高精度算法,该算法维护了一个轻量级框架,专门为无人机图像中的小目标检测而设计,命名为MASF-YOLO。通过严格的实证分析和实验验证,我们系统地论证了我们的方法中针对此特定任务而包含的多种创新设计概念的有效性。
更详细地说,我们工作的创新性和贡献可以列举如下:
针对小目标因重复下采样而丢失细节信息的问题,我们构建了一个高分辨率的小目标检测层。该架构融合了P2级别的细粒度特征图,以充分利用其保留的丰富空间细节,从而显著增强了模型对小尺度目标的特征表示能力。此外,颈部网络中添加了跳跃连接,以保留更多的浅层语义信息,从而有效地减轻了深层网络中的语义信息损失。
在小目标检测任务中,目标通常包含有限的像素信息,因此需要更丰富的上下文信息来辅助检测。为了应对这一挑战,我们提出了一种新的多尺度特征聚合模块(MFAM),该模块能够有效地捕获目标的丰富上下文信息。这种架构实现了更有效的特征提取,从而显著提高了小目标的检测精度。
[/NT0][/NT0] 背景噪声一直是影响无人机应用中目标检测性能的关键因素。为了有效抑制这种干扰,我们提出了一种改进的高效多尺度注意力模块(IEMA),其中通过特征分组、并行子网络和跨空间学习来实现特征交互和增强。它有效地改善了目标区域的特征表示,同时显著抑制了背景噪声的干扰,从而提高了复杂场景中的目标检测性能。
【NT0】【/NT0】 为了克服无人机(UAV)中小目标检测中的多尺度特征融合挑战,我们引入了维度感知选择性整合模块(Dimension-Aware Selective Integration Module,DASI),以自适应地融合低维特征和高维特征。它显著提高了颈部网络的多尺度表示能力,从而增强了检测性能。
二、相关工作
A. 无人机遥感目标检测
与传统图像不同,遥感图像通常从自上而下的角度捕获,导致目标呈现出任意方向和显著的尺度变化。这些特性使得为传统图像设计的传统目标检测方法在处理遥感图像时效果较差。为了解决这些局限性,研究人员从各个角度改进了这些方法,以更好地适应遥感图像的独特属性。为了解决尺度变化问题,LSKNet [11] 引入了一种大型选择性内核机制,以动态调整空间感受野,从而更好地建模目标上下文信息。对于小目标检测,Chen et al. [13] 提出了一种高分辨率特征金字塔网络 (HR-FPN),以提高小尺度目标的检测精度,同时避免特征冗余。为了减轻背景干扰,FFCAYOLO [14] 构建了一个空间上下文感知模块 (SCAM),以建模目标的全局上下文,从而抑制不相关的背景信息并突出目标特征。
B. 上下文特征表示
在计算机视觉任务中,图像中的对象与其周围环境密切相关。适当的上下文特征表示可以有效地建模局部和全局信息,从而增强模型的检测能力。为了捕获长距离依赖关系,同时避免过度的计算开销,Guo等人[15]分解了大核卷积,并提出了一种线性注意力机制,从而在网络性能和计算成本之间实现了平衡。Ouyang等人[16]设计了一种高效的多尺度注意力(EMA)模块,该模块有效地建立了短期和长期依赖关系,从而增强了模型捕获多尺度上下文信息的能力。此外,考虑到单尺度特征在建模上下文信息方面的局限性,Xu等人[17]提出了一种多膨胀通道细化器(MDCR)模块,该模块通过设计多膨胀率卷积层来捕获不同感受野大小的空间特征,从而提高了模型的多粒度语义表示能力。
C. 多尺度特征融合
作为目标检测领域的重要里程碑之一,特征金字塔网络(FPN)[18]开创了通过自顶向下路径进行多尺度特征融合的先河。在FPN的基础上,PAFPN [19]引入了一个额外的自底向上路径,从而能够更好地传递来自较低层的详细信息。此外,BiFPN [20] 结合了可学习的权重来执行不同输入特征的加权融合,使网络能够学习每个特征的重要性并实现高效的特征集成。另外,渐近特征金字塔网络(AFPN)[21] 采用渐进式方法来逐步融合来自不同层级的特征,避免了非相邻层级之间的语义差距。
三、提出的方法
本节将详细阐述所提出的MASF-YOLO。MASF-YOLO网络的总体架构如图1所示。具体来说,我们在基线网络中增加了一个小目标检测层(P2层),使网络能够专注于检测小目标。其次,考虑到目标尺度变化的影响,我们通过优化PKINet [12],设计了一个多尺度特征聚合模块(MFAM)。这种特征聚合方法有助于骨干网络捕获丰富的上下文信息,从而提高网络在检测小目标方面的性能。这些融合为从早期层传输高分辨率空间信息建立了直接通路,有效地补偿了深度网络操作引起的语义信息损失。此外,为了减轻背景噪声的干扰,我们提出了一个改进的高效多尺度注意力(IEMA)模块,其灵感来自EMA [16]。这种注意力机制通过特征分组、并行子网络和跨空间学习来实现特征交互和增强,有效地解决了背景噪声带来的挑战。最后,我们引入了维度感知选择性集成(DASI)[17]模块,以增强颈部网络的多尺度特征融合能力。这种融合机制自适应地聚合低维和高维特征,在提高网络的检测精度方面起着至关重要的作用。
A. 多尺度特征聚合模块 (MFAM)
与通用目标检测不同,目标显著的尺度变化给遥感目标检测带来了巨大的挑战。具体而言,骨干网络阶段提取的有效语义信息有限,使得区分小目标与背景变得困难。为了应对这一挑战,我们提出了MFAM来捕获目标丰富的上下文信息,增强骨干网络提取小目标特征的能力。MFAM的整体结构如图2所示,它建立在PKINet [12]的基础上,并采用了优化的设计原则。不同之处在于,MFAM模块利用两个条形卷积1 × k和k × 1,以达到类似于大核卷积k × k (k = 7,9) 的效果,同时移除大核卷积11 × 11,从而显著降低计算成本。MFAM的数学表达式可以写成如下形式:
其中,DWConvk×k表示核大小为k × k的深度可分离卷积运算。
Conv1×1表示核大小为1 × 1的标准卷积运算。符号⊕表示特征图的逐元素相加运算。
X是输入特征图。Y1,Y2,Y3和Y4表示应用四种不同核大小的深度可分离卷积运算后获得的输出特征图。
Z是由多尺度特征Y1,Y2,Y3,Y4和输入特征X逐元素相加得到的特征图。W是MFAM的输出特征。
图 2. MFAM 的结构
与PKI模块[12]相比,MKAM通过多尺度卷积学习更丰富的上下文特征,显著增强了小目标的检测能力,同时保持了更轻量级的结构。
B. 改进的高效多尺度注意力机制(IEMA)
在骨干网络中经过MFAM后,特征图已经包含足够的局部上下文信息。然而,背景噪声的影响仍然对网络的检测性能构成重大挑战。为了应对这一挑战,有必要有效地建模目标与背景之间的全局关系。受EMA [16]和InceptionNeXt [22]的启发,我们构建了IEMA模块,如图3所示。与EMA相比,IEMA主要通过引入多尺度深度可分离卷积来优化并行子网络中的局部特征提取组件,包括3 × 3、1 × 5和5 × 1的卷积核,以及一个额外的恒等路径。这种优化增强了方向特征提取,使模型能够更有效地捕获多尺度表示,从而改进全局目标-背景关系的建模,并加强对复杂背景干扰的抑制。同时,IEMA通过并行子网络和跨空间学习机制保留了EMA的全局建模能力,从而促进了特征交互和增强。
图3. IEMA的结构
C. 维度感知选择性整合模块(DASI)
图4. DASI的结构
在无人机遥感小目标检测中,特征图在骨干网络中经过多次下采样阶段,导致高层特征丢失小目标细节,而低层特征缺乏上下文信息。多尺度特征聚合有效地融合了不同层级的语义信息,显著提高了小目标的检测精度。为了解决这个问题,我们引入了维度感知选择性融合模块(DASI)[17]。该模块自适应地融合低维特征和高维特征。如图4所示,DASI首先通过卷积和插值等操作,将低维和高维特征与当前层的特征对齐。然后,它将三个特征沿通道维度分成四个相等的部分,确保每个部分对应一个分区。在每个分区内,使用sigmoid激活函数获得当前层特征的激活值,然后使用这些激活值来加权和融合低维和高维特征。通过利用当前层特征自适应地融合低维和高维特征,DASI的多尺度特征融合机制不仅提高了网络检测小目标的能力,还增强了其对复杂遥感场景的适应性。
四、实验
本节首先介绍数据集、实验设置、训练策略,以及用于评估模型目标检测性能的指标。然后以YOLOv11-s为基线,并通过消融实验验证每项创新对基线的影响。此外,我们将我们的模型与其他最先进(SOTA)的方法进行比较,以证明其具有竞争力的性能。为了便于直观评估,我们展示了我们的方法和基线方法之间检测结果的比较可视化,这些定性演示与定量指标显示出很强的一致性,共同验证了我们改进策略的有效性。
A. 数据集
VisDrone2019数据集由天津大学机器学习与数据挖掘实验室的AISKYEYE团队开发,是一个大规模的航拍图像数据集,包含288个视频片段、261,908帧以及10,209张静态图像,这些图像由各种无人机在不同的场景中拍摄。该数据集覆盖了中国14个城市,包含城市和乡村环境,并对行人、汽车和自行车等多个目标类别进行了标注。它包括从稀疏到拥挤场景的图像,以及不同的光照和天气条件。由于其包含大量小目标、目标重叠和复杂背景等特点,使得检测任务极具挑战性。该数据集为无人机视角下的目标检测和跟踪研究提供了高质量的实验资源,具有重要的学术和实践价值。
B. 训练集
本文提出的模型在PyTorch中实现,CUDA版本为11.3,实验环境包括操作系统Ubuntu 20.04和NVIDIA GeForce RTX 4090D 24G显卡。随机梯度下降(SGD)优化器用于模型训练。初始学习率设置为0.01,动量设置为0.937,并使用余弦退火策略动态调整学习率。训练阶段的批次大小设置为12,epoch数量设置为100。此外,在训练阶段,所有图像都被调整为640x640像素。
C. 评估指标
为了全面评估我们提出的模型的性能,我们采用了对象检测任务中常用的几个关键指标:精确率 (P)、召回率 (R)、mAP@0.5、mAP@0.5:0.95、参数量 (Params) 和 GFLOPs。本节概述了用于计算这些指标的公式。
精确率是指正确预测为正例的实例数(TP)与所有预测为正例的实例数(TP与FP之和)的比率。TP代表正确识别的真正例的数量,而FP代表错误识别为正例的假正例的数量。精确率的公式如下:
表二. YOLOv11的所有版本和MASF-YOLO在VISDRONE2019数据集上的性能比较
召回率是正确预测为正例的实例(TP)与所有实际正例实例(TP和FN之和)的比率。FN表示被错误识别为负例的假阴性数量。召回率的公式如下:
mAP(平均精度均值)是所有类别AP(平均精度)的平均值。在交并比(IoU)设置为常数值的情况下,类别
的平均精度是精确率-召回率(P-R)曲线下的面积。AP和mAP的公式如下:
此处,mAP@0.5是通过计算IoU阈值为0.5时的mAP获得的,而mAP@0.5:0.95是通过平均IoU阈值从0.5到0.95(步长为0.05)范围内的mAP值计算得到的。
D. 消融研究
为了验证本文所提出的模型的有效性,我们选择 YOLOv11-s 作为基线网络,并通过消融实验评估了 P2 层、MFAM、融合、IEMA 和 DASI 模块对基线网络的影响。如表 I 所示,当每个模块添加到基线网络时,大多数性能指标都呈现出增长的趋势。因此,这些消融实验验证了本文所提出的方法的有效性。
如表二所示,通过调整网络的深度和宽度,我们在VisDrone2019验证集和测试集上评估了MASFYOLO和YOLOv11的不同模型尺寸。显然,我们提出的改进策略在所有版本中都实现了最佳性能。令人惊讶的是,在将我们的贡献应用于YOLOv11-s之后,其性能甚至超过了YOLOv11-m,这表明在无人机场景中具有卓越的精度-效率权衡。
E. 与现有技术比较
如表三所示,与最先进的目标检测器相比,所提出的模型保持了卓越的准确性,并表现出强大的竞争力。此外,在图 5 中,我们展示了两个具有高度代表性的检测结果,其中基线模型遗漏的小目标(但 MASF-YOLO-s 成功检测到的小目标)用红色边界框突出显示。 可以观察到,MASF-YOLO-s 实现了明显更准确的检测。
表三. 不同目标检测器在THEVISDRONE2019验证数据集上的比较结果
图 5. YOLOv11-s(奇数行)和 MASF-YOLO-s(偶数行)在 VisDrone2019 上的比较。
五、结论
在这项工作中,我们通过多项增强措施提高了无人机遥感中小目标检测的准确性。首先,我们引入了一个小目标检测层,显著提高了网络检测小目标的能力。其次,我们将MFAM模块嵌入到骨干网络中,以提取目标丰富的上下文信息。此外,跳跃连接被整合到颈部网络中,以保留浅层语义并减少深层网络的信息损失。再者,采用IEMA模块来增强特征表示,同时减少背景噪声干扰。最后,采用DASI模块自适应地融合低级和高级特征,提高颈部网络的特征融合能力。实验结果验证了这种改进策略的有效性和潜力,为进一步研究小目标检测提供了有价值的见解。