概述
提出了一种改进的YOLOv5模型,名为Small-Fast-YOLOv5 (SF-YOLOv5),专门用于小目标检测。通过合理裁剪大目标检测层的特征图输出,显著减少了模型所需的计算资源,使模型变得更加轻量级。
还提出了一种改进的特征融合方法(PB-FPN),该方法基于PANet和BiFPN(EfficientDet),有效地提高了算法对小目标的检测能力。
引入了空间金字塔池化(SPP)的快速版本,即SPPF,用于将特征融合网络与模型预测头部连接起来,以提升性能。
论文地址:SF-YOLOv5: A Lightweight Small Object Detection Algorithm Based on Improved Feature Fusion Mode
1.Yolov5
1.1 简介
- 图像首先通过输入层(input)进行处理,然后被发送到主干网络进行特征提取。
- 主干网络获取不同尺寸的特征图,并通过特征融合网络(neck)将这些特征进行融合,最终生成三个特征图P3、P4和P5(在YOLOv5中,这些尺寸分别表示为80×80、40×40和20×20),用于分别检测图像中的小型、中型和大型物体。
- 这三个特征图随后被发送到预测头(head),利用预设的先验锚点(prior anchor),对特征图中的每个像素执行置信度计算和边界框回归,从而获得一个包含目标类别、类别置信度、框坐标、宽度和高度信息的多维数组(BBoxes)。
- 通过设置相应的阈值(confthreshold, objthreshold)来过滤数组中的无效信息,并执行非最大值抑制(NMS)过程,最终可以输出检测结果。
1.2 Backbone
- 主干网络是CSPDarknet53。
- 主要结构是多个CBS(卷积 + 批量归一化 + SiLU激活函数)模块和C3模块的堆叠,最后连接一个SPPF模块。
- CBS模块用于辅助C3模块进行特征提取,而SPPF模块增强了主干网络的特征表达能力。
SPPF通过对之前已经进行过最大池化的特征进行最大池化操作,避免了像SPPNet中SPP那样的重复操作。
这样可以显著提高模块的运行速度。
1.3 Neck
YOLOv5 使用了特征金字塔网络(FPN)和路径聚合网络(PAN)的方法。
FPN 的基本思想是将特征提取网络通过多次卷积下采样操作生成的输出特征图(C3、C4 和 C5)进行上采样,以生成多个新的不同尺度的特征图(P3、P4 和 P5),用于检测不同尺寸的目标。
1.4 Head
特征图左上角的坐标值被设置为(0, 0)。
( rx ) 和 ( ry ) 是未经调整的预测中心点坐标。
( gx )、( gy )、( gw )、( gh ) 表示调整后的预测框的信息。
( pw ) 和 ( ph ) 是先验锚点的信息。
( sx ) 和 ( sy ) 是模型计算出的偏移量。
这个过程涉及将预设的先验锚点的中心坐标和大小调整为目标预测框的中心坐标和大小。
1.5 Model Variants
YOLOv5是一个流行的目标检测模型,它有多个版本,每个版本针对不同的应用场景和性能需求进行了优化。以下是YOLOv5的五个主要版本,以及它们对应的更大尺寸版本:
-
YOLOv5s:这是YOLOv5系列中的小型模型,具有较小的尺寸和较少的参数,适用于需要快速推理和较低资源消耗的场景。
-
YOLOv5m:中型模型,比YOLOv5s稍大,提供更好的性能,适用于需要平衡速度和准确性的应用。
-
YOLOv5l:大型模型,比YOLOv5m更大,拥有更多的参数和更高的准确度,但相应的,它需要更多的计算资源。
-
YOLOv5x:超大型模型,是YOLOv5系列中最大的标准版本,提供最高的准确度,适用于对准确度要求极高的场景。
-
YOLOv5n:通常代表YOLOv5的“nano”版本,比YOLOv5s更小,适用于极端资源受限的环境。
对于每个标准版本,都有一个相应的更大尺寸版本,这些版本通过增加网络的深度和宽度来提高性能,但同样会增加模型的计算需求:
- YOLOv5x6:YOLOv5x的更大版本。
- YOLOv5l6:YOLOv5l的更大版本。
- YOLOv5m6:YOLOv5m的更大版本。
- YOLOv5s6:YOLOv5s的更大版本。
- YOLOv5n6:YOLOv5n的更大版本。
这些更大的版本通常用于需要极高准确度的场景,尽管它们在速度上可能不如标准版本快。选择哪个版本的YOLOv5取决于具体的应用需求,包括目标检测任务的复杂性、可用的计算资源以及对速度和准确性的具体要求。
1.6 大模型检测结果
1.7 小模型检测结果
在目标检测领域,YOLOv5和EfficientDet都是性能出色的模型,但它们在设计理念、结构和优化方面有所不同。YOLOv5的小型模型在保持较小的模型尺寸和快速的推理速度的同时,通常也能提供与EfficientDet相竞争甚至更好的性能。
2.SF-YOLOv5
2.1. 特征图
- 主干网络是CSPDarknet53。
- 主要结构是多个CBS(卷积 + 批量归一化 + SiLU激活函数)模块和C3模块的堆叠,最后连接一个SPPF模块。
- CBS模块用于辅助C3模块进行特征提取,而SPPF模块增强了主干网络的特征表达能力。
C7和C8层对应于输出C5特征图。然而,在主干网络中,C7和C8层的参数占据了大量的参数。
为了使模型更轻量化,传统YOLOv5中的默认C5特征图被删除了,如图4所示。
2.2 PB-FPN
为了进一步提升算法对小目标的检测能力,额外引入了一条新的特征融合路径,将高层的特征进一步整合到底层。新设置的水平分支参与到底层的融合过程中,这进一步提升了算法对小目标的检测效果。
2.3 SPPF
YOLOv5 使用了 SPPF(空间金字塔池化快速版,SPP-Fast)模块。
通过简化池化过程,SPPF 避免了像 SPPNet 中的 SPP 那样的重复操作,并显著提高了模块的运行速度。
在本文中,SF-YOLOv5 在特征融合网络与模型预测头之间的连接处引入了几个 SPPF 模块,目的是为了进一步挖掘最终由 neck 输出并送往 head 的特征图的特征表达潜力,并进一步提升模型的性能。
4.实验结果
4.1 WIDER FACE Dataset
这个数据集包含了393,703张人脸的标注信息。数据集在尺度、姿态、角度、光照和遮挡方面具有很高的变化性。数据集复杂,并且包含了大量的密集小目标。
总共使用了4441张图像来训练算法,并使用了1123张图像来验证算法。
与传统算法YOLOv5s相比,SF-YOLOv5在mAP@0.5和mAP@0.5:0.95上分别提高了1.6和0.8,这证明了SF-YOLOv5在综合检测性能上的提升。
同时,SF-YOLOv5的参数(M)值和浮点运算次数(FLOPs,G)值分别减少了68.2%和12.7%,表明SF-YOLOv5可以进一步减少模型运算所需的参数数量和计算能力。
总体而言,SF-YOLOv5在性能上优于YOLOv3和ResNeXt-CSP,并且其性能接近最新的YOLOv7。
这段描述概述了SF-YOLOv5在目标检测任务上相对于其他几个算法的性能提升。mAP(mean Average Precision)是一个衡量目标检测算法性能的指标,它计算在不同阈值下的平均精度均值。mAP@0.5指的是在IoU(交并比)为0.5时的平均精度,而mAP@0.5:0.95则是在IoU从0.5到0.95的范围内计算的平均精度,这反映了算法在不同IoU阈值下的性能。
参数数量和FLOPs的减少意味着SF-YOLOv5在保持或提升性能的同时,能够以更少的计算资源实现更快的推理速度,这对于需要在资源受限的设备上部署模型的应用场景非常有用。
3.2 Other Datasets
总而言之,SF-YOLOv5在TinyPerson、VisDrone和VOC2012数据集上仍然实现了检测精度和综合性能的提升。