AFPN 渐进式特征金字塔网络:解决多尺度特征融合中,信息在传递过程丢失
- 提出背景
- AFPN = 多尺度特征金字塔 + 非邻近层次的直接特征融合 + 自适应空间融合操作
- 小目标涨点
- YOLO v5 魔改
- YOLO v7 魔改
- YOLO v8 魔改
- YOLO v9 魔改
提出背景
论文:https://arxiv.org/pdf/2306.15988.pdf
代码:https://github.com/gyyang23/AFPN
对象检测是计算机视觉中的一个任务,目的是在图片或视频中识别出各种物体,并确定它们的位置。
随着深度学习技术的发展,对象检测领域取得了巨大进步。
在这些进步中,一个关键技术是特征金字塔网络(FPN),它帮助模型更好地处理不同大小的物体。
特征金字塔(如FPN、PAFPN、NASFPN)建立了一个多层次的特征表示体系,允许系统在不同的分辨率上捕捉图像的特征,以便能够检测不同大小的物体。
- 它们解决了单一尺度特征分析的局限性,为特征融合提供了多尺度的特征来源。
特征融合模块(如CARAFE、ASFF、DRFPN)则进一步增强了这些特征的表示能力,通过各种方法(上采样、加权融合、注意力机制)优化了不同层级特征之间的融合,提高了特征金字塔中特征的质量和检测模型的性能。
AFPN = 多尺度特征金字塔 + 非邻近层次的直接特征融合 + 自适应空间融合操作
什么是AFPN?
AFPN(渐进式特征金字塔网络)是在特征金字塔和特征融合模块基础上的进一步创新和优化。
AFPN不仅采用了特征金字塔的多尺度特征表示理念,还引入了高效和创新的渐进式特征融合策略,特别是非邻近层次的直接特征融合和自适应空间融合操作。
- 自适应空间融合操作解决了特征融合过程中的信息冲突问题
- 而渐进式特征融合则优化了信息流在不同层级间的传递,最大化地保留了有用的信息
- 非邻近层次的直接特征融合,跨层级信息融合,允许高层特征直接与更低层特征结合,跳过中间层级,这样可以更快地将语义信息整合到细节信息中
AFPN 核心组件:
-
非邻近层次直接特征融合:传统的FPN通常只将相邻层次的特征进行融合,而AFPN能够直接将不同层次的特征进行融合,这样可以更好地保留高层的语义信息和低层的细节信息。
-
自适应空间融合操作:在合并不同层次的特征时,AFPN使用一种特殊的方法来确保信息不会相互冲突,这样做可以更精准地保留对于识别对象有用的信息。
因为在多层级特征融合过程中,不同层次的对象信息可能存在矛盾,通过引入自适应空间融合操作,可以过滤并保留对融合过程有用的信息,解决了简单的元素级求和不足以处理复杂信息融合的问题。
上图是对AFPN中使用的自适应空间融合操作的具体说明,展示了在不同层级特征之间应用该操作的效果。表明了如何结合来自不同层级的特征以生成一个综合特征,并使用策略自动分配权重,选择来区分上采样、下采样和横向连接。
-
从低层特征开始逐步融合高层特征:AFPN采取从低层次开始,并逐步添加高层次特征的方法
是因为低层特征包含更多的细节信息,而高层特征包含更丰富的语义信息。
通过从低层开始并逐步融合高层特征,可以确保融合后的特征同时包含细节和语义信息,避免了信息的丢失和降级。
上图展示了AFPN的结构细节,如特征是如何通过网络的不同层次进行融合的。
它通常会展示从输入图像的原始特征开始,如何通过上采样(增加分辨率)和下采样(降低分辨率)以及横向连接来融合特征。
图中可能会用不同颜色的箭头表示不同操作,比如蓝色箭头可能代表卷积操作,绿色箭头代表自适应空间融合。
假设我们要在一张照片中识别和定位不同大小的狗。
-
非邻近层次直接特征融合:
- 传统的FPN可能会分别处理照片中的大型狗(使用高层次的特征)和小型狗(使用低层次的特征),然后将这些特征逐层融合。
- AFPN的方式:它可以直接将识别大型狗的高层次特征与识别小型狗的低层次特征合并。
这意味着,不管狗的大小,模型都能同时考虑狗的整体形状(高层次的语义信息)和毛发、眼睛等细节(低层次的细节信息)。 -
自适应空间融合操作:
- 在融合特征时,可能会遇到一些矛盾,比如同一个位置既有大型狗的一部分也有小型狗的一部分。
- AFPN的方法:它能够识别出这种矛盾,并自动调整融合策略,只保留有助于识别和定位狗的信息。
这样,无论是大狗还是小狗,模型都能更准确地识别它们。 -
渐进式特征融合 - 从低层特征开始逐步融合高层特征:
- 一开始,AFPN专注于捕捉照片中的所有狗的细节特征,如毛发纹理和眼睛。
- 然后,它逐渐添加了识别狗的整体形状和姿态的高层次特征。
- 这个过程的结果:是一个综合的特征表示,既包含了细节信息(帮助区分不同种类的狗),也包含了语义信息(帮助理解狗的整体形态)。
这使得模型能够在各种大小和姿态的狗中做出准确的识别和定位。
AFPN 不直接处理单个大小的对象,而是综合考虑不同层次的信息,以更全面地理解图像内容。
小目标涨点
更新中…