Extended Feature Pyramid Network for SmallObject Detection

摘要

各种尺度的特征耦合会削弱小对象的性能,本文中,我们提出了具有超高分辨率金字塔的扩展特征金字塔网络(EFPN ),专门用于小目标检测。具体来说,我们设计了一个新模块,称为特征纹理转移(FTT ),用于同时超分辨率特征和提取可信的区域细节。此外,我们设计了一个前景 - 背景平衡损失函数来缓解前景和背景的面积不平衡。
总结
设计了一个 特征纹理转移( FTT )新模块 ,它 用于超分辨率特征和提取可信的区域细节
设计了一个 前景 - 背景平衡损失函数 来缓解前景和背景面积不平衡。

1、介绍

由于 CNN 重复使用池化层来提取高级语义,因此可以在 下采样过程中过滤掉小对象的像素
利用低级特征是提取小对象信息的一种方式。在 FPN 中,如图 1 a) 所示,小型对象必须与中型和大型对象共享相同的特征图,而像大型对象这样的简单情况可以从合适的级别提取特征。此外,如图1(b) 所示,随着对象规模的减小,FPN 底层的检测精度和召回率显著下降。图 1 表明,在普通 FPN 检测中,跨尺度的特征融合仍然削弱了小对象检测的能力。
普通的 FPN 中,跨尺度特征融合仍然削弱了小对象检测的能力
补偿小物体信息损失的另一种方法是提高特征分辨率。因此, 一些超分辨率( SR )方法被引入到目标检 测中
本文中,我们提 出了扩展特征金字塔网络( EFPN ),该 网络利用具有丰富区域细节的大规模 SR 特征来 解耦中小型目标检测 EFPN 以专门用于小型物体检测的高分辨率水平扩展了原始 FPN 。为了降低成本,我们的扩展高分辨率特征图是由嵌入特征 SR FPN-like 框架生成
在构建 vanilla 特征之后,所提出的特征纹理转移 FTT )模块首先将来自低分辨率特征的深层语义和来 自高分辨率特征参与的浅区域纹理相结合 。然后, 后续的 FPN-like 横向连接将通过量身定制的中间 CNN 特征图进一步丰富区域特征。
EFPN 的一个优点是,高分辨率特征图的生成依赖于 CNN FPN 产生的原始真实特征,而不是其他类似方法中不可靠的想象。如图1(b) 所示, EFPN 中具有可信细节的扩展金字塔级别显著提高了对小物体的检测性能。
此外,我们引入了由大规模输入图像生成的特征作为监督来优化 EFPN ,并设 计了一个前景 - 背景平衡损 失函数
主要贡献如下:
1 )我们提出了 扩展特征金字塔网络( EFPN ,它提高了小目标检测的性能。
2 )我们设计了一个关键的基于特征参考的 SR 模块, 称为特征纹理转移( FTT ),为扩展的特征金字塔 赋予可信的细节 ,以实现更准确的小目标检测。
(3) 引入了一个前景 - 背景平衡损失函数 ,以引起人们对正像素的关注,缓解前景和背景的面积不平衡。

2、超分辨图像用于目标检测

一些研究将 SR 引入到物体检测中,因为小物体检测总是受益于大尺度,图像级 SR 用于存在极小物体的一些特定情况,如卫星图像和具有拥挤的图像。STDN DenseNet 的顶层采用亚像素卷积来检测小对象, 同时减少网络参数 。最近 基于参考的 SR 方法具有利用参考图像的纹理或内容增强 SR 图像的能力 。受基于参考的SR 的启发,我们设计了一种新的模块来超分辨率参考下的具有可信细节的浅特征,从而生成更适合小物体检测的特征。

3、我们的方法

首先,我们 构建了一个扩展的特征金字塔 ,它专门用于底部有高分辨率特征图的小物体。具体来说,我们设计了一个名为特征纹理转移( FTT )的新模块,为扩展的特征金字塔生成中间特征 。此外,我们采 用了一种新的前景 - 背景平衡损失函数 来进一步加强对正像素的学习。

3.1 扩展特征金字塔网络

Vanilla FPN 通过对高级 CNN 特征图进行上采样,并通过横向连接将其与较低的特征融合, 构建了一个 4 层特征金字塔 。不同金字塔级别上的特征负责不同大小的对象, 小对象检测和中等对象检测仍然耦合在 FPN 的统一底层 P2 ,如图所示
为了缓解这个问题,提出了 EFPN vanilla 特征金字塔扩展到了新的层次 ,该层次考虑了具有更多区域细节的小目标检测。
我们 通过嵌入特征 SR 模块的 FPN-like 框架来实现扩展的特征金字塔 。该过程直接从低分辨率图像中生成高分辨率特征,以支持小目标检测。EFPN 的概述如图 2 所示。
顶部 4 个金字塔层由自上而下的路径构建,用于中等和大型对象检测。 EFPN 中的底部扩展包含图 2 中的FTT模块、自上而下的路径和紫色金字塔旨在捕获小物体的区域细节。更具体的说,在扩展中, EFPN 第三和第四金字塔层,分别在图 2 中用绿色和黄色层表示。在特征 SR 模块 FTT 中混合,以产生具有所选区域信息的中间特征P_3^ {'} 其中在图 2中由蓝色菱形表示。然后, 自上而下的路径将P_3^ {'} 定制的高分 辨率CNN特征图C_2^ {'}合并,产生最终的扩展金字塔层P_2^ {'}。我们 ResNet/ResNeXt stage2 中删除了一个最大池化层,并得到C_2^ {'}作为 stage2 的输出,如表 1所示。
C_2^ {'}与原始C2共享相同的表 示级别,但由于其更高的分辨率而包含更多的区域细节。
C_2^ {'}中较小的感受野也有助于更好地定位小物体,从数学上讲,所提出的EFPN中的扩展操作可以描述为
其中 表示通过 最近邻插值的双重放大。
EFPN 检测器中, 建议 size 和金字塔级别之间的映射仍然遵循 [19] 中的方式:
这里 l 表示金字塔级别, w h 表示方框建议的宽度和高度, 224 是规范的 ImageNet 预训练大小, l0 是wxh=224x224的方框方案映射到的级别目标。

3.2 FTT模块

基于图像参考的 SR 的启发 下,我们 设计了 FTT 模块来超分辨率特征,并同时从参考特征中提取区域纹 。如果没有 FTT EFPN 的第 4 P2 中的噪声将直接传递到扩展金字塔级,即淹没有意义的语义。
然而,所提出的 FTT 输出 综合了上低分辨率特征中的强语义 下高分辨率参考特征中的关键局部细节 ,但丢弃了参考中的干扰噪声。
如图 3 所示, FTT 模块的主要输入是来自第三层 EFPN 的特征图 P3 ,参考是来自第四层 EFPN 的特征图 P2。 输出P_3^ {'}可以定义为:
其中E_t(\cdot )表示纹理提取器成分,E_c(\cdot )表示内容提取器部分。 表示通过 sub 像素卷
积的双重放大, 表示特征C串联。内容提取器和纹理提取器都是由残差块组成的。
在主 stream 中,考虑到其效率,我们就将 sub-pixed 卷积 应用于 提高 来自主输入 P3 的内容特征的 空间分 辨率 sub像素卷积通过在通道维度上转移像素来增加宽度和高度维度上的像素。将卷积层生成的特征表示为F \in R^{H \times W\times C\times r^2}。亚像素卷积中的像素混洗算子将特征重新排列为 rH \times rW \times C形状 为的映射。(也就是说 经过 sub-pixed 卷积的特征图,是将原特
征图的宽度和高度放大了 r 倍,通道数不变
该运算在数学上可以定义为
其中,PS(F)_{x,y,c}表示像素混洗操作 PS(.) 之后的坐标 (x,y,c)上的 输出特征像
( 像素坐标 ) ,并且 r 表示放大因子。在我们的 FTT 模块中,为了使空间尺度加倍,我们采用 r=2
在参考 stream 中,参考特征 P2 和超分辨率内容特征 P3 的包裹被馈送到纹理提取器中。纹理提取器旨在提取用于小目标检测的可信纹理,并从包裹中屏蔽无用的噪声。
纹理和内容的最终元素添加确保了输出集成了来自输入和引用的语义和区域信息。因此,特征图 P3’ 具有从浅层特征参考P2 中选择的可靠纹理,以及从深层 P3 中选择的相似语义。

3.3训练损失

前景 - 背景平衡损失 。为了提高 EFPN 的综合质量,设计了前景背景平衡损失。常见的全局丢失会导致小物体区域的学习不足,因为小物体只占整个图像的一小部分。前景背景平衡损失函数通过两个部分提高了前景和背景的特征质量:
1 )全局重建损失
2 )正补丁损失
由于背景像素构成了图像的大部分,因此全局构造损失主要导致与真实背景特征的相似性。在这里,我们采用SR 中常用的 l1 损失作为全局重建损失L_{glob}
其中 F表示生成的特征图,F^t表示目标特征图。
正补丁丢失用于吸引人们对正像素的关注,因为严重的前景 - 背景不平衡会阻碍检测器的性能。我们使用前景区域上的l1损失作为正补丁损失L_{glob}
其中, P_{pos} 表示 ground truth 对象的块, N表示正像素的总数,并且(x,y)表示 特征图上的像
素的坐标。正补丁丢失对对象所在的区域起着更强的约束作用,强制学习这些区域的真实表示。
前景 -背景平衡损失函数L_{fbb}被定义为:
其中 \lambda 是权重平衡因子。平衡损失函数通过提高前景区域的特征质量来挖掘 true positives ,并通过提 高背景区域的特征品质来消除 false positives
总损失 。引入 2X 尺度 FPN 的特征图来监督 EFPN 的训练过程,不仅底部扩展特征金字塔级别受到监督,FTT模块也受到监督。 EFPN 的总体训练目标定义为:
是来自 2x 输入 FPN 的目标P2, 来自 2x 输入 FPN 的目标 P3

4、实验

首先,使用了微调完成实验,在实验过程中通过对有无 FTT 模块,进行了实验,同时在前景 - 背景平衡损
失函数上,通过对不同的损失权重进行设置进行了实验。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/729425.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【MySQL 系列】MySQL 起步篇

MySQL 是一个开放源代码的、免费的关系型数据库管理系统。在 Web 开发领域,MySQL 是最流行、使用最广泛的关系数据库。MySql 分为社区版和商业版,社区版完全免费,并且几乎能满足全部的使用场景。由于 MySQL 是开源的,我们还可以根…

统信os平台普通用户无法调用clockdiff的问题解决方法

问题描述 部署OceanBase 时遇到clockdiff: socket: operation not permitted 问题,从官网了解到可以通过setcap cap_net_rawep "$(which clockdiff)"解决 在centos平台,这个可以解决问题,但是在统信os平台失败了。。 参考: Ocea…

怎么把一个视频分割成几个?技巧在这里

在视频编辑的过程中,有时我们需要将一个较长的视频细分成多个部分,以便更灵活地进行处理、调整或分享。这个过程可以帮助我们有效管理视频内容,提取关键片段,并且适应不同的发布需求。在本文中,我们将深入探讨怎么把一…

JavaScript改变this指向的三种方法

在JavaScript中,可以使用call()、apply()或bind()来改变函数的this指向。 1.call(): 通过调用函数并传入新的上下文对象作为参数,将函数内部的this关键字指向该对象。示例代码如下所示 function greet(name) {console.log("Hello " name); …

机器学习笔记 DeepFakes和换脸技术简述

一、简述 人脸检测一直是 2000 年代初的主要研究课题。差不多二十年后,这个问题基本上得到了解决,并且人脸检测在大多数编程语言中都可以作为库使用。甚至换脸技术也不是什么新鲜事,并且已经存在了好些年了。 早在2016年左右就有基于OpenCV进行面部交换的方式了,主要是基于…

第107讲:Mycat实践指南:取模分片下的水平分表详解

文章目录 1.使用取模分片水平分表2.水平分表取模分片案例2.1.准备测试的表结构2.2.配置Mycat实现范围分片的水平分表2.2.1.配置Schema配置文件2.2.2.配置Rule分片规则配置文件2.2.3.配置Server配置文件2.2.4.重启Mycat 2.3.写入数据观察水平分表效果 1.使用取模分片水平分表 平…

SVG 渐变边框在 CSS 中的应用

SVG 渐变边框在 CSS 中的应用 <template><div class"home"><div class"one"><svg width"100%" height"100%"><rect x"2" y"2" width"100%" height"100%" fill&q…

【扩散模型系列1】扩散模型背景|DDPMs|LDM

目录 概述DPMDDPM前向加噪反向去噪UNet 训练阶段推理阶段 IDDPMClassifier GuidanceGLIDELDM模型结构VAE扩散模型U-Net 训练阶段推理阶段 参考资料 概述 扩散模型&#xff1a;和其他生成模型一样&#xff0c;实现从噪声&#xff08;采样自简单的分布&#xff09;生成目标数据样…

鸿蒙开发(七)添加常用控件(上)

相信大家已经对鸿蒙开发的布局有了基本的了解。之前我们提到过&#xff0c;一个好的UI&#xff0c;离不开选择合理的布局。当然&#xff0c;也离不开适当的控件。本篇文章&#xff0c;带着大家一起学习下如何在页面里面添加常用的控件。由于控件较多&#xff0c;我会分为两篇文…

Windows®、Linux® 和 UNIX® 系统都适用的远程桌面工具 OpenText ETX

Windows、Linux 和 UNIX 系统都适用的远程桌面工具 OpenText ETX 为 Windows、Linux 和 UNIX 实施精益、经济高效的虚拟化&#xff1b;提供完整的远程 Windows 可用性&#xff1b;以类似本地的性能远程工作&#xff1b;安全地保护系统和知识产权&#xff08;IP&#xff09;&am…

关于 Runes 协议及「公开铭刻」发行机制的拓展讨论

撰文&#xff1a;MiX 编辑&#xff1a;Faust&#xff0c;极客 web3 2024 年 3 月 2 日&#xff0c;Runes 生态基础设施项目 Rune alpha 的创始人&#xff0c;在 Github 的公开议题中&#xff0c;与 Runes 协议创始人 Casey 展开了讨论&#xff0c;双方对如何拓展 Runes 协议的…

智慧灯杆-智慧城市照明现状分析(1)

城市道路照明是城市公共设施的重要组成部分,而随着城镇化建设的推进,城市道路照明路灯的数量越来越多,能耗越来越高,供电趋于紧张。此外,城市照明的维护工作和高昂的维护成本(人工控制、路灯巡查等),给城市管理造成了巨大的困难。管理部门需要更有效率的管理和节能方案…

支持向量机 SVM | 线性可分:软间隔模型

目录 一. 软间隔模型1. 松弛因子的解释小节 2. SVM软间隔模型总结 线性可分SVM中&#xff0c;若想找到分类的超平面&#xff0c;数据必须是线性可分的&#xff1b;但在实际情况中&#xff0c;线性数据集存在少量的异常点&#xff0c;导致SVM无法对数据集线性划分 也就是说&…

Kubernetes Operator开发实践

Operator 介绍 Operator 可以看成是 CRD Controller 的一种组合资源。Kubernetes 中的基础资源类型有 Pod、Service、Job、Deployment 等表达能力有限&#xff0c;CRD 则提供了创建新的资源类型方式&#xff1b;Controller 监听 CRD 对象实例的增、删、改事件&#xff0c;然后…

GIS在地质灾害危险性评估与灾后重建中的应用

地质灾害是指全球地壳自然地质演化过程中&#xff0c;由于地球内动力、外动力或者人为地质动力作用下导致的自然地质和人类的自然灾害突发事件。由于降水、地震等自然作用下&#xff0c;地质灾害在世界范围内频繁发生。我国除滑坡灾害外&#xff0c;还包括崩塌、泥石流、地面沉…

GSA、GSEA、ssGSEA、GSVA用到的统计学知识点

文章目录 概率密度函数&#xff08;probability density function&#xff0c;PDF&#xff09;分布函数&#xff08;Cumulative Distribution Function&#xff0c;CDF&#xff09;核密度估计&#xff08;KDE&#xff09;经验累计分布函数&#xff08;Empirical Cumulative Dis…

source not found for数组a的引用Exception

identityHashCode(数组名&#xff09; adressidentityHashCode(a)//将得到数组a的哈希值。在同一个数据类型下&#xff0c;同一对象的哈希值是一样的&#xff0c;同一哈希值对应同一对象。由于不同数据类型的变量哈希值生成算法不同&#xff0c;所以在数据类型不同的情况下&am…

关于esp8266的一些经验汇总,新手必看

说实话&#xff0c;esp8266的nodemcu 已经使用了2年多了&#xff0c;各种问题遇到过&#xff0c;就尝试各种解决&#xff0c;而现在回头来看真的是稀里糊涂的在用&#xff0c;当然这个问题也同样涉及到esp32. 因为最近打算自己打一块esp8266的板&#xff0c;之前打的比较多的是…

Redis冲冲冲——Redis分布式锁如何实现

目录 引出Redis分布式锁如何实现Redis入门1.Redis是什么&#xff1f;2.Redis里面存Java对象 Redis进阶1.雪崩/ 击穿 / 穿透2.Redis高可用-主从哨兵3.持久化RDB和AOF4.Redis未授权访问漏洞5.Redis里面安装BloomFilte Redis的应用1.验证码2.Redis高并发抢购3.缓存预热用户注册验证…

从根到叶:深入理解二叉搜索树

我们的心永远向前憧憬 尽管活在阴沉的现在 一切都是暂时的,转瞬即逝, 而那逝去的将变为可爱 &#x1f31d;(俄) 普希金 <假如生活欺骗了你> 1.二叉搜索树的概念 概念:搜索树&#xff08;Search Tree&#xff09;是一种有序的数据结构&#xff0c;用于存储和组…