FOCUS-AND-DETECT: A SMALL OBJECTDETECTION FRAMEWORK FOR AERIAL IMAGES

摘要

为了解决小对象检测问题,提出了一个叫做 Focus-and Detect 的检测框架,它是一个两阶段的框架。 一阶段包括由高斯混合模型监督的对象检测器网络,生成构成聚焦区域的对象簇 第二阶段 也是一个物体探测器网络,预测聚焦区域内的物体 为了克服区域搜索方法的截断效应,还提出了不完全盒抑制 IBS )方法。

1、介绍

一般来说,检测网络由主干网、颈部和头部组成。在这种情况下,主干网模型是为检测任务提取特征的网络,头部是预测边界框和类的实际检测模型,颈部位于主干网和头部网络之间,并融合来自主干网模型不同阶段的特征图。
航空目标检测是一个新兴领域,近年来取得了很大的进展。早些时候,几项研究提出了将为自然图像建立的方法适应航空图像[8 9] 。然而,由于这种方法,出现了各种困难 [10] 。首先, 在航空图像中,方位 和纵横比可能与自然图像显著不同 。其次, 类内和类间样本的航空图像中的尺度变化非常严重 [11] 。例如,[12] 报告了 MS COCO VisDrone[13] 数据集中 汽车 类的统计数据。结果表明,在 VisDrone 数据集中, 汽车 对象大小的方差几乎是 MS COCO 数据集的五倍。 第三, 航空图像中的物体小而密集 。例如,VisDrone检测数据集中的单个图像中可能存在多达 902 个对象 [14] 。此外,航空图像中存在类不平衡问题[14] ,这使得样本数量较少的类的小目标检测问题更加困难。因此,小物体检测任务需要解决上述问题的专用方法。
为此,我们提出了一个由两个阶段组成的框架,即聚焦阶段和检测阶段。 在第 阶段中,通过 由高斯混 合模型监督的检测器来确定要聚焦的区域 。第 阶段由这些 主要是物体集群的区域提供,预测这些区域 内的物体 。在 合并这些区域的预测时,利用 NMS 和所提出的 IBS 方法来消除重叠和截断的边界框。
贡献
提出了一个基于区域搜索的航空图像小目标检测框架,即 聚焦与检测 。我们提出了一个使用高斯模型生成目标聚类的方法,其中生成的聚类是尺度归一化的。我们还提出了“ 不完全盒抑制 IBS )方法来抑制由重叠焦区引起的不完全盒。
总结
针对航空图像中存在的问题,提出了一个两阶段的检测框架,即聚焦阶段和检测阶段。
第一阶段:由高斯混合模型监督的检测器来确定要聚焦的区域。
第二阶段:主要由物体集群的区域提供,预测这些区域内的物体。在合并区域的预测时,利用 NMA 和所提出的IBS 方法来消除重叠和截断的边界框。

2、相关工作

由于图像上小物体覆盖区域的信息不足、小对象定位的可能性高以及适用于中大型物体等问题,大多数物体检测方法都难以处理小物体。
航空图像检测困难是因为, 它们大多包括小物体、不同类别的样本数量之间的大差异以及类别间和类别 内的高尺度方差。 为了缓解这些困难,以前提出了许多方法。例如, [45] 中针对类不平衡问题提出了一种自适应增强方法,称为AdaResampling 。在 [46] 中,提出了一种硬芯片挖掘方法作为航空图像的数据增强。此外,[11] 提出了对获得多尺度特征的改进,以减少尺度方差对目标检测的影响。由于航空图像大多由小而密集的物体组成,一些方法侧重于改进区域搜索[46 47 48 49 16 50 ,15, 51] 。例如, [48] 提出了基于 平铺的方法来实时检测航空图像中的行人和车辆 。在 [16] 中, 使用均值 偏移算法来确定困难的聚类区域 ,以提供对象检测器。 [50] 为基于裁剪的方法提出了三种增强方法,即 镶嵌增强、自适应裁剪和掩模重采样 。在 [12] 中,提出了一种 基于 FPN[20] 的自适应图像裁剪方法 来解决航空图像中的尺度挑战。[47] 构造密度图以确定要裁剪的区域 。然后由这些作物以及整个图像提供对象检测器。[15] 利用聚类获得图像裁剪。
我们的方法仅使用预测区域,而不使用对整个图像的检测 。另一方面, 高斯混合模型提供了跨预测区域 的尺度归一化 ,而无需额外计算,因为 将预测区域调整为固定大小,产生了每个混合分量的平均值的偏 移,并产生了边界框的归一化。
与以往的研究不同,我们 提出使用高斯混合模型( GMM )进行区域搜索 。此外,我们 提出了不完全盒抑 制( IBS ),以抑制由 GMM 监督下的第一检测器生成的重叠区域内的不完全盒 。图 2 展示了所提出的 IBS方法的贡献。
总结
航空图像检测困难是因为,它们大多包括小物体、不同类别的样本数量之间的大差异以及类别间和类别内的高尺度方差。
本文仅使用预测区域,而不使用对整个图像的检测 。另一方面, 高斯混合模型提供了跨预测区域的尺度归一化,而无需额外计算,因为 将预测区域调整为固定大小,产生了每个混合分量的平均值的偏移,并产生了边界框的归一化。提出了不完全盒抑制( IBS ),以抑制由 GMM 监督下的第一检测器生成的重叠 区域内的不完全盒

3 Focus-and-Detect

3.1 Overview

如图 1 所示,对航空图像的检测由两个阶段组成: 检测由物体簇组成的焦点区域的焦点网络 检测焦点区 域中物体的检测网络 。在 合并预测之后应用后处理方法 。具体而言,我们提出了 不完全盒抑制( IBS )机 制来抑制重叠焦区的不完全盒 。我们还 使用标准的非最大值抑制( NMS )来抑制合并预测后的重叠框。

3.2 Focus satge

Focus stage 阶段 由一个物体检测网络组成,经过训练可以检测焦点区域 焦点区域是通过 GT 边界框使 用高斯模糊模型生成的。选择广义聚焦损失( GFL )作为基本检测方法 。该模型的 backbone 是具有可 变形卷积层的 ResNet-50 网络 [52]
模型的 第二部分,是 FPN ,旨在开发和细化从 ResNet-50 的不同阶段获得的特征图, 最后一部分是预测 焦点区域边界框的模型的检测头。可变形卷积用于主干的最后三个阶段
传统的网络架构不能很好地转移焦点区域检测任务。焦点特征的可迁移性不如传统物体特征的可转移性。
为了提高学习特征的可转移性,可变形卷积层 [52] 已在 ResNet-50 中使用,因为可变形卷积可以动态地改变接收场。拟议的改变有助于更好地代表重点区域。
整体框架的性能主要取决于聚焦阶段 。理想情况下,预测的焦点区域必须包括所有对象边界框,而不进行任何截断。但是,这些区域中可能存在重叠的区域和截断的对象。这些问题通过采用 IBS 方法作为后处 理阶段 来解决。
总结
Focus stage 有一个物体检测网络组成。 焦点区域是通过 GT 边界框使用高斯模糊模型生成
backbone 部分由可变形卷积层的 Resnet-50 网络构成,第二部分是 FPN ;最后一部分是 预测聚焦区域 边界框的模型的检测头 。可变形卷积用于主干的最后三个阶段。

3.2.1用高斯混合模型生成聚焦区域的GT

在物体定位问题中,同一类物体的区域可以用高斯分布建模,因为物体的大小变化不大。高斯混合模型不是单个高斯模型,而是更好的选择,而与单个高斯模型相反,当对象位置被用作混合模型的输入时, 混合模型由具有较小偏差的高斯组成
在这种情况下, 焦点区域可以被定义为使用高斯混合模型获得的物体簇 该高斯混合模型将 GT 框的位置 信息作为输入。位置信息由边界框到图像中均匀采样点网络的距离矢量组成 ,如图 3 所示, 与直接使用方 框坐标相比,这种方法产生了更好的结果
物体簇
根据相应图像的 GT 框的数量来选择聚焦区域的数量。聚焦区域的数量( Nf) 可以写成
其中是 N_{gt}是GT框的数量,设 是图像中第i个GT框的1xM大小的距离向量,X是特征向量 N_f \times M的大小矩阵。 高斯混合模型可以定义为:
其中 j 个聚类的均值和方差。
使用期望最大化算法对模型进行拟合。一旦 EM 算法运行完成,拟合的模型就可以用于对 GT 边界框进行聚类。给定模型的参数,GT 边界框属于集群的概率计算为:
在计算聚类之后,焦点区域被选择为最小尺寸的框,该模型包括各个聚类中每侧具有 20 像素间隙的所有边界框。由于间隙的原因,焦点区域可能存在被截断的物体。生成的焦点区域被用作焦点阶段的 ground  truth GT 边界框 ,如图 4 所示。
3.3 Detection stage
在获得焦点区域之后,使用专用检测器对这些区域进行物体检测。所获得的区域被调整大小以获得更高的分辨率。这种方法提高了小物体检测的性能。
在这一阶段,采用广义聚焦损耗( GFL )作为基本探测器。模型的主干被选择为具有可变形卷积层的ResNeXt-101网络。在 neck 中,使用 FPN ,最后是预测对象边界框的模型的检测头。可变形卷积层用于最后三个阶段。
检测阶段,用 GMM 获得的焦点区域被裁剪并调整大小,作为一个新的数据集 。获得 GT 边界框,并将其细化为焦点区域作物。如果至少30% GT 框位于裁剪区域内,则包括裁剪后的 GT 框。
3.4 后处理
为了获得物体边界框的最终预测,必须将检测阶段的预测合并为焦点区域的模型输出预测。用于提高性能的后处理步骤包括不完全盒抑制(IBS )和非最大值抑制( NMS )。
不完全盒抑制( IBS 利用区域搜索的模型存在某些问题 。例如,合并目标区域的检测可能很困难,因为可能存在重叠的区域和截断的对象。这个问题在同一个对象上产生多个边界框预测。由于截断、预测的边界框没有完全重叠。因此,非极大值抑制不能抑制这些类型的错误预测。但是 ,这些预测会降低AP 得分。通常,非极大值抑制用于消除高度重叠的方框。但是,在大多数区域搜索方法中,最后一步是合并目标区域的预测。这就产生了一个新的问题,这些区域中的重叠区域和阻断对象降低了整体性能,因为检测器可能会预测完整版本的边界框,以及相同对象的截断版本的边界盒,如图5 所示。通常,这些边界框并集上的交集很小。因此,他们能够逃离NMS 。截断的对象本身也是一个问题。错误的类预测对于截断的对象很常见。结果,假阳性增加,AP 得分降低。不完全盒抑制( IBS )是为了减少这类问题而提出的。从本质上说,IBS NMS 算法具有相同的原理:找到重叠的边界框,选择具有最高置信度值的框,并抑制其他框。虽然NMS 使用简单的并集交集( IoU) 阈值来寻找重叠,但 IBS 中,重叠的焦点区域和对象
边界框都被用来决定要抑制哪个框
C_i and B_{i,j}是该区域 中的第 i 个焦点区域坐标和第 j 个框坐标
第一步:计算聚焦区域 Ci 和其他聚焦区域之间的 IoU ,以找到 Ci 的重叠。再将阈值应用于所计算的 IoU之后,获得重叠的聚焦区域。
第二步是 将重叠焦点区域中的对象框坐标裁剪到第 i 个焦点区域的坐标,并收集面积大于零的框
最后一步是计算裁剪框和 B_{i,j} 之间的 IoU 。如果任何 IoU分数大于所选阈值,则抑制 B_{i,j}焦点区域 IoU 阈值被实验性地选择为 0.05 ,边界框的 IoU 门限再次被实验性的选择为 0.5。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/767680.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【云开发笔记No.6】腾讯CODING平台

腾讯云很酷的一个应用,现在对于研发一体化,全流程管理,各种工具层出不穷。 云时代用云原生,再加上AI,编码方式真是发生了质的变化。 从前,一个人可以写一个很酷的软件,后来,这变得…

<商务世界>《第16课 餐桌礼仪之座次》

1 简要 我国自古以来就很重视座位礼仪,非讲究,分君臣、分宾主、分方位等等而今座位礼仪已经简化为: 以“中”为尊: 中心为尊,突出主位。 以“右”为尊: 从历史上到国际上都是以右为尊。 以“内”为尊&…

故障诊断模型 | 基于图卷积网络的轴承故障诊断

文章目录 文章概述模型描述模型描述参考资料文章概述 故障诊断模型 | 基于图卷积网络的轴承故障诊断 模型描述 针对基于图卷积网络(GCN)的故障诊断方法大多默认节点间的权重相同、导致诊断精度较低与鲁棒性较差的问题,提出了一种基于欧式距离和余弦距离的 GCN 故障诊断方法…

力扣热门算法题 62. 不同路径,66. 加一,67. 二进制求和

62. 不同路径,66. 加一,67. 二进制求和,每题做详细思路梳理,配套Python&Java双语代码, 2024.03.21 可通过leetcode所有测试用例。 目录 62. 不同路径 解题思路 完整代码 Python Java 66. 加一 解题思路 …

29-goto语句

29-1 goto语句介绍 C语言中提供了可以随意滥用的goto语句和标记跳转的标号。 从理论上goto语句是没有必要的,实践中没有goto语句也可以很容易的写出代码。 但是某些场合下goto语句还是用得着的,最常见的用法就是终止程序在某些深度嵌套的结构的处理过程…

第十一届蓝桥杯大赛第二场省赛试题 CC++ 研究生组-回文日期

solution1&#xff08;通过50%&#xff09; #include<stdio.h> void f(int a){int t a;while(a){printf("%d", a % 10);a / 10;}if(t < 10) printf("0"); } int isLeap(int n){if(n % 400 0 || (n % 4 0 && n % 100 ! 0)) return 1;r…

抖音IP属地怎么更改

抖音是一个非常受欢迎的短视频平台&#xff0c;吸引了无数用户在上面分享自己的生活和才艺。然而&#xff0c;随着快手的火爆&#xff0c;一些用户开始担心自己的IP地址会被他人获取&#xff0c;引起个人隐私风险。那么&#xff0c;抖音用户又该如何更改到别的地方呢&#xff1…

父类子类构造方法调用示例

父类写无参构造&#xff0c;子类不写构造&#xff0c;实例化子类&#xff0c;会同时调用父类构造方法 public class Father {private String name;private int age;public Father() {System.out.println("父类无参构造");}} public class Son extends Father {priva…

私密个人相册 Android 藏起来你的照片和视频

珍藏每一刻 软件介绍版本号 1.0.0更新日期 2024-03-20 在数字时代&#xff0c;每个人都是自己故事的摄影师。私密个人相册应用&#xff0c;专为珍视隐私与回忆的你设计。我们提供一个安 全的空间&#xff0c;让你的每一张照片和每一个视频都得到妥善保护&#xff0c;同时也能…

通过dbeaver链接dm8数据库

一、环境说明 windows 11 vmware 17 ubuntu 22 tt:~$ lsb_release -a No LSB modules are available. Distributor ID: Ubuntu Description: Ubuntu 22.04.3 LTS Release: 22.04 Codename: jammytt:~$ docker info Client:Version: 24.0.5Context: d…

C++之移动语义与智能指针

目录 移动语义 1、几个基本概念的理解 2、复制控制语义的函数 3、移动控制语义的函数 3.1、移动构造函数: 3.2、移动赋值函数 4.区别 5、std::move函数 6.代码演示: 资源管理与智能指针 一、C语言中的问题 二、C的解决办法(RAII技术)&#xff1a; 三、四种智能指针…

2024年产品品牌化深度分析:消费者心理与品牌化、产品质量的权衡

随着市场竞争的加剧和消费者需求的多样化&#xff0c;产品品牌化已经成为企业不可或缺的战略选择。在2024年&#xff0c;当消费者面对众多商品时&#xff0c;品牌化与产品质量之间的权衡成为了消费者决策的重要因素。那么&#xff0c;在消费者心理中&#xff0c;品牌化重要还是…

cadence中run pspice运行仿真 光标搜索Search Command

cadence中run pspice运行仿真 光标搜索Search Command 在cadence进行波形分析时&#xff0c;如果可以随时找到对应的点分析十分方便。 也就是cadence中的光标搜索&#xff08;Search Command&#xff09;功能 但是需要输入正确形式才能使用 官方说明&#xff1a;PSpice User…

chatGPT中文在线版本(亲测可用

ChatGPT是一个先进的自然语言处理模型&#xff0c;由OpenAI开发。它通过深度学习技术训练而成&#xff0c;可以进行对话、回答问题等多种自然语言处理任务。对于学生、开发者、研究人员和任何对人工智能感兴趣的人来说&#xff0c;这是一个非常有用的工具。 最近找到一个国内可…

Linux 服务升级:Nginx 热升级 与 平滑回退

目录 一、实验 1.环境 2.Kali Linux 使用nmap扫描CentOS 3.Kali Linux 远程CentOS 4.Kali Linux 使用openvas 扫描 CentOS 5.Nginx 热升级 6.Nginx 平滑回退 二、问题 1.kill命令的信号有哪些 2.平滑升级与回退的信号 一、实验 1.环境 &#xff08;1&#xff09;主机…

鸿蒙网络开发学习:【ylong_http】

简介 ylong_http 构建了完整的 HTTP 能力&#xff0c;支持用户使用 HTTP 能力完成通信场景的需求。 ylong_http 使用 Rust 编写&#xff0c;为 OpenHarmony 的 Rust 能力构筑提供支持。 ylong_http 在 OpenHarmony 中的位置 ylong_http 向 OpenHarmony 系统服务层中的网络协…

Adaptive Object Detection with Dual Multi-Label Prediction

gradient reversal layer (GRL) 辅助信息 作者未提供代码

蓝桥杯需要掌握的几个案例(C/C++)

文章目录 蓝桥杯C/C组的重点主要包括以下几个方面&#xff1a;以下是一些在蓝桥杯C/C组比赛中可能会涉及到的重要案例类型&#xff1a;1. **排序算法案例**&#xff1a;2. **查找算法案例**&#xff1a;3. **数据结构案例**&#xff1a;4. **动态规划案例**&#xff1a;5. **图…

java 高级面试题(借鉴)(下)

雪花算法原理 第1位符号位固定为0&#xff0c;41位时间戳&#xff0c;10位workId&#xff0c;12位序列号&#xff0c;位数可以有不同实现。 优点&#xff1a;每个毫秒值包含的ID值很多&#xff0c;不够可以变动位数来增加&#xff0c;性能佳&#xff08;依赖workId的实现…

数据结构面试题

1、数据结构三要素&#xff1f; 逻辑结构、物理结构、数据运算 2、数组和链表的区别&#xff1f; 数组的特点&#xff1a; 数组是将元素在内存中连续存放&#xff0c;由于每个元素占用内存相同&#xff0c;可以通过下标迅速访问数组中任何元素。数组的插入数据和删除数据效率低…