论文阅读 FOCUS-AND-DETECT: A SMALL OBJECT DETECTION FRAMEWORK FOR AERIAL IMAGES

文章目录

    • FOCUS-AND-DETECT: A SMALL OBJECT DETECTION FRAMEWORK FOR AERIAL IMAGES
      • ABSTRACT
      • 1 Introduction
      • 2 Related Work
      • 3 Focus-and-Detect
        • 3.1 Overview
        • 3.2 Focus Stage
          • 3.2.1 Generating Ground-Truth Boxes of Focal Regions Using Gaussian Mixture Model
        • 3.3 Detection Stage
        • 3.4 Post Processing
          • 3.4.1 Incomplete Box Suppression
          • 3.4.2 Non-max Suppression
      • 4 Experimental Results
        • 4.1 Implementation Details
        • 4.2 Dataset and Evaluation Metric && 4.3 Results && 4.4 Ablation Study
      • 5 Conclusion

FOCUS-AND-DETECT: A SMALL OBJECT DETECTION FRAMEWORK FOR AERIAL IMAGES

ABSTRACT

航空影像中的目标检测仍然是一项具有挑战性的任务。航空影像中的特定问题使得检测更加困难,例如小尺寸物体、密集排列的物体、不同尺寸和方向的物体等。为了解决小尺寸物体检测问题,我们提出了一个名为“Focus-and-Detect”的两阶段目标检测框架。第一阶段由一个受高斯混合模型监督的目标检测器网络组成,生成构成聚焦区域的物体群集。第二阶段同样是一个目标检测器网络,预测聚焦区域内的物体。我们还提出了Incomplete Box Suppression(IBS)方法,以克服区域搜索方法的截断效应。结果表明,所提出的两阶段框架在VisDrone验证数据集上实现了42.06的AP得分,据作者所知,超越了文献中报告的所有其他最先进的小物体检测方法。

1 Introduction

目标检测包括目标定位和分类两个子任务。许多其他任务依赖于它,比如图像字幕生成、目标跟踪、实例分割和场景理解。随着基于深度学习的方法的进步,基于手工特征的方法,如HOG和SIFT,已经过时了。SIFT和HOG特征是低级特征,无法作为hierarchical layer-wise representations来使用,而深度模型能够将数据表示为abstract representations的分层组合。通常,检测网络包括主干网(backbone)、颈部网络(neck)和头部网络(head)。在这个背景下,主干模型是为检测任务提取特征的网络,头部是实际的检测模型,用于预测边界框和类别,颈部位于主干和头部网络之间,融合来自主干模型不同阶段的特征图。对于检测头部,有不同的方法,例如一阶段检测和两阶段检测模型。一阶段检测模型在头部模型中不包括region proposa layer,直接在密集位置上进行检测。另一方面,两阶段模型利用region proposa网络提取用于边界框回归和分类的目标区域。

航空目标检测是一种新兴领域,可以被归类为一般小物体检测问题的一个案例,近年来取得了一些进展。尽管它在监控、精确农业、军事监测和城市管理等许多应用中具有广泛的应用,但它是最具挑战性的计算机视觉任务之一。早些时候,一些研究提出将用于自然图像的方法调整为航空图像。然而,这种方法,出现了各种困难。首先,在航空图像中,方向和长宽比可能与自然图像有很大差异。其次,航空图像中的尺度变化对于类内和类间样本都更为严重。例如,MS COCO和VisDrone 数据集中“车辆”类的统计数据。其中在VisDrone数据集中,“车辆”对象的尺寸方差几乎是MS COCO数据集的五倍。第三,航空图像中的物体尺寸小且密集排列。例如,在VisDrone Detection数据集中,单张图像中可能存在多达902个对象。此外,航空图像中存在类不平衡问题,使得样本数量较少的类别的小物体检测问题变得更加困难。因此,需要针对上述问题的专门方法来解决小物体检测任务。

Region search是小物体检测的一种强大方法,旨在寻找并聚焦可能包含对象的区域。由于航空图像由密集且小的物体组成,我们在本文中专注于航空目标检测问题的区域搜索。为此,我们提出了一个由两个阶段组成的框架,即focus和detection阶段。在第一阶段,由高斯混合模型监督的检测器确定要聚焦的区域。第二阶段由clusters of objects的这些区域供给,预测这些区域内的对象。在合并对这些区域的预测时,利用了NMS和所提出的IBS方法来消除重叠和截断的边界框。

我们的贡献可以列举如下:

  • 我们提出了一种名为“Focus&Detect”的框架,用于在航空影像中进行小物体检测,该框架基于区域搜索方法。
  • 我们提出了一种使用高斯混合模型生成对象群集的方法,生成的群集经过尺度归一化处理。
  • 我们还提出了“‘Incomplete Box Suppression”(IBS)方法,以抑制由重叠的聚焦区域引起的不完整边界框。我们提出的方法在VisDrone验证集上实现了42.06的AP得分,在UAVDT测试集上实现了54.16的AP@70得分。据我们所知,我们的方法在VisDrone数据集上优于文献中报告的小物体检测最新方法。

2 Related Work

略过

3 Focus-and-Detect

3.1 Overview

一般而言,航空影像上的目标检测性能受到小物体、物体视角变化、遮挡和截断的影响。使用高分辨率图像作为输入是解决小物体检测问题的一种简单方法。然而,高分辨率图像对深度神经网络来说会带来难以承受的计算成本。使用focusing机制并增加聚焦区域的分辨率具有这种简单方法的优点,但计算成本较低。如图1所示,航空图像上的检测包括两个阶段:Focus network,用于检测由物体群集构成的聚焦区域,detection network,用于在聚焦区域内检测物体。在合并预测后,应用后处理方法。具体而言,我们提出了Incomplete Box Suppression(IBS)机制,以从重叠的聚焦区域中抑制不完整的边界框。在合并预测的边界框后,我们还使用标准的非最大抑制(NMS)来抑制重叠的边界框。
在这里插入图片描述

3.2 Focus Stage

聚焦阶段由一个目标检测网络组成,用于检测 focal regions。聚焦区域是通过由ground truth边界框训练后的高斯混合模型生成的。作为基础检测方法,选择了广义聚焦损失(GFL)。模型的主干是具有可变形卷积层的ResNet-50网络。模型的第二部分,即特征金字塔网络(FPN),旨在利用和优化从ResNet-50不同阶段获得的特征图,最后一部分是模型的检测头,用于预测聚焦区域的边界框。可变形卷积层在主干的最后三个阶段中被使用。

传统的卷积网络由于卷积层和池化层的受限形式,在几何变换上具有有限的性能。传统的网络架构在聚焦区域检测任务上表现不佳。聚焦区域features的可转移性不如传统对象特征的可转移性。为了提高学到features的可转移性,使用了可变形卷积层在ResNet-50内部,因为可变形卷积可以动态地改变感受野。因此得到更好的聚焦区域representation。

整体框架的性能大部分取决于聚焦阶段。理想情况下,预测的聚焦区域必须包含所有物体边界框,且没有任何截断。然而,在这些区域中可能存在重叠的区域和截断的物体。这些问题通过将IBS方法作为后处理阶段来解决,下面会详细介绍。

3.2.1 Generating Ground-Truth Boxes of Focal Regions Using Gaussian Mixture Model

在目标定位问题中,同一类别中的物体区域可以用高斯分布建模,因为物体的尺寸变化不大。这个假设对于像MS COCO或PASCAL VOC 这样的目标检测数据集是成立的。然而,在像VisDrone 这样的航空图像数据集中,物体的区域因相机的角度和高度而有所偏移。与单一高斯模型不同,高斯混合模型是更好的选择,因为在将物体位置作为混合模型的输入时,多个高斯分布组成的混合模型由具有较小deviations。

在这个背景下,focal regions可以被定义为一组物体的群集,这些群集是通过一个以 ground-truth(GT)边界框的位置信息作为输入的高斯混合模型获得的。位置信息包括一个向量,表示边界框到图像中均匀采样点的网格的距离,如图3所示。与直接使用边界框坐标相比,这种方法可以获得更好的结果。
在这里插入图片描述
focal regions的数量是根据相应图像中的(GT)边界框数量来选择的。聚焦区域的数量(Nf)可以表示为:(即高斯混合模型中高斯函数的数量)
在这里插入图片描述
其中 Ngt 是(GT)边界框的数量。设 x ‾ \overline{\text{x}} x 是图像中第 i th 个 GT 边界框的大小为 1 × M 的距离向量,X 是大小为 Nf × M 的特征向量数组。高斯混合模型可以定义为:
在这里插入图片描述
其中μj和σj分别是第j个聚类的均值和方差。
期望最大化算法(EM算法)被用来拟合这个模型。一旦EM算法运行完成,拟合的模型可以用来对GT边界框进行聚类。给定模型的参数,计算一个GT边界框属于某个聚类的概率如下(贝叶斯定理)
在这里插入图片描述
在计算完聚类后,聚焦区域被选择为包括各自聚类中的所有边界框的最小尺寸的框,每边留有20个像素的间隙。由于间隙的存在,聚焦区域中可能会有截断的物体。生成的聚焦区域被用作聚焦阶段的 ground truth边界框,如图4所示。
在这里插入图片描述

3.3 Detection Stage

在获得聚焦区域后,会使用专用的检测器对这些区域进行目标检测。获得的区域会被调整到更高的分辨率,这种方法有助于提高小物体检测的性能。

在这个阶段,广义聚焦损失(GFL)被采用作为基础检测器。模型的主干选用了带有可变形卷积层的ResNeXt-101网络。在颈部,使用特征金字塔网络(FPN)来通过使用来自不同阶段的特征来提高检测性能,而模型的最后部分是检测头,用于预测物体的边界框。可变形卷积层在主干的最后三个阶段中被使用。可变形卷积层相对于传统卷积层在检测小物体时产生更好的结果,因为它能够动态地改变其感受野,并提高了受到几何变换影响的检测性能。

在检测阶段,使用 GMM(高斯混合模型) 获得的聚焦区域会被裁剪和调整大小,以获得一组新的数据。GT边界框会被获得并细化到聚焦区域裁剪中。如果至少有 30% 的边界框位于裁剪区域内,那么被截断的GT边界框也会被包含进来。

3.4 Post Processing

为了获得最终的物体边界框预测,必须将检测阶段的预测与聚焦区域模型输出的预测合并。为了提高性能,应用的后处理步骤包括 Incomplete Box Suppression(IBS)和非最大抑制(NMS)。

3.4.1 Incomplete Box Suppression

利用区域搜索的模型存在一些问题。例如,合并目标区域的检测可能会很困难,因为可能存在重叠的区域和截断的物体。这个问题导致了在同一个物体上有多个边界框预测。由于截断,预测的边界框并不完全重叠。因此,非最大抑制无法抑制这种类型的错误预测。然而,这些预测会降低AP得分。

一般而言,非最大抑制用于消除高度重叠的边界框。对于传统的目标检测问题,它运行得足够好。然而,在大多数区域搜索方法中,还存在一个最终的步骤,即合并目标区域的预测。这就产生了一个新问题。这些区域中的重叠和截断的物体降低了整体性能,因为检测器可能会为同一个物体预测一个完整版本的边界框和一个截断版本的边界框,如图5所示。通常,这些边界框的交并比很小,因此它们能够逃脱非最大抑制。截断的物体本身也是一个问题。截断物体的错误类别预测很常见。结果,假阳性增加,AP得分下降。Incomplete Box Suppression(IBS)被提出来减少这些问题。
在这里插入图片描述

从本质上讲,IBS与NMS算法有相同的原则:找到重叠的边界框,选择具有最高置信度值的边界框,然后抑制其他边界框。虽然NMS使用简单的交并比(IoU)阈值来查找重叠,但在IBS中,重叠的聚焦区域和物体边界框都被用来决定要抑制哪个边界框。

设 Ci 表示第 i 个聚焦区域的坐标,Bij 表示该区域中第 j 个边界框的坐标。

  • 第一步是计算聚焦区域 Ci 与其他聚焦区域之间的交并比(IoU),以找出 Ci 的重叠区域。通过将计算得到的 IoU 应用于阈值,可以获得重叠的聚焦区域。
  • 第二步是将重叠聚焦区域内的边界框坐标剪裁为第 i 个聚焦区域的坐标,并收集面积大于零的边界框。
  • 最后一步是计算剪裁边界框与 Bij 之间的 IoU。如果任何 IoU 分数大于所选的阈值,则抑制 Bij
    聚焦区域的 IoU 阈值是根据实验选择的,一般设为 0.05,边界框的 IoU 阈值也是实验选择的,一般设为 0.5。这些阈值用于确定是否要抑制重叠的边界框,从而最终得到合并后的预测边界框。
3.4.2 Non-max Suppression

在合并聚焦区域之后,会应用非极大抑制(Non-Max Suppression,简称NMS)来抑制重叠的检测结果。一些重叠的聚焦区域可能包含相同的物体,从而导致重复的边界框预测。为了减轻这种情况,会选择具有最高置信度的边界框,并抑制其他边界框。NMS的交并比(IoU)阈值通常选择为0.5。

4 Experimental Results

4.1 Implementation Details

我们基于公开可用的 MMDetection 和 PyTorch 来实现 “Focus&Detect”。在聚焦阶段和检测阶段,我们选择了带有特征金字塔网络的广义焦点损失(Generalized Focal Loss)。在聚焦阶段和检测阶段分别使用了 ResNet-50 和 ResNeXt-101 作为特征提取网络。通过使用NMS和IBS来合并聚焦区域的检测结果以获得最终的预测。

Training phase:聚焦阶段的输入尺寸在每个步骤中从 400 × 1400 随机采样到 1200 × 1400,样本在 VisDrone 数据集上均匀分布。对于 UAVDT 数据集,聚焦阶段和检测阶段的输入尺寸分别从 400 × 1000 随机采样到 800 × 1000 和 400 × 800 随机采样到 800 × 800。翻转增强以概率 0.5 进行。对于聚焦和检测模型,使用带有动量的梯度下降,权重衰减和学习率调度。两个模型均进行了 24 个 epoch 的训练。我们将初始学习率设置为 0.01,在第 16 和 22 个 epoch 时,学习率分别降低到 0.001 和 0.0001。动量的 Beta 参数对两个模型均选择为 0.9。权重衰减的比例为 0.0001。两个模型都使用了同步批归一化(Synchronized Batch Normalization)和组归一化(Group Normalization)在主干网络和特征金字塔网络上。

Testing phase:在使用 VisDrone 数据集进行实验时,聚焦模型和检测模型的输入尺寸分别选择为 1200 × 1400 和 600 × 1000。另一方面,在使用 UAVDT 数据集进行实验时,聚焦模型和检测模型的输入尺寸分别选择为 600 × 1000 和 600 × 800。在合并聚焦区域的检测结果时,应用了 NMS 和 IBS。NMS 的交并比(IoU)阈值为 0.5。在 NMS 之后,应用 IBS 以减少聚焦区域中截断物体造成的假阳性。IBS 的 IoU 阈值分别选择为 0.05 和 0.5,其中第一个阈值用于重叠的聚焦区域,第二个阈值用于在剪裁之后的聚焦区域中重叠的截断物体。

4.2 Dataset and Evaluation Metric && 4.3 Results && 4.4 Ablation Study

略过

5 Conclusion

A two stage framework is proposed to solve small object detection problem in aerial images. The proposed method is region search based where we utilize a Gaussian Mixture Model to generate focal regions for object detection. GMM method has a normalization effect on GT box sizes as cropping and resizing the image to a fixed resolution relatively forces objects to an average size for each class. We also propose the Incomplete Box Suppression (IBS) method to mitigate the truncated box problem that arise while merging the target regions.
Results show that the proposed IBS method improves the detection performances of all classes, especially of small object classes. GMM clustering normalizes the object scales across regions and increases overall performance. Furthermore, our method achieves the state-of-the-art performance on VisDrone validation set and UAVDT test set comparing to other small object detection methods, reported in the literature. Moreover, our method obtains the best APS score among all other methods, which indicates the positive impact of the proposed framework on small object detection

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/54835.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

git介绍+集成到IDEA中+使用gitee

目录 git介绍 本地工作流程 IDEA集git 添加到暂存区 添加到本地仓库 gitee使用 添加到远程仓库 git介绍 git是一个开源的分布式版本控制工具,效率高。可以记录历史代码,多人代码共享 知识小点: 集中式版本控制:使用中央存…

科研 | Zotero导入无PDF的参考文献、书籍

最近在用Zotero在Word中插入参考文献的时候发现,有些没在网上找到对应的PDF版本,但也不是必须要PDF版本的参考文献或者参考书籍,如何才能不影响正常的文献排版 主要是先在网上找到对应文献,书籍,网页等的ISBN&#xf…

Vue2向Vue3过度Vuex核心概念state状态

目录 1 核心概念 - state 状态1.目标2.提供数据3.访问Vuex中的数据4.通过$store访问的语法5.代码实现5.1模板中使用5.2组件逻辑中使用5.3 js文件中使用 2 通过辅助函数 - mapState获取 state中的数据1.第一步:导入mapState (mapState是vuex中的一个函数)2.第二步&am…

Docker容器学习:搭建自己专属的LAMP环境

目录 编写Dockerfile 1.文件内容需求: 2.值得注意的是centos6官方源已下线,所以需要切换centos-vault源! 3.Dockerfile内容 4.进入到 lamp 开始构建镜像 推送镜像到私有仓库 1.把要上传的镜像打上合适的标签 2.登录harbor仓库 3.上传镜…

鸿鹄工程项目管理系统 Spring Cloud+Spring Boot+前后端分离构建工程项目管理系统 em

工程项目管理软件(工程项目管理系统)对建设工程项目管理组织建设、项目策划决策、规划设计、施工建设到竣工交付、总结评估、运维运营,全过程、全方位的对项目进行综合管理 工程项目各模块及其功能点清单 一、系统管理 1、数据字典&#xff…

windows下Qt、MinGW、libmodbus源码方式的移植与使用

windows下Qt、MinGW、libmodbus源码方式的移植与使用 1、前言 libmodbus官网:https://libmodbus.org/ github下载:https://github.com/stephane/libmodbus 截止2023年8月26日时,libmodbus最新版本为3.1.10,本篇博客基于此版本进…

层叠上下文、层叠顺序

原文合集地址如下,有需要的朋友可以关注 本文地址 什么是层叠上下文 层叠上下文(Stacking Context)是指在 HTML 和 CSS 中,用于控制和管理元素层叠顺序以及呈现的一种机制。在一个网页中,许多元素(例如文…

kafka复习:(11)auto.offset.reset的默认值

在ConsumerConfig这个类中定义了这个属性的默认值,如下图 也就是默认值为latest,它的含义是:如果没有客户端提交过offset的话,当新的客户端消费时,把最新的offset设置为当前消费的offset. 默认是自动提交位移的,每5秒…

分析系统 - 使用Python爬虫

在竞争激烈的市场环境中,了解和分析竞争对手的销售策略和市场表现对于企业的成功至关重要。本文将介绍如何利用Python爬虫建立低成本的销售竞争对手分析系统,探索其方法、工具和好处,并同时解决可能出现的问题。 销售竞争对手分析的目标是获取…

STM32--MPU6050与I2C外设

文章目录 前言MPU6050参数电路MPU6050框图 IIC外设框图 IIC的基本结构软件IIC实现MPU6050硬件IIC实现MPU6050 前言 在51单片机专栏中,用过I2C通信来进行实现AT24C02的数据存储; 里面介绍的是利用程序的编程来实现I2C的时序,进而实现AT24C02与…

咸虾米之一些快捷方式的操作,一行方块的左右滑动,方块在一区域内的任意移动

由于本着只学习微信小程序的目的,上面的几篇博文都是跟着黑马程序的课程走的!后面的就讲解uni-app的实验呢!一个人的精力是有限的,于是换了们课程继续深造微信小程序!!! 以下是在 .wxml中的一些…

论文阅读及复现——《CT_ICP: Real-time Elastic LiDAR Odometry with Loop Closure》

论文阅读之——《CT_ICP: Real-time Elastic LiDAR Odometry with Loop Closure》带闭环的实时弹性激光雷达里程计 1. 主要贡献2. 相关说明3. 激光里程计3.1 里程计公式构建3.2 局部地图与健壮性 4. 回环检测与后端5. 实验结果5.1 里程计实验结果5.2 回环检测实验结果 6. 总结…

【黑马头条之热点文章kafkaStream】

本笔记内容为黑马头条项目的热点文章-实时计算部分 目录 一、实时流式计算 1、概念 2、应用场景 3、技术方案选型 二、Kafka Stream 1、概述 2、Kafka Streams的关键概念 3、KStream 4、Kafka Stream入门案例编写 5、SpringBoot集成Kafka Stream 三、app端热点文章…

计算机竞赛 基于大数据的股票量化分析与股价预测系统

文章目录 0 前言1 课题背景2 实现效果3 设计原理QTChartsarma模型预测K-means聚类算法算法实现关键问题说明 4 部分核心代码5 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 基于大数据的股票量化分析与股价预测系统 该项目较为新颖…

GMP原理与调度

GMP原理和调度 1.Golang"调度器"的由来1.1单进程时代不需要调度器1.2多进程/线程时代有了调度器需求1.3协程来提高cpu利用率 1.Golang"调度器"的由来 1.1单进程时代不需要调度器 早期的操作系统每个程序就是一个进程,直到一个程序运行完毕&am…

pandas由入门到精通-数据透视表

采集的数据存储后通常会分为多个文件或数据库,如何将这些文件按需拼接,或按键进行连接十分重要。这节将介绍数据索引的复杂操作如分层索引,stack,unstack,seet_index,reset_index等帮助重构数据,数据的拼接如merge,join,concat,combine_first等帮助连接数据,以及数据透视表…

1.7 【MySQL】常用存储引擎

MySQL 支持非常多种存储引擎,我这先列举一些: 存储引擎 描述 ARCHIVE 用于数据存档(行被插入后不能再修改) BLACKHOLE 丢弃写操作,读操作会返回空内容 CSV 在存储数据时,以逗号分隔各个数据项 FEDE…

微信小程序发布迭代版本后如何提示用户强制更新新版本

在点击小程序发布的时候选择,升级选项 之前用户使用过的再打开小程序页面就会弹出升级弹窗modal

深度学习9:简单理解生成对抗网络原理

目录 生成算法 生成对抗网络(GAN) “生成”部分 “对抗性”部分 GAN如何运作? 培训GAN的技巧? GAN代码示例 如何改善GAN? 结论 生成算法 您可以将生成算法分组到三个桶中的一个: 鉴于标签&#…

火山引擎 DataLeap:从短视频 APP 实践看如何统一数据指标口径

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 短视频正在成为越来越多人发现世界的窗口,其背后的创作者生态建设是各大短视频 APP 不可忽视的重要组成部分。 为了激励更多优质内容生产,某…