面向卫星遥感的红外微小舰船目标检测方法:MTU-Net

论文简介

空间红外微小舰船检测旨在从地球轨道卫星所拍摄的图像中识别并分离出微小舰船。由于图像覆盖面积极其广大(如数千平方公里),这些图像中的候选目标相比空中或地面成像设备观测到的目标,尺寸更小、亮度更低且变化更多。现有的基于短距离成像的红外数据集和目标检测方法难以很好地适应空间监视任务的需求。为了解决这些问题,作者创建了一个空间红外微小舰船检测数据集(命名为NUDT-SIRST-Sea),包含48幅空间红外图像及17,598个像素级的微小舰船标注。每幅图像覆盖约10,000平方公里的区域,分辨率为10,000×10,000像素。鉴于在这种极具挑战性场景中微小舰船的极端特性(如小、暗、多变),作者在此文中提出了一种多级TransUNet(MTU-Net)模型。具体而言,作者设计了一个视觉Transformer(ViT)与卷积神经网络(CNN)混合编码器来提取多层次特征。首先利用几个卷积层提取局部特征图,随后输入到多层次特征提取模块(MVTM)中,以捕捉远距离依赖关系。此外,作者进一步提出了复制-旋转-缩放-粘贴(CRRP)数据增强策略,加速训练过程,有效缓解了目标与背景样本不平衡的问题。同时,作者设计了FocalIoU损失函数,以同时实现目标定位和形状描述。在NUDT-SIRST-Sea数据集上的实验结果显示,作者的MTU-Net在检测概率、虚警率及交并比等关键指标上,超越了传统方法及现有的基于深度学习的单帧红外小目标(SIRST)检测技术,彰显了其在空间红外微小舰船检测领域的优越性能。

方法介绍

工作贡献可以概括如下:

NUDT-SIRST-Sea是目前最大的带有广泛类别标签的手动注释数据集,专为空间红外检测领域设计。该数据集包含17,598个高精度边界框及像素级注释,旨在支持和评估多种空间红外图像中目标检测器的研发与性能评估。

作者提出了一种新颖的Transformer-CNN混合架构——多级TransUNet(MTU-Net),专为空间红外微小舰船检测设计。借助多级ViT-CNN混合编码器,该架构能有效整合并充分利用微小舰船的远距离依赖关系,通过粗到细的特征提取及多层次特征融合策略,实现特征的全面挖掘。

作者创新性地提出了一种复制-旋转-缩放-粘贴(CRRP)数据增强技术和FocalIoU损失函数,用以缓解前景-背景不平衡问题,并在目标定位与形状描述上实现双赢。

实验结果证实,空间红外微小舰船检测是一项具有挑战性的任务,以往基于地面或空中的SIRST方法难以妥善应对由该任务引入的诸多挑战(如目标极小、亮度极低等)。作者的方法在三项关键评价指标上达到了当前最优水平:检测概率(Pd)、虚警率(Fa)和交并比(IoU),彰显了其在该领域的先进性与实用性。

| NUDT-SIRST-Sea数据集

远大于常规的图像尺寸:与表I中列出的现有SIRST数据集相比,NUDT-SIRST-Sea中的每幅图像覆盖约10,000平方公里的区域,分辨率为10,000×10,000像素,其图像尺寸是NUDT-SIRST、NUST-SIRST和NUAA-SIRST的数千倍之大。如图2(a)所示,如此大幅面的图像包含了更多不同的场景(例如港口、陆地、云层和海洋等)。此外,如此巨大的图像尺寸也带来了更高的计算难度。

图片

更为复杂的背景环境:如图1所示,相比空间红外图像,基于空中或地面的红外图像因覆盖面积有限而显得更为简单。如图2(b)所示,不同的场景(如云朵、微小舰船、港口、陆地以及海面)可以构成更多种类的复杂场景组合。在NUDT-SIRST-Sea数据集中,几种特定场景被视为检测难点,包括:城市内河、云块遮挡、密集目标群以及港口内的目标。这些复杂的场景对检测方法捕捉远距离上下文信息的能力构成了严峻挑战。

图片

多类型疑似目标:如图2(c)所示,作者的NUDT-SIRST-Sea数据集含有丰富多样的疑似目标,包括微小云团、港口集装箱、礁石以及陆地光点等。这些疑似目标在形状与亮度上极易与真实的舰船目标混淆,从而可能引发误报。

图片

极小目标尺寸:如表I所示,NUDT-SIRST-Sea数据集的平均目标尺寸仅为29像素,远小于其他主流SIRST数据集图像中的平均目标尺寸。NUDT-SIRST-Sea数据集的目标与背景比为0.000029%,相比NUDT-SIRST、NUST-SIRST及NUAA-SIRST的目标与背景比,小数百倍。如图2(d)所示,76%的目标在空间图像中所占面积不到0.005%;而其他数据集中的目标在空间图像中所占面积大多超过0.05%。因此,NUDT-SIRST-Sea中极小的目标尺寸使得该数据集比其他数据集更具挑战性。

更暗淡的目标:如表I所示,NUDT-SIRST-Sea数据集相比于其他数据集,目标的平均信噪比(SNR)要低得多。这些现有数据集之间的详细比较如图2(e)所示。像NUDT-SIRST、NUST-SIRST和NUAA-SIRST这样的数据集主要集中在亮度较高的目标上。然而,在NUDT-SIRST-Sea中,超过20%的目标亮度低于0.5。相比之下,在其他基于空中和地面的数据集中,亮度低于0.5的目标占比不足5%。因此,与其它数据集相比,NUDT-SIRST-Sea在检测暗淡目标方面更具挑战性。

多尺度目标:如图2(f)所示,不同类型船只(如大型游轮、中型采油井架和小型游艇)的尺寸变化极大,范围从2像素至500像素不等。鉴于空间红外图像覆盖的广阔区域,不同尺度的目标常在同一场景中同时出现。在同一个场景中检测不同尺度的目标是一项相当具有挑战性的任务。

| MTU-Net

如图3所示,作者的MTU-Net以单幅图像作为输入,依次包含了一个多层次ViT-CNN混合编码器(第四章B节)、一个U形解码器(第四章C节)以及一个八邻域聚类模块(第四章D节),共同作用以生成像素级别的定位与分类结果。

图片

 

数据增强方法

在NUDT-SIRST-Sea数据集中,前景目标与背景的分布极不平衡。这种前景与背景的不平衡问题导致网络更多地关注那些信息量不大的背景区域,从而阻碍了网络的快速收敛。复制粘贴(Copy-Paste, CP)是一种用于实例分割的强大数据增强方法。在此基础上,作者进一步提出了CRRP数据增强方法(即,Copy with Relative and Regional Preservation, CRRP),旨在训练阶段手动增加候选目标的比例,从而加速网络的收敛速度。

相较于仅复制目标本身的CP方法,CRRP数据增强方法不仅复制目标,还复制目标周围的背景区域。这一方式使得CRRP方法能够很好地保留目标自身的信息以及目标与其背景之间的上下文信息。否则,没有上下文依赖关系的支持,一些可疑目标(例如,微小的云朵、港口集装箱、礁石和陆地亮点)可能被错误地识别为目标。因此,相比于CP方法,CRRP在针对基于空间的SIRST检测任务中是一种更合适的数据增强策略,因为它能更准确地模拟和保留实际场景中的目标与背景关系。

如图4(a)所示,作者首先收集目标周边的图像,并随机选取一个目标进行复制。接着,对选中的目标进行随机旋转。之后,将目标随机缩放至作为候选目标的大小。最后,将此候选目标粘贴到图像背景区域中的某个位置。如图4(b)所示,通过这一过程,前景目标与背景的分布不均衡问题得到缓解,并且与先前简单的数据增强方法(如旋转、平移和色彩抖动)相比,训练时间也大大缩短。这种方法通过增加目标实例的数量和多样性,提高了模型对微小舰船这类稀疏且易混淆目标的识别能力,从而促进了模型学习过程的高效性和准确性。

图片

| Focal Loss

Focal Loss专注于难例样本(如小尺度目标、目标边缘及疑似目标),有助于目标定位的精确性。然而,由于在背景中的疑似区域响应过高,Focal Loss可能导致较多的虚警。SoftIoU Loss则侧重于大尺度目标,却忽视了小尺度目标。这是因为相比于小尺度目标,大尺度目标在IoU计算中的贡献更大,这无意中导致了小尺度目标信息的丢失。为了在目标定位与形状描述上实现“双赢”,作者结合了SoftIoU Loss与Focal Loss的优点,提出了FocalIoU Loss。FocalIoU Loss融合了Focal Loss与SoftIoU Loss的优势,既能在背景区域保持较低响应,又专注于小尺度目标。作者提出的FocalIoU损失函数公式如下:

 

如图5(a)所示,低IoU输出的样本会导致FocalIoU损失较高,并使FocalIoU损失急剧下降。当IoU值较小时,表明该图像的整体分割性能较差,此时FocalIoU损失侧重于改善较难但相对简单的样本(例如大尺度目标),而非极度困难的样本,从而促使虚警率(Fa)降低,同时交并比(IoU)有所提升。相反,当IoU值较大时,FocalIoU损失的表现类似于标准的focal loss,更多地聚焦于真正的难题样本,这有助于提高检测概率(Pd)。因此,FocalIoU损失机制通过动态调整对不同类型样本的关注度,实现了在提高检测精度(Pd)和减少误报(Fa)的同时,优化目标轮廓匹配度(IoU),体现了在目标定位与形状描述上的双重优化效果。

图片

实验结果

| 定量分析

图片

图片

图片

| 定性分析

图片

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/33082.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mayavi pyqt 实例

目录 安装: 示例代码: 生成3d检测框: 显示立方体 两个窗口 安装: pip install vtk pip install mayavi pip install PyQt5 pip install pyqt5 mayavi traits traitsui 示例代码: import sys from PyQt5.QtWidg…

如何在Java中实现缓存机制?

如何在Java中实现缓存机制? 大家好,我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿!今天我们将深入探讨在Java应用程序中如何实现高效的缓存机制。缓存是提高…

温湿度采集及OLED显示

目录 软件I2C和硬件I2C每隔2秒钟采集一次温湿度数据,显示到OLED上,同时通过串口发送到上位机的“串口助手”软件 软件I2C和硬件I2C "I2C"代表Inter-Integrated Circuit,是一种用于在数字电路之间进行通信的串行通信协议。软件I2C和…

使用Testcontainers进行Java集成测试

在现代软件开发中,集成测试是确保应用程序与其依赖项(如数据库、消息队列等)正确交互的关键步骤。Testcontainers是一个支持JUnit测试的Java库,它提供了一个简单而强大的方式来创建和管理测试所需的任何Docker容器。本文将详细介绍…

【PythonWeb开发】Flask请求中传递参数到视图函数的方法总结。

在Flask中&#xff0c;传入参数主要有两种常见的方式&#xff0c;即通过GET请求和POST请求。 一、GET请求传递参数 &#xff08;1&#xff09;URL路径中获取 这种类型的参数通常称为路径参数或路由参数&#xff0c;它们是URL路径的一部分&#xff0c;通过尖括号<parameter…

CV每日论文--2024.6.21

1、An Image is Worth More Than 16x16 Patches: Exploring Transformers on Individual Pixels 中文标题&#xff1a;一张图像的价值超过 16x16 的补丁&#xff1a;在单个像素上探索 Transformers 简介&#xff1a;这项工作并非介绍一种新的方法&#xff0c;而是呈现了一项有…

@ControllerAdvice:你可以没用过,但是不能不了解

1.概述 最近在梳理Spring MVC相关扩展点时发现了ControllerAdvice这个注解&#xff0c;用于定义全局的异常处理、数据绑定、数据预处理等功能。通过使用 ControllerAdvice&#xff0c;可以将一些与控制器相关的通用逻辑提取到单独的类中进行集中管理&#xff0c;从而减少代码重…

WinForm 2048

WinForm 2048 是一个基于 Windows 窗体应用程序&#xff08;WinForms&#xff09;实现的经典益智游戏——2048。这个游戏通过简单的滑动或点击操作&#xff0c;将相同数字的方块合并&#xff0c;以生成更大的数字方块&#xff0c;最终目标是创造出一个数字为 2048 的方块。 游…

电商爬虫API的定制开发:满足个性化需求的解决方案

一、引言 随着电子商务的蓬勃发展&#xff0c;电商数据成为了企业决策的重要依据。然而&#xff0c;电商数据的获取并非易事&#xff0c;特别是对于拥有个性化需求的企业来说&#xff0c;更是面临诸多挑战。为了满足这些个性化需求&#xff0c;电商爬虫API的定制开发成为了解决…

【杂记-浅谈IPv6地址】

IPv6地址 一、IPv6地址概述二、IPv6地址结构三、IPv6地址分类四、IPv6地址配置五、IPv6的应用场景 一、IPv6地址概述 IPv6&#xff0c;Internet Protocol version 6&#xff0c;是互联网协议的第六版&#xff0c;旨在克服IPv4地址耗尽的挑战&#xff0c;并为互联网的未来发展提…

Apache Tomcat 10.1.25 新版本发布 java 应用服务器

Tomcat 是一个小型的轻量级应用服务器&#xff0c;在中小型系统和并发访问用户不是很多的场合下被普遍使用&#xff0c;是开发和调试 JSP 程序的首选。对于一个初学者来说&#xff0c;可以这样认为&#xff0c;当在一台机器上配置好 Apache 服务器&#xff0c;可利用它响应对 H…

uniapp 使用uview 插件

看创建项目版本vue2 、 vue3 Button 按钮 | uView 2.0 - 全面兼容 nvue 的 uni-app 生态框架 - uni-app UI 框架 1. npm install uview-ui2.0.36 2. // main.js&#xff0c;注意要在use方法之后执行 import uView from uview-ui Vue.use(uView) // 如此配置即可 uni.$u.c…

服务治理入门

服务治理的生命周期 在微服务架构中&#xff0c;服务治理是确保服务正常运行和高效协作的关键。服务治理的生命周期包括以下五个阶段&#xff1a;服务注册、服务发现、服务续约/心跳、服务被动剔除和服务主动剔除。 服务注册 服务提供者在启动时&#xff0c;需要将其服务信…

Prometheus的infratest、UAT、PRE、PRD分别代表什么

Prometheus的infratest、UAT、PRE、PRD分别代表什么 在Prometheus监控系统中,infratest、UAT、PRE和PRD通常指的是不同阶段的测试环境,分别对应基础设施测试(Infrastructure Test)、用户验收测试(User Acceptance Test)、预生产环境(Pre-production)和生产环境(Produ…

构建RISC-V工具链:基本步骤

在这一节内容中&#xff0c;我们将介绍如何构建一个64位的RISC-V工具链。在这个过程中&#xff0c;我们将编译默认的RISC-V工具链&#xff0c;而不修改指令集。 1. 安装必要的软件包 首先&#xff0c;需要安装一些必要的软件包。在终端中运行以下命令&#xff1a; sudo apt-g…

vue3-cropperjs图片裁剪工具-用户上传图片截取-(含预览视频)

效果图 上传图片弹窗预览 对于这个上传图片样式可以参考 官方原代码 官网传送入口 Upload 上传 | Element Plus (element-plus.org) <template><el-uploadclass"upload-demo"dragaction"https://run.mocky.io/v3/9d059bf9-4660-45f2-925d-ce80ad6…

免费分享一套SpringBoot+Vue电影院售票管理系统【论文+源码+SQL脚本】,帅呆了~~

大家好&#xff0c;我是java1234_小锋老师&#xff0c;看到一个不错的SpringBootVue电影院售票管理系统&#xff0c;分享下哈。 项目视频演示 【免费】SpringBootVue电影院售票管理系统 Java毕业设计_哔哩哔哩_bilibili【免费】SpringBootVue电影院售票管理系统 Java毕业设计…

DriverManager.getConnection用法总结

DriverManager.getConnection用法总结 大家好&#xff0c;我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编&#xff0c;也是冬天不穿秋裤&#xff0c;天冷也要风度的程序猿&#xff01; 在Java编程中&#xff0c;DriverManager.getConnection是一个用于建立与…

《Windows API每日一练》5.5 插入符号

当你向程序中输入文本时&#xff0c;通常会有下划线、竖线或方框指示你输入的下一个字符将出现在屏幕上的位置。你也许认为这是“光标”&#xff0c;但在编写Windows程序时&#xff0c;你必须避免这种习惯。在Windows中&#xff0c;它被称为“插入符号”&#xff08;caret&…

市政道路乙级资质申报的筹备与执行

一、筹备阶段 1. 政策研读与自我评估 详细了解资质标准&#xff1a;仔细阅读最新的资质申报指南和相关法规&#xff0c;明确乙级资质的具体要求&#xff0c;包括企业资本、技术人员配置、过往业绩等。自我评估&#xff1a;对照资质标准&#xff0c;对企业现状进行全面评估&am…