遥感论文 | Scientific Reports | 一种显著提升遥感影像小目标检测的网络!

  • 论文题目:MwdpNet: towards improving the recognition accuracy of tiny targets in high-resolution remote sensing image
  • 论文网址:https://www.nature.com/articles/s41598-023-41021-8

摘要

提出MwdpNet,以提高对高分辨率遥感(HRS)图像中微小目标的识别准确性。提出了一种新颖的多级加权深度感知网络,4个方面

  • 提出了一种多级特征加权融合策略,充分利用浅层特征信息来提高检测性能,特别是对于微小目标。
  • 为了充分描述图像的高级语义信息,实现更好的分类性能,我们设计了一个深度感知模块(DPModule)。
  • 提出了通道注意引导模块(CAGM),用于获取每个尺度的注意特征图,增强微小目标的召回率并更有效地生成候选区域。
  • 我们创建了四个微小目标数据集,并对其进行了比较实验。

结果表明,我们提出的MwdpNet在这四个数据集上的平均精度(mAP)分别达到了87.0%、89.2%、78.3%和76.0%,优于九种主流目标检测算法。我们提出的方法为在HRS图像上检测微小目标提供了一种有效的手段和策略。

背景

在高分辨率遥感(HRS)图像中进行目标检测目前是遥感图像智能解译领域的一个重要研究方向。在HRS图像中准确识别微小目标是遥感图像目标检测的主要任务。然而,在HRS图像中,微小目标仅占据少数像素,具有模糊的特征,并且容易受到背景干扰的影响。这些因素使得现有的网络检测模型难以提取足够的语义信息用于这些目标,导致检测和识别性能差,存在显著的局限性。因此,在HRS图像中检测微小目标仍然是一个重大挑战。

方法

模型总体框架

  • backbone在原有DarkNet53基础上进行了改进,借用了Res2Net33的结构,用分组残差替换了原始的残差结构。(改动见Figure1的f到g)

模块1:Multi‑level feature weighted fusion

  • 首先,图像被送入骨干增强网络,输出不同层级的特征图C = {C1,C2,C3,C4}。
  • C1通过BN和ReLU处理,得到具有恒定大小通道的M1特征图。然后,通过1×1卷积减少C2的通道数,并通过BN、ReLU和双线性插值进行上采样,得到具有不同维度的M2。
  • 上述步骤重复进行,得到M3、M4特征图。

所提出策略的主要思想是加权基础融合特征图的不同维度通道,从而选择融合特征图的重要特征信息。这使得语义特征和早期特征的融合更为有效,并允许充分增强浅层卷积层的语义信息。

模块2:Deeper Perception Module

DPModule主要包括两个步骤。

  • (1) 附近尺度平均:将前一节中获得的浅层增强特征和相邻的卷积层集成在一起,变成一个特征向量,并通过主成分分析进行降维。
  • (2) 浅层增强特征向量和深层特征向量的融合:降维后的浅层增强特征向量和深层特征向量从上到下级联,形成一个新的密集特征向量。

模块3:Channel Attention Guided module

CAGM专注于位置信息,并旨在增强高分辨率遥感(HRS)图像中多层次特征的表示能力。CAGM模块的设计如图所示。

Loss

**损失函数优化:**由于在微小目标和背景之间难以分类困难样本,模型可能面临正负样本不平衡的问题。因此,有必要考虑不同样本对损失的贡献比例,并在损失函数中给予微小目标样本更多的权重。在本文中,损失函数定义为:

其中:pt表示一个样本属于真实标签的概率

数据集

  • 数据集1:基于DOTA数据集,我们选择了小型车辆、小船和飞机作为微小目标。我们手动选择了总共1022张包含小型车辆和飞机类别的图像,其中小型车辆的尺寸范围从24.7×24.7到40.9×40.9,飞机的尺寸范围从37.1×37.1到51.2×51.2。
  • 数据集2:基于VEDAI数据集,我们将包括汽车、露营车、卡车和卡车在内的最小尺寸的车辆合并为一类,并选择尺寸范围从11.5×11.5到18.7×18.7的目标。
  • 数据集3:基于VEDAI数据集,我们评估了9个目标类别(小船、汽车、露营车、飞机、航天飞机、拖拉机、卡车、货车和其他类别)的检测性能。显示的目标尺寸范围从13.5×13.5到24.9×24.9。
  • 数据集4:基于NWPU VHR-10数据集,我们手动选择了包含飞机、小船、坦克和车辆的526张图像。显示的目标尺寸范围从42.28×42.28到48.32×48.32,创建了一个微小目标数据集。每个数据集的详细信息见表1。

实验

  • 评价指标采用常见目标检测指标,如下所示

实验一:

  • 通过输入两种尺寸的图像来评估MwdpNet的性能,其中"m"表示1000×1000的图像,"l"表示2000×2000的图像(例如,SSDm:将1000×1000的图像输入到SSD中)。比较的算法包括单级检测算法(SSD17、RSSD19、FFESSD20、MDSSD37)。SSD使用的骨干网络是VGG16,而RSSD、FFESSD和MDSSD使用ResNet-101。结果如表2所示。

实验二:

  • 基于丰富的经验,作者发现YOLO系列算法在VEDAI数据集上表现良好,因此将我们的模型与它们进行了比较。我们使用两种不同的输入尺寸(512×512和1024×1024)以及单级检测算法(YOLOV421、YOLOV522、YOLOV6-M23)进行了比较性实验。YOLOV4、YOLOV5和YOLOV6-M使用的骨干网络是Darknet-53。结果如表3所示。

实验三:

  • 为了全面评估我们网络的有效性,我们在实验1和实验2中将其与两级检测算法进行了比较,而不是与单级算法。两级算法在识别微小目标方面更为出色,因此我们在数据集3上进行了此实验。实验3的输入图像尺寸设置为1024×1024。比较的算法包括Faster-RCNN15、OHEM38、ION39和R-FCN31。Faster-RCNN、OHEM和ION使用的骨干网络是VGG16,而R-FCN使用的是ResNet-101。结果如表4所示。

实验四:

  • 实验四在数据集4上进行。比较的算法包括RSSD、FFESSD、MDSSD、YOLOV5和YOLOV6-M等单级检测算法,以及Faster-RCNN、OHEM、ION和R-FCN等两级检测算法。结果如表5所示,其中APs、APm

模型复杂度对比

模型消融实验

对比有无DP和**CAGM(图中的CM)**的效果

评价指标随着训练epoch的对比图

特征图可视化热力图

小结

本文提出了一种新颖而有效的 MwdpNet 框架,用于检测高分辨率遥感图像中的微小目标。

  • 设计了一种多层次特征加权融合策略。
  • 引入了深度感知模块(DPModule)和通道注意引导模块(CAGM)到 MwdpNet 中,

可以借鉴两个模块中的思路,提高特征提取的效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/226230.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

connect: Network is unreachable问题解决

第一步:查看ifcfg-ens33配置文件 cd /etc/sysconfig/network-scripts/ cat ifcfg-ens33 发现问题:GATEWAY写错成GATWAY 第二步:修改 vim ifcfg-ens33 第三步:检测是否成功 ping baidu.com 成功!

Mysql 的ROW_NUMBER() 和分区函数的使用 PARTITION BY的使用

Mysql 的ROW_NUMBER() 和分区函数的使用 PARTITION BY的使用 描述: 遇到了一个需求,需要查询用户id和计划id,但是人员id的是重复,我想把人员id去重,支取一个。自然而然的就想到了 SELECT DISTINCT prj_plan.last_mon…

分布式事务--初识Seata和TC部署

1.Seata介绍 Seata是 2019 年 1 月份蚂蚁金服和阿里巴巴共同开源的分布式事务解决方案。致力于提供高性能和简单易用的分布式事务服务,为用户打造一站式的分布式解决方案。 官网地址:Seata | Seata,其中的文档、播客中提供了大量的使用说明…

Python读写arxml文件

文章目录 前言一、XML简介二、XML文件结构三、Python读取xml文件安装ElementTree库读取xml文件四、Python写入xml文件前言 本文主要通过介绍arxml文件,为后续python脚本开发奠定基础。 arxml是AUTOSAR XML的简称,是一个通用的配置/数据库文件,实质是一个xml文件。 ①更规范…

Mysql查询条件为大于时,不走索引失效场景

如下 where a>1 and b2 是不走索引。 因为a>1 , (这里说的是,a是走了索引,但是b没有走,为什么了?因为b只有在a相同时,b才有序,也就是说这个联合索引只用到了一半)的数据是无序的(1 4 1 2)&#xff0…

WGAN 优势小结

我在上一篇博文为什么 GAN 不好训练中,分析了原始 GAN 难以训练的原因,本篇博文将分析下 WGAN 的优势。 1. Wasserstein 距离 W 是指 Wasserstein,Wasserstein 距离又叫Earth-Mover(EM)距离。Wasserstein距离相比KL散…

ubuntu18.04 安装yolov5环境及推理环境

文章目录 1、安装anaconda31.2、环境变量配置1.3、添加/更换 conda 清华源 2、安装pytorch1.63、CUDA安装4、安装cuDNN5、安装tensorRT6、安装opencv4.67、tensorRT部署yolov5模型推理 1、安装anaconda3 官方网网址 https://www.anaconda.com/download#downloads去到下载的文…

心理测试网站源码,知己心理React心理健康测试

源码介绍 React心理健康测试网站源码,帮助需要的人更好地了解自已的心理健康状态和人格特征。 React可以在Vite中启用HMR,并且包含了几人EsLint规则。只需要使用react antd-mobile即可 轻松部署完成。

千梦网创:逮住一闪而过的机会疯狂摩擦

我这个人平时想的就多,睡觉也在想事情,有时候睡觉里想的事情往往都是很纯粹的、很绝妙的,但是经常性一醒过来就忘了,再去回忆怎么也想不起来了。 灵感只在特定的环境下产生,这类环境是不可再生和模拟的。 机会只因特…

【C++11特性篇】盘点C++11中三种简化声明的方式【auto】【decltype】【nullptr】(3)

前言 大家好吖,欢迎来到 YY 滴C系列 ,热烈欢迎! 本章主要内容面向接触过C的老铁 主要内容含: 欢迎订阅 YY滴C专栏!更多干货持续更新!以下是传送门! 目录 一.auto&范围for二.decltyp…

用Python快速从深层嵌套 JSON 中找到特定的 Value

有时候,我们拿到一个JSON数据的时候,会难以看出其逻辑层次结构。 这时候就需要我们进行代码解析了。 代码: import jsondef find_json_value(data_json, value, path""):if isinstance(data_json, dict):for k, v in data_json.…

Web 应用程序性能测试核心步骤

通常大家做web 应用程序的时候会有哪些操作呢?今天就来看看常见的web 应用程序的常见操作。 Web 应用程序性能测试核心步骤 1:识别测试环境。确定物理测试环境和生产环境,以及测试团队可用的工具和资源。物理环境包括硬件、软件和网络配置。…

c语言单向链表

看如下代码,这是一个完整的可运行的c源文件,要注意的点: c语言程序运行不一定需要头文件NULL其实是 (void*)0,把指针赋值成(void*)0,就是防止程序员不想该指针被引用的时候被引用,引用地址为0的值程序会引起系统中断&…

PyQt6 QSpacerItem弹簧控件

锋哥原创的PyQt6视频教程: 2024版 PyQt6 Python桌面开发 视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili2024版 PyQt6 Python桌面开发 视频教程(无废话版) 玩命更新中~共计46条视频,包括:2024版 PyQt6 Python桌面开发 视频教程(无废话版…

00后卷王的自述,我难道真的很卷?

前言 前段时间去面试了一个公司,成功拿到了offer,薪资也从12k涨到了18k,对于工作都还没两年的我来说,还是比较满意的,毕竟一些工作3、4年的可能还没我高。 我可能就是大家说的卷王,感觉自己年轻&#xff…

自动化访客互动:提升网站效益与用户体验的关键优势

在激烈的市场竞争环境中,想抢占市场,获得收益并不容易。每一个订单的完成都要经过一定的销售周期,所以企业可以根据销售周期每个阶段的特点进行优化,留住客户。其中,企业可以在与客户在线互动的过程中,让互…

ShardingSphere-JDBC 和 ShardingSphere-Proxy,你选择哪一个

参考文章 总结: 只使用Java,ShardingSphere-JDBC更好有异构语言的话,ShardingSphere-Proxy 更好混用也挺香

小红书商品详情API:电商助力

一、引言 随着互联网的普及和电商行业的快速发展,消费者对于商品信息的获取方式也在不断变化。小红书作为一款以内容分享为主的社交电商平台,吸引了大量用户。为了满足用户对商品信息的快速获取需求,小红书提供了商品详情API接口。本文将探讨…

Web测试、APP测试常用技巧(错过你一定会后悔)

1. web元素定位七种方式 优先使用的6种 find_element_by_id (返回一个元素)find_element(s)_by_class_name (根据类名获取元素列表)find_element(s)_by_name (根据标签的name属性值返回包含标签对象元素的列表)find_element(s)_by_link_text (根据连接文本获取元素列表)find_…

linux环境安装可操作图库语言Gremlin的图框架HugeGraph

原创/朱季谦 若你还没接触过图数据库,可能看到这个概念时,会比较蒙蔽。 图是什么?图数据库又是什么? 首先,在数据结构中,图是一种由顶点(vertex)集合及顶点间关系集合组成的一种非…