复杂背景下无人机影像小目标检测:MPE-YOLO抗遮挡与抗背景干扰设计

目录

一、引言

二、挑战和贡献

密集小目标和遮挡

实时性要求与精度权衡

复杂背景

三、MPE-YOLO模型细节

多级特征集成器(MFI)

感知增强卷积(PEC)

增强范围C2f模块(ES-C2f)

四、Coovally AI模型训练与应用平台

五、实验

消融实验

对比实验

可视化分析

泛化研究

总结


一、引言

无人机航拍技术已广泛应用于城市规划、交通监控、灾害评估等领域。通过自动分析航拍图像中的目标(如车辆、行人、建筑物),我们可以快速获取地理信息、监测城市动态。然而,现有的检测算法在复杂环境下的小目标识别和准确率方面存在不足。针对这一问题,本文提出了一种基于YOLOv8的改进模型,即MPE-YOLO

screenshot_2025-04-27_14-40-57.png

论文题目:

MPE‑YOLO: enhanced small target detection in aerial imaging

论文链接:

https://www.nature.com/articles/s41598-024-68934-2


二、挑战和贡献

在无人机航拍图像中,目标检测面临几个具体的挑战:

  • 密集小目标和遮挡

低空拍摄的图像通常包含大量密集的小目标,尤其是在城市或复杂地形中。由于距离较远,这些目标在图像中显得较小,并且容易被遮挡。例如,建筑物可能相互遮挡,或者树木可能遮挡停放的车辆。这种遮挡会导致目标特征被部分隐藏,从而影响检测算法的性能。即使是先进的检测算法,也难以在高密度和严重遮挡的环境中准确识别和定位所有目标。

  • 实时性要求与精度权衡

无人机航拍图像目标检测必须满足实时性要求,尤其是在监控和应急响应场景中。实现实时检测需要降低算法的计算复杂度,而这往往与检测精度相冲突。高精度检测算法通常需要大量的计算资源和时间,而实时性要求算法能够快速处理海量数据。挑战在于如何在确保实时性的同时保持较高的检测精度。这需要优化网络架构,以有效地平衡参数数量和精度。

  • 复杂背景

航拍图像通常包含大量不相关的背景信息,例如建筑物、树木和道路。背景信息的复杂性和多样性会干扰小物体的正确检测。此外,小物体的特征本身就不那么明显。传统的单阶段和双阶段算法主要关注全局特征,可能会忽略对小物体检测至关重要的细粒度特征。这些算法往往无法捕捉小物体的细节,导致检测精度较低。因此,迫切需要更先进的深度学习模型和算法来处理这些细微的特征,从而提高小物体检测的准确性。

针对上述问题,本研究基于 YOLOv8 模型提出了一种名为 MPE-YOLO 的算法,该算法在保持轻量级模型的同时,提升了小物体的检测精度。

本研究的主要贡献如下:

  • 开发了一个具有分层结构的多级特征集成器 (MFI) 模块,用于合并不同级别的图像特征,从而增强场景理解能力并提高物体检测精度。

  • 提出了一个感知增强卷积 (PEC) 模块,该模块利用多切片操作和通道维度串联来扩展感受野,从而提升模型捕获目标细节信息的能力。

  • 通过结合所提出的增强型范围-C2f (ES-C2f) 操作并引入高效的特征选择和利用机制,进一步增强了特征的选择性使用,有效提高了小物体检测的精度和鲁棒性。

  • 经过与其他各种目标检测模型的全面对比实验,MPE-YOLO 的性能显著提升,证明了其有效性。


三、MPE-YOLO模型细节

2.png

与其他模型相比,YOLOv8s 在准确率和模型复杂度之间取得了平衡。因此,本研究选择 YOLOv8s 作为基线网络。

3.png

如图所示,通过设计多级特征集成器(MFI)模块,优化小目标特征的表示和信息融合,减少特征融合过程中的信息损失。感知增强卷积(PEC)模块的引入取代了传统的卷积层,扩展了网络的细粒度特征处理能力,显著提升了复杂背景下小目标的识别精度。将主干网络中最后两个下采样层和20*20尺寸目标的检测层替换为160*160尺寸小目标的检测层,使模型能够更加关注小目标的细节。最后,通过增强的scope-C2f(ES-C2f)模块,利用通道扩展和多尺度卷积核的堆叠,进一步提升了模型的特征提取效率和运算效率。结合这些改进,MPE-YOLO在复杂环境下的小物体检测任务中取得了良好的表现,并显著提升了模型的准确率和性能。

  • 多级特征集成器(MFI)

4.png

在目标检测任务中,由于尺寸限制,小目标的特征表示往往不清晰,这会导致它们在特征融合过程中被忽略或丢失,从而降低检测性能。为了有效解决这一问题,借鉴Res2Net的结构,设计了一种创新的多级特征集成器(MFI)。MFI模块的结构如图所示,旨在通过一系列细节策略优化小目标的特征表示和信息融合,减少特征信息的丢失,并抑制冗余和噪声。

MFI模块利用卷积操作降低输入特征图的通道维数,从而简化后续计算过程。然后将输入特征图均匀分为4组,分别提取不同层次的语义信息(低层细节+高层语义),最后在通道维度融合,提升对小目标的感知能力。

  • 感知增强卷积(PEC)

5.png

传统的卷积神经网络通常面临诸如感受野固定、上下文信息利用不足以及环境感知受限等挑战。尤其是在小目标检测中,这些限制会显著抑制模型的性能。为了克服这些问题,我们引入了感知增强卷积(PEC),如图所示,这是一个专为骨干网络设计的模块,旨在取代传统的卷积层。PEC的主要优势在于,它在模型提取主要特征的阶段引入了一个新维度,可以显著扩展感受野并更有效地整合上下文信息,从而进一步加深模型对小目标及其环境的理解。

PEC模块将输入特征图切割为4个子块,拼接后压缩通道维度,通过这种精细的空间维度划分,生成的小块在确保信息覆盖均匀的同时,保留了重要的空间信息。为了实现更深层次的特征提取,还结合瓶颈结构强化细节提取,从而进一步提升了特征的计算效率。

  • 增强范围C2f模块(ES-C2f)

6.png

在处理航拍图像中的小目标或低对比度目标时,原YOLOv8的C2f模块对小目标特征表达能力不足,ES-C2f模块专注于提升网络捕捉细节的能力和特征利用效率,尤其是在小目标和低对比度目标的表达方面。通过扩展通道容量和多尺度卷积堆叠,增强对微小目标的敏感度。

ES-C2f模块引入通道扩展策略,该策略致力于通过更广泛的特征表示来增强网络对小目标细节的敏感度,并提高对低对比度目标环境的适应性。为了在兼顾计算效率的同时扩展通道容量,ES-C2f 模块巧妙地集成了一系列压缩层。不仅简化了特征表示,还保留了关键信息的捕获。


四、Coovally AI模型训练与应用平台

如果你也想要使用模型进行训练或改进,Coovally平台满足你的要求!

Coovally平台整合了国内外开源社区1000+模型算法各类公开识别数据集,无论是YOLO系列模型还是Transformer系列视觉模型算法,平台全部包含,均可一键下载助力实验研究与产业应用。

图片

图片

而且在该平台上,无需配置环境、修改配置文件等繁琐操作,一键上传数据集,使用模型进行训练与结果预测,全程高速零代码

图片

具体操作步骤可参考:YOLO11全解析:从原理到实战,全流程体验下一代目标检测

平台链接:https://www.coovally.com

如果你想要另外的模型算法数据集,欢迎后台或评论区留言,我们找到后会第一时间与您分享!


五、实验

批次大小设置为 4 以避免内存溢出,学习率设置为 0.01,采用余弦退火算法调整学习率,随机梯度下降 (SGD) 的动量设置为 0.937,并使用马赛克法进行数据增强。输入图形的分辨率统一设置为 640×640。所有模型共训练 200 个 epoch,训练过程中未使用任何预训练模型,以确保实验的公平性。选择随机权重初始化,确保每个模型的初始权重来自同一分布。表1列出了训练环境配置。

7.png

  • 消融实验

8.png

其中A代表添加MFI模块,B代表改进网络结构,C代表添加PEC模块,D代表添加ES-C2f模块。

  • 仅添加MFI模块:参数量减少0.8M,mAP0.5提升1.6%(达32.9%),模型体积缩减至19.8MB。

  • 叠加网络结构调整:移除冗余检测头,新增160×160小目标检测层,mAP0.5再提升1.8%(达34.7%),但延迟从9ms增至12ms。

  • 引入PEC模块:通过特征切割与通道拼接,mAP0.5提升至35.9%,模型参数量仅增加0.4M。

  • 整合ES-C2f模块:最终mAP0.5达37.0%,参数量4.4M,体积8.7MB,较基线压缩60%以上。

模块的逐级叠加验证了各组件对小目标检测的贡献,MFI优化特征融合,PEC增强细节感知,ES-C2f提升通道表达能力。

  • 对比实验

9.png

10.png

在VisDrone数据集上,观察到最经典的YOLOv5s模型在小目标检测中,mAP0.5准确率为26.8%,APs准确率为7.0%。YOLOv6 的表现略差,mAP0.5 为 26.6%,AP 为 6.7%,但尽管如此,两种方法的性能差异并不大。模型大小和参数数量明显不同,YOLOv6 的模型大小几乎是 YOLOv5 的三倍,参数数量则增加了一倍多。

YOLOX-s 将 mAP0.5 提升至 29.5%,AP 提升至 8.8%,表明检测效果显著提升。然而,这种提升是以模型大小增加(50.4 MB)和参数数量增加(8.9 MB)为代价的。

YOLOv8 和 YOLOv8m。 YOLOv8s 模型的 mAP0.5 准确率和 AP 准确率分别为 31.3% 和 8.2%,表明结构优化带来了显著的提升。YOLOv8m 模型的 mAP0.5 准确率和 AP 准确率分别达到了 35.4% 和 9.8%。

与 YOLO 系列的传统架构相比,RT-DETR-R18 模型的 mAP0.5 和 AP 准确率均取得了较高的分数(35.9% vs. 10.2%),并且它采用了 DETR 架构。

MPE-YOLO在精度与轻量化上实现双重突破,参数量仅为YOLOv8s的40%,但mAP0.5提升5.7%。

  • 可视化分析

11.png

12.png

通过精心挑选图像样本,将基线模型和 MPE-YOLO 模型应用于目标检测。如图所示,在多种场景和挑战性条件下,MPE-YOLO 模型的检测置信度显著优于基线模型。这体现在其识别的目标边界框具有更高的置信度得分,并且这些得分与实际目标更加一致。更重要的是,MPE-YOLO 在降低误报和漏报方面也表现出显著的提升,能够准确识别和识别大多数目标,同时最大限度地减少非目标区域的误识别。此外,即使在阴影或光照条件不佳的情况下,MPE-YOLO 也能实现较低的漏检率。

改进的MPE-YOLO模型展现了其更卓越的特征提取和目标定位能力,体现在它所反映的高响应区域更加集中且强化。该特征在热力图上呈现为更明亮的区域,紧密贴合目标的实际位置和轮廓,表明MPE-YOLO模型能够有效地聚焦重要信号。此外,与基线模型相比,改进模型生成的热力图中目标周围散落的热点更少,从而降低了误检和误报的可能性。

  • 泛化研究

14.png

13.png

通过对表中两个不同的遥感图像数据集RSOD和AI-TOD进行的全面对比测试,MPE-YOLO模型展现了其卓越的泛化能力。测试结果表明,与现有的几种先进目标检测模型相比,MPEYOLO模型在mAP0.5和mAP0.5:0.95两个关键性能指标上表现出较高的准确率,尤其是在平均目标尺寸仅为12.8像素的AI-TOD数据集上。

实验结果表明,MPE-YOLO 具有强大的检测能力,即使在小目标检测场景下也能保持较高的准确率,证明了其在遥感图像分析领域的实用性和有效性。下图显示,YOLOv8 对较小目标的漏检数量显著高于 MPE-YOLO,而 MPE-YOLO 的漏检数量明显较少。

15.png

16.png


总结

MPE-YOLO通过多级特征融合、扩大感受野、增强细节感知三大策略,显著提升了航拍图像中小目标的检测精度,同时保持模型轻量化,适合部署在无人机等资源受限设备。MPE-YOLO的精准表现,为无人机实时监测、灾害救援、智慧城市等场景提供了可靠的技术基石。

欢迎留言交流或私信获取资源,我们也会持续更新相关项目与案例,如果你有想要了解的模型或数据集也可以留言哦,我们会竭尽全力去寻找的!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/78459.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【C++】13.list的模拟实现

首先,我们需要把链表管理起来,也就是把一个个节点管理起来,但是每个节点的信息我们也需要管理,例如节点的前驱指针和后驱指针,以及节点的值,所以我们这里先封装两个类来管理节点和链表。 namespace Ro {te…

TinyVue v3.22.0 正式发布:深色模式上线!集成 UnoCSS 图标库!TypeScript 类型支持全面升级!

我们非常高兴地宣布,2025年4月7日,TinyVue发布了v3.22.0🎉。 本次 3.22.0 版本主要有以下重大变更: 支持深色模式增加基于 UnoCSS 的图标库更丰富的 TypeScript 类型声明支持 XSS 配置 详细的 Release Notes 请参考&#xff1a…

超级创新思路:基于CBAM-Transformer的强化学习时间序列预测模型(Python\matlab实现)

首先声明,该模型为原创!原创!原创!且该思路还未有成果发表,感兴趣的小伙伴可以借鉴!需要完整代码可私信或评论! 本方案可用于医疗、金融、交通、零售、光伏功率预测、估计预测、天气预测、流量预测、故障检测等领域! 目录 首先声明,该模型为原创!原创!原创!且该思…

Apache Sqoop数据采集问题

Sqoop数据采集格式问题 一、Sqoop工作原理二、Sqoop命令格式三、Oracle数据采集格式问题四、Sqoop增量采集方案 Apache Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库&…

Grok发布了Grok Studio 和 Workspaces两个强大的功能。该如何使用?如何使用Grok3 API?

最近Grok又更新了几个功能:Grok Studio 和 Workspaces。 其中 Grok Studio 主要功能包括: 代码执行:在预览标签中运行 HTML 片段、Python、JavaScript 等。 Google Drive 集成:附加并处理 Docs、Sheets、Slides等文件。 协作工…

Vue选项式 API 与组合式 API

选项式 API 与组合式 API 选项式 API 选项式 API 是 Vue 2 中常用的开发方式&#xff0c;在 Vue 3 里依旧得到支持。它把组件逻辑划分为不同的选项&#xff0c;像 data、methods、computed 等。 <template><div><p>Count: {{ count }}</p><button…

SiamMask中的分类分支、回归分支与Mask分支,有何本质差异?

SiamMask中的分类分支、回归分支与Mask分支&#xff0c;有何本质差异&#xff1f; 一、引言二、分支定位与任务目标三、网络结构与感受野设计3.1 分类分支&#xff08;Classification Head&#xff09;3.2 回归分支&#xff08;Regression Head&#xff09;3.3 Mask分支&#x…

threejs学习day02

场景、相机、渲染器 一、创建3D场景 // 引入threejs import * as THREE from three// 创建一个三维场景scene const scene new THREE.Scene();// 给三维场景添加物品 const geometry new THREE.BoxGeometry(100,100,100) // 形状 const meterial new THREE.MeshBasicMat…

K8S Pod 常见数据存储方案

假设有如下三个节点的 K8S 集群&#xff1a; k8s31master 是控制节点 k8s31node1、k8s31node2 是工作节点 容器运行时是 containerd 一、理论介绍 1.1、Volumes 卷 Kubernetes 的卷是 pod 的⼀个组成部分&#xff0c;因此像容器⼀样在 pod 的规范&#xff08;pod.spec&#x…

【MySQL数据库】函数操作

目录 1&#xff0c;日期函数 2&#xff0c;字符串函数 3&#xff0c;数学函数 1&#xff0c;日期函数 样例&#xff1a; 获得年月日 select current_date(); 获取时分秒 select current_time(); 获得时间戳 select current_timestamp(); 在日期的基础上加日期 在2025年4月27…

【每日随笔】文化属性 ① ( 天机 | 强势文化与弱势文化 | 文化属性的形成与改变 | 强势文化 具备的特点 )

文章目录 一、文化属性1、天机2、文化属性的强势文化与弱势文化强势文化弱势文化 二、文化属性的形成与改变1、文化属性形成2、文化属性改变3、文化知识的阶层 三、强势文化 具备的 特点 一、文化属性 1、天机 如果想要 了解这个世界的 底层架构 , 就需要掌握 洞察事物本质 的能…

【Fifty Project - D18】

感觉自己就不是计划星球人&#xff0c;虽然fifty project要求每天早上完成一天的计划&#xff0c;但是对于一个p人脑子&#xff0c;强制自己按照计划行事真的太难了。我也理解在早晨花费时间做好一天的计划有很多好处&#xff0c;但是实际行动起来完成率极低。p人的世界里变动太…

Linux系统编程 day11 锁 (两天没有更新了,中期完就休息了)

锁的注意事项 1、尽量保证锁的粒度&#xff0c;越小越好。(访问共享数据前&#xff0c;加锁&#xff0c;访问结束后立即解锁) 2、互斥锁&#xff0c;本质是结构体&#xff0c;但是可以看成整数&#xff0c;初值为1。(pthread_mutex_init调用成功) 3、加锁&#xff1a; --操作…

【Maven】特殊pom.xml配置文件 - BOM

文章目录 特殊pom.xml配置文件 - BOM一、例子二、注意事项1.特殊的子pom.xml文件2.dependencyManagement 特殊pom.xml配置文件 - BOM 仅用于集中管理项目依赖版本 在 Maven 中&#xff0c;BOM 用于定义一个项目的依赖版本的集合&#xff0c;通常用于管理一组共享的依赖版本。这…

《代码整洁之道》第5章 格式 - 笔记

你应该选择一套管理代码格式的简单规则。如果是团队&#xff0c;应该选择一套团队一致同意采用的简单格式规则。 最重要的原则&#xff1a;一致性&#xff08;Consistency&#xff09;&#xff01; 没有完美的格式规范&#xff0c;但有统一的规范。 整个团队&#xff08;或者…

C++ 类与对象(中)—— 默认成员函数与运算符重载的深度解析:构造函数,析构函数,拷贝构造函数,赋值运算符重载,普通取地址重载,const取地址重载

在 C 中&#xff0c;类的默认成员函数是编译器自动生成的重要机制&#xff0c;合理利用这些函数可以简化代码编写&#xff0c;同时避免资源管理错误。本文将从构造函数、析构函数、拷贝构造函数、赋值运算符重载等核心内容展开&#xff0c;结合具体案例深入解析。 一、默认成员…

【KWDB创作者计划】_企业级多模数据库实战:用KWDB实现时序+关系数据毫秒级融合(附代码、性能优化与架构图)

一、技术背景与行业痛点 1.1 多模数据融合挑战 场景痛点&#xff1a; 工业物联网设备每秒产生百万级传感器数据&#xff08;时序数据&#xff09;。需关联设备档案&#xff08;关系数据&#xff09;生成设备健康报告&#xff0c;传统方案需多数据库跳转&#xff0c;延迟>5…

w~嵌入式C语言~合集4

我自己的原文哦~ https://blog.51cto.com/whaosoft/13870376 一、STM32怎么选型 什么是 STM32 STM32&#xff0c;从字面上来理解&#xff0c;ST是意法半导体&#xff0c;M是Microelectronics的缩写&#xff0c;32表示32位&#xff0c;合起来理解&#xff0c;STM32就是指S…

Multisim使用教程详尽版--(2025最新版)

一、Multisim14前言 1.1、主流电路仿真软件 1. Multisim&#xff1a;NI开发的SPICE标准仿真工具&#xff0c;支持模拟/数字电路混合仿真&#xff0c;内置丰富的元件库和虚拟仪器&#xff08;示波器、频谱仪等&#xff09;&#xff0c;适合教学和竞赛设计。官网&#xff1a;艾…

分布式理论和事务

微服务和分布式 微服务 是一种软件架构风格&#xff0c;它将应用程序拆分成一系列小型、独立的服务&#xff0c;每个服务专注于单一功能&#xff0c;彼此通过轻量级通信机制&#xff08;如 API&#xff09;进行交互。微服务通常是松耦合的&#xff0c;可以独立开发、部署和扩展…