多篇论文介绍-可变形卷积

01 具有双层路由注意力的 YOLOv8 道路场景目标检测方法

01 摘要:

随着机动车的数量不断增加,道路交通环境变得更复杂,尤其是光照变化以及复杂背景都会干扰目标检测算法的准确性和精度,同时道路场景下多变形态的目标也会给检测任务造成干扰,针对这一系列问题,提出了一种YOLOv8n_T方法,在YOLOv8的基础上首先针对骨干网络构建了基于可变形卷积的D_C2f块,强化了特征提取网络对复杂背景下目标的特征学习,更好地适应道路目标复杂多变的情形;其次增加了双层路由注意力模块,以查询自适应的方式去除不相关的区域,留下相关度最高的区域;最后针对道路上行人、交通灯等小目标增加小目标检测层,实验表明,提出的 YOLOv8n_T有效提高了模型在道路场景下的目标检测精度,在BDD100K数据集上的平均精度比原始YOLOv8n提升了6.8个百分点,比YOLOv5n提升了11.2个百分点。

关键词:可变形卷积;道路场景;目标检测;YOLO;注意力机制

02 模块介绍

在道路场景下,车辆行人等目标多样且复杂,由于目标的大小、形状、位置、方向等都育有一定的变化性,因此使用传统的卷积操作往往难以准确地捕获目标的准确位置,甚至可能会导致目标漏检或误检的问题。为了解决上述问题,本文采用 DAI等4提出的可变形卷积网络,重新构建了YOLOv8算法中C2f网络结构来提升网络的检测能力。
        在传统卷积中,每个卷积核都是固定形状的,因此无法处理物体形变的情况。而可变形卷积中,每个卷积核不再是一个固定的矩形,而是由一个基础网格和一组偏移量共同组成的可变形矩形。在进行卷积操作时,可以根据形状偏移量动态地调整卷积核的形态,从而更好地适应物体的形变。

 

02 基于空间注意力和可变形卷积的田间障碍物检测方法

01 摘要

摘要:为了解决传统田间障碍物识别方法依赖人工提取特征,计算耗时较长,难以实现在非结构化田间环境下实时作业识别的问题,提出一种优化的Mask R-CNN模型的非结构化农田障碍物实例分割方法。以ResNet50残差网络为基础,将空间注意力(Spatial attention, SA)引入残差结构,聚焦跟踪目标的显著性表观特征并主动抑制噪声等无用特征的影响;引入可变形卷积(Deformable convolution, DCN),通过加入偏移量,增大感受野,提高模型的鲁棒性。构建包含农田典型障碍物的数据集,通过对比实验研究在ResNet残差网络结构中的不同阶段中加入空间注意力和可变形卷积时的模型性能差异。结果表明,与Mask R-CNN原型网络相比,在ResNet的阶段2、阶段3、阶段5加入空间注意力和可变形卷积后,改进Mask R-CNN的边界框(Bbox)和掩膜(Mask)的平均精度均值(mAP)分别从、64.5%、56.9%提高到71.3%、62.3%。本文提出的改进Mask R-CNN可以很好地实现农田障碍物检测,可为植保无人机在非结构化农田环境下安全高效工作提供技术支撑。
关键词:田间障碍物;Mask R-CNN;空间注意力;可变形卷积

02 模块介绍

        由于非结构化田间障碍物形态各异,面积大小不一,这给障碍物识别任务带来了很大的困难,而且以往的卷积神经网络对整体特征的提取是依靠其固定的卷积结构,对于形态各异的目标特征提取的适应、调节能力较弱,目标识别能力不强,泛化能力差。实际上,传统的神经网络的卷积核通常是固定尺寸、固定大小的(3×3、5×5),难以自适应目标的形状变化[25]。为了解决限制传统卷积神经网络识别能力的这一难题,DAI等126提出了一种可变形卷积网络,替代传统的标准卷积,经研究表明,通过可变形卷积网络增加可训练的偏移量,从而适应目标形状的变化,有利于提高目标检测的鲁棒性[34-36]

        二维卷积的操作步骤为:①在输入特征图x上使用规则网格 R 进行采样;②用 加权的采样值进行求和。 一个 3×3 的卷积为

 

03 改进 YOLOv5 的高精度跌倒检测算法

01 摘要

摘要:针对原始YOLOv5在人体跌倒检测任务中无法有效应对复杂细节捕捉、变形处理、不同尺度目标适应和遮挡检测的困境,提出了一种基于C2D改进YOLOv5模型的新型高精度跌倒检测算法C2D-YOLO。首先,提出了一种名为C2D的新型特征提取模块,通过融合可变形卷积、标准卷积和通道空间混合注意机制,将其添加到主干网络中,旨在增强特征表征能力、更好地捕捉复杂细节和处理变形。其次,在颈部网络中,采用了Swin Transformer Block替代C3模块的瓶颈层,旨在最大限度地保留特征信息,以提升对不同尺度目标的检测精度并改善遮挡情况下的性能。最后,在借鉴YOLOX解耦结构的基础上对Yolov5的Head模块进行改进,旨在优化分类和回归性能。实验结果表明,相比现有的YOLOv5s,该方法的mAPO.5和mAP0.5:0.95分别提高了3.2%和6.5%,明显提升了检测精度,减少了误检率。
关键词: YOLOv5;跌倒检测; C2D; Swim Transformer Block;解耦结构

02 模块介绍

        跌倒检测任务场景具备独特且复杂的特征,包括广泛的姿态变化、丰富的细节以及目标形变。因此,在特征提取阶段仅使用标准卷积会导致一系列问题。首先,仅采用标准卷积( Standard Convolution, sC137)可能未能有效捕捉目标的细粒度细节,尤其是在涉及姿态较大的跌倒动作时,其感受野调整能力有限,导致细节信息的丢失或模糊。其次,标准卷积无法适应目标的形变,无法自适应地调整卷积核的采样位置,导致目标的定位准确性下降,容易产生误检。
        为了适应跌倒检测场景的特点并弥补仅使用标准卷积的不足,在特征提取阶段引入了可变形卷积第二版(Deformable ConvNets version 2,DCNv2[38] ) 。

        DCNv2通过引入可学习的形变参数,具备更强的感受野调整能力,能够更好地捕捉目标的细粒度细节并适应目标的形变。这种模块的引入填补了标准卷积在跌倒检测中的局限性,提升了特征表示能力和目标定位准确性,从而有效提升跌倒检测系统的性能和鲁棒性。这种优化方法能够更准确地检测和识别跌倒事件,提高整个系统在复杂场景下的可靠性。
        可变形卷积DCN是一种改进的卷积操作,通过引入偏移量来调整卷积核的形状,以更好地提取输入特征。DCNv2是对可变形卷积的改进,通过学习偏移和加权,提高了模型从变形物体中提取特征的能力。如图2所示,DCNv2包含两个步骤。首先是偏移量生成:通过卷积操作生成卷积核在输入特征图上沿着x和y方向的采样点偏移量。其次是采样和卷积:利用输入特征图和计算得到的偏移量进行双线性插值,确定卷积核在输入特征图上的采样点位置。最后,利用这些采样点进行卷积操作。

04 改进 YOLOv8 算法的遥感图像目标检测

01 摘要

摘要:针对遥感图像目标检测算法漏检和误检率高、目标定位不精确、无法准确识别目标类别等问题,提出一种改进YOLOv8的目标检测算法。为提高模型的损失函数对梯度分配的灵活性,适应各种形状和尺寸的物体,设计了非单调聚焦机制与边界框几何因素相结合的边界框回归损失函数;为扩大模型的感受野并削弱遥感图像背景对检测目标的影响,采用全局注意力机制与残差块结合的方式,设计了残差全局注意力机制;为使模型适应遥感图像中目标物体的形变与不规则排列,对YOLOv8模型中的C2f模块进行改进,融入可变形卷积与可变形RoI池化层。实验结果表明,在 DOTA数据集和RSOD数据集上,改进YOLOv8算法的mAP@0.5达到72.1%和94.6%,优于其它对比主流算法,提高了遥感图像目标检测的精度,为遥感图像识别提供了新的手段。
关键词目标检测;YOLOv8;WloU;GAM注意力机制;可变形卷积

02 模块介绍

        传统的卷积操作中,卷积核具有固定的像素点的位置,对输入图像的每个位置应用相同的卷积核。而在实际上,不同位置的图像可能具有不同的形变,常规卷积无法适应遥感图像的不规则布局与非刚性形变,因此可能导致遥感目标的特征提取不准确。
        以3*3卷积为例,普通卷积对于每一个输出特征图y,都要从输入特征图进行规则采样,再经过加权计算。其中采样是以中心位置向四周扩散得到的9个点,所得到的网格定义为R,如式( 16)所示

05 基于 SimAM 注意力机制的 DCN-YOLOv5 水下目标检测

01 摘要

摘要:【目的】针对水下环境复杂,水下目标因光线折射等问题导致的目标边界模糊或外观、形状可能会发生非刚性形变,使水下目标检测困难,提出了一种基于SimAM注意力机制的 DCN-YOLOv5水下目标检测方法。【方法】首先,采用YOLOv5所使用的双向金字塔网络(BiFPN, Bi-directional Feature Pyramid Network)在多个尺度上提取和融合特征信息,从而提高目标辨别的准确度;其次,针对水下目标的外观、形状的变化问题,将C3模块中的CBS模块结合可变形卷积(DCN, Deformable Convolution),提出DBS模块并组成D3模块替换部分C3模块,以适应水下目标的外观、形状的变化;同时,融入加权注意力机制(SimAM自适应地调节模型的关注度,进一步在复杂场景下增强特征表达能力;最后,考虑目标边界模糊,为改善目标定位精度,采用WIloU(Wise-loU)损失函数来替换交叉嫡损失,能够更好地适应不同目标类型和尺寸的特点,提高算法鲁棒性。【结果】实验结果表明,DCN-YOLOv5可以达到87.57%的平均精度(mAP),检测效果优于YOLOv5网络和其他经典网络,平均每张图像的识别时间仅为24.5ms。【结论】通过实验结果可以证明模型在检测精度明显提升的同时兼顾检测的实时性,对水下目标检测用于实际用途有着一定的参考价值。
关键词:水下目标检测; SimAM注意力机制;可变形卷积; WloU

02 模块介绍

        深度学习领域中,为了更好地捕捉和建模非刚性形态,Dai等[16提出了可变形卷积(DCN),DCN 通过添加可学习的偏移量的卷积层和全连接层,改进了传统的固定卷积核。这种改进使得模型能够根据不同物体或结构的形状变化来调整卷积核的大小和形状。通过降低模型的复杂性,DCN能够更好地适应图像中的目标,并提高对非刚性变形和遮挡等复杂情况的处理能力。Zhu等[17提出的DCNv2通过更全面地整合可变形卷积的特性,并引入了扩展可变形建模范围的调节机制,进一步提高了可变形卷积模型的建模能力。相比于DCN,DCNv2不仅能够调整感知输入特征的偏移量,还可以调节来自不同空间位置的输入特征的幅度,使得DCNv2在处理自适应能力有限问题方面表现出更好的性能。DCNv2的计算公式如式(2)一式(4)所示。

并获得更准确的像素值。

06 基于 YOLOv5 的无人机航拍改进目标检测算法 Dy-YOLO

01 摘要

摘要:由于无人机航拍具有场景复杂多样,目标尺度变化剧烈,高速低空运动模糊等诸多特性,给目标检测带来了很大的挑战.针对无人机航拍目标检测效果不佳的问题,提出了Dy-YOLO模型,在YOLOv5的基础上引入Dynamic Head注意力,从尺度感知、空间位置、多任务3个角度探索具有注意力机制的预测头潜力;设计了C3-DCN结构和Dymamic Head注意力相互配合增强特征提取能力;此外,还使用SimOTA标签分配方式来弥补小样本的损失,并使用CARAFE ( content-aware ressembly of features)上采样算子,有效增强了不同卷积特征图的融合效果.在VisDrone2019测试集上,Dy-YOLO检测的平均均值精度达到了38.2%,较基线方法YOLOv5提高了7.1%,同时与主流的检测方法相比也取得更高的检测精度.结果表明,Dy-YOLO算法对于无人机航拍检测任务具有较好的性能.
关键词:目标检测;注意力机制; 无人机航拍;YOLOv5;可变形卷积网络
 

02 模块介绍

        Dynamic Head中提到,主干中使用可变形卷积(deformable convolutional network,DCN) [24可以与所提出的动态头部互补,传统的卷积采用固定尺寸的卷积核,在感受野内使用固定的权重进行特征提取,不能很好地适应几何形变,而可变形卷积通过引入额外的可学习参数来动态地调整感受野中不同位置的采样位置和权重,这使得可变形卷积能够在处理具有形变、遮挡或不规则形状的图像时更加有效.但是 DCN 的一大缺陷在于,其采样点经过偏移之后的新位置会超出我们理想中的采样位置,导致部分可变形卷积的卷积点可能是一些和物体内容不相关的部分;DCNv2[2$l则针对偏移干扰问题引入了一种调制机制:

07 改进DenseNet 在抽油井示功图故障诊断的研究

01 摘要

摘要:油田开采主要采用有杆抽油机。对其进行故障检查采用的主要是人工方法,不仅耗费大量的人力和财力,而且识别结果易受到经验因素影响。示功图可以反映有杆抽油机井的工作状态,可用于抽油机故障类型检测。因此,本文提出了一种基于DenseNet注重动态调整特征提取的模型来进行示功图分类,在传统卷积神经网络的基础上加入可变形卷积,使用Focal-Loss 损失函数替代交叉嫡损失函数,通过Adam优化算法加快网络的收敛速度,实现了12种工况模式的识别。关键词深度学习;图像分类;示功图;密集连接卷积网络

02 模块介绍

        与传统模型相比,DenseNet-DC 模型构建了更加注重动态调整特征提取的网络结构:摒弃传统模 型 3 × 3 密集层卷积设计,将其替换为可变形卷积,针对不同输入,动态调整感受野,更有利于网络的训练和学习。可变形卷积模块中对于输出的特征图P上的点xo定义为公式(1):

\

08  一种基于深度学习模型的无人机巡检输电线路山火检测方法

01 摘要

摘要:输电巡检图像的背景复杂,目标检测易受干扰,基于YOLOX神经网络模型,提出一种输电线路山火检测方法。首先采用YOLOX的主干特征提取网络框架,并将其中多尺度特征提取模块的常规卷积替换为可变形卷积;其次在加强特征提取阶段增加了通道注意力和空间注意力模块的融合,能够自适应火焰的外形多变特点,更加有效地提取到山火特征,从而提高目标检测的准确率。经实验验证,所提方法能够较为准确地检测到山火,满足日常巡检的需求。
关键词:输电线路巡检;山火识别;神经网络;目标检测; YOLOX

02 模块介绍

        在 YOLOX 网络中,多尺度特征由空间金字塔池化模块提取。该模块采样的区域是固定的形状,其限制了网络对烟火的识别能力。可变形卷积网络l5l将常规卷积修改为可变形卷积。常规标准卷积核为固定方形,而可变形卷积为每个卷积的采样点加上了一个偏移量,当偏移为小数时,需要通过双线性插值⒁变换将所有新的采样点聚集起来形成新的特征图,保证空间分辨率不变。可变卷积的引入使得感受野的形状不再固定,可以更好地匹配山火燃烧时外形变化的特点。基于可变形卷积,本文修改了多尺度特征提取模块。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/159244.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

浅谈低压绝缘监测及定位系统在海上石油平台的研究与应用

安科瑞 华楠 摘要:海上石油平台低压系统与陆地电力系统有很大区别,其属于中性点绝缘系统,在出现单相接地故障时,系统允许带故障正常运行2 h,保证海上重要电气设备不会立即关停。现以渤海某海上平台为例,其…

可上手 JVM 调优实战指南

文章目录 为什么要学 JVM一、JVM 整体布局二、Class 文件规范三、类加载模块四、执行引擎五、GC 垃圾回收1 、JVM内存布局2 、 JVM 有哪些主要的垃圾回收器?3 、分代垃圾回收工作机制 六、对 JVM 进行调优的基础思路七、 GC 情况分析实例八、最后总结 全程可上手JVM…

steam游戏找不到steam_api64.dll,分享三个有效的解决方法

在现代科技发展的时代,游戏已经成为了许多人生活中不可或缺的一部分。而Steam作为全球最大的数字发行平台之一,拥有着庞大的游戏库和活跃的用户群体。然而,在使用Steam时,有些用户可能会遇到Steam_api64.dll丢失的问题&#xff0c…

我在Vscode学OpenCV 几何变换(缩放、翻转、仿射变换、透视、重映射)

几何变换指的是将一幅图像映射到另一幅图像内的操作。 cv2.warpAffine:使用仿射变换矩阵对图像进行变换,可以实现平移、缩放和旋转等操作。cv2.warpPerspective:使用透视变换矩阵对图像进行透视变换,可以实现镜头校正、图像纠偏等…

Positive证书:最便宜的SSL证书

在当今数字化的时代,网上交易和信息传输已经成为我们生活中不可或缺的一部分。然而,随着网络犯罪的增加,确保在线信息的安全性变得尤为重要。Positive证书作为一种经济实惠的数字证书,在提供有效安全性的同时,为用户提…

C# Onnx 特征匹配 DeDoDe 检测,不描述---描述,不检测

目录 介绍 效果 模型信息 项目 代码 下载 介绍 github地址:https://github.com/Parskatt/DeDoDe DeDoDe 🎶 Detect, Dont Describe - Describe, Dont Detect, for Local Feature Matching The DeDoDe detector learns to detect 3D consisten…

Redis主从,缓存击穿,雪崩,哨兵等问题

Redis的性能管理: Redis的数据缓存在内存当中 INFO memory used_memory:853808 Redis中数据占用的内存 used_memory_rss:3715072 Redis向操作系统申请的内容 used_memory_peak:853808 Redis使用的内存的峰值 系统巡检:硬件巡检,数据库…

解析IBM SPSS Statistics 26 forMac/win中文版:全面统计分析解决方案

作为一款强大的统计分析软件,IBM SPSS Statistics 26(spss统计软件)在全球范围内被广泛使用。无论是学术研究、市场调研还是商业决策,SPSS统计软件都能提供全面的解决方案,帮助用户快速、准确地分析数据。 首先&#…

第二证券:什么是权重股?权重股可以长期持有吗?

权重版块是指该版块股票市值巨大,在股票总市值中的比重很大(即权重很大),其涨跌对股票指数的影响很大的一个版块,比方,商场上的证券、钢铁、银行、保险、石油等板块的个股。 权重股适合长时间持有&#xf…

Mac- Iterm 2 (替换mac terminal 终端的下一代终端工具)

1.应用场景 主要用于macOS中作为终端工具使用, 执行终端命令, Iterm 2 (替换mac terminal 终端的下一代终端工具) 2.学习/操作 1.文档阅读 chatgpt & 其他资料 2.整理输出 2.1 是什么 Iterm 2 (替换mac terminal 终端的下一代终端工具) 2.2 为什么需要「应用场景」 macOS…

skywalking中gateway的拓扑图没有出现

背景: 刚开始的时候gateway没有出现,后来百度说添加插件的jar包, apm-spring-cloud-gateway-2.1.x-plugin-8.15.0.jar apm-spring-webflux-5.x-plugin-8.15.0.jar 然后解决了gateway节点出来了, 但是:拓扑图却是User指…

利用NVIDIA DALI读取视频帧

1. NVIDIA DALI简介 NVIDIA DALI全称是NVIDIA Data Loading Library,是一个用GPU加速的数据加载和预处理库,可用于图像、视频和语音数据的加载和处理,从而为深度学习的训练和推理加速。 NVIDIA DALI库的出发点是,深度学习应用中…

文心大模型商业化领跑,百度在自我颠覆中重构生长力

随着科技巨头竞逐AI大模型,人工智能技术成为今年最受瞩目的新技术。但是,AI大模型的创新之路,还缺少一个足够有力的商业化答案。 作为全球最先发布大模型的互联网大厂,百度能否加速大模型的应用落地,以及文心大模型能…

C++ Boost 实现异步端口扫描器

端口扫描是一种用于识别目标系统上哪些网络端口处于开放、关闭或监听状态的网络活动。在计算机网络中,端口是一个虚拟的通信端点,用于在计算机之间传输数据。每个端口都关联着特定类型的网络服务或应用程序。端口扫描通常是网络管理员、安全专业人员用来…

springboot项目中获取业务功能的导入数据模板文件

场景: 在实际业务场景中,经常会遇到某些管理功能需要数据导入共功能,但既然是导入数据,肯定会有规则限制,有规则就会有数据模板,但这个模板一般是让客户自己下载固定规则模板,而不是让客户自己随便上传模板。下面介绍直接下载模板 一、下载模板示例 1、在项目的…

Mysql查看Binlog文件

前期准备 检查是否开启binlog mysql> SHOW VARIABLES LIKE log_bin; // 或者 mysql> SHOW VARIABLES LIKE log%;ON代表开启,OFF代表关闭。如为OFF需 开启 后才能查看,但只能查看开启之后时间点的。 查看binlog文件有哪些 一般yum安装的mysql…

Program Header Table(转载)

程序头表与段表相互独立,由ELF文件头统一管理。 程序头表负责ELF文件从文件到加载后映像的映射关系,一般只有可执行文件包含。 1. segment和section segment: 程序头表项描述的对象称为segment,即elf文件加载后的数据块; 它提供…

微服务开发中,使用AOP和自定义注解实现对权限的校验

一、背景 微服务开发中,暴露在外网的接口,为了访问的安全,都是需要在http请求中传入登录时颁发的token。这时候,我们需要有专门用来做校验token并解析用户信息的服务。如下图所示,http请求先经过api网关,网…

[点云分割] 欧式距离分割

效果&#xff1a; 代码&#xff1a; #include <iostream> #include <chrono>#include <pcl/ModelCoefficients.h> // 模型系数的定义 #include <pcl/io/pcd_io.h> #include <pcl/point_types.h> // 各种点云数据类型 #include <pcl/sample_c…

java“贪吃蛇”小游戏

基于java实现贪吃蛇小游戏&#xff0c;主要通过绘制不同的图片并以一定速度一帧一帧地在窗体上进行展示。 我是在javaSwing项目下创建了一个包 名字叫做&#xff1a;Snakes包 包下有一个启动类和一个设置代码的主界面两个类 代码主界面&#xff1a; 代码主界面主要讲解的是 …