YOLOv8最新改进系列:融合DySample超轻量动态上采样算子,低延迟、高性能,目前最新上采样方法!!!遥遥领先!

YOLOv8最新改进系列:融合DySample超轻量动态上采样算子,低延迟、高性能,目前最新上采样方法!!!遥遥领先!

DySample超轻量动态上采样算子全文戳这!here!

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

YOLOv8最新改进系列:融合DySample超轻量动态上采样算子,低延迟、高性能,目前最新上采样方法!!!遥遥领先!

  • YOLOv8最新改进系列:融合DySample超轻量动态上采样算子,低延迟、高性能,目前最新上采样方法!!!遥遥领先!
  • 摘要
  • 1 简介
  • 2 相关工作
  • 3.学习采样和上采样
  • 4 结论
  • 9 修改步骤!
    • 4.1 修改YAML文件
    • 4.2 新建.py
    • 4.3 修改tasks.py
  • 三、验证是否成功即可


arge Separable Kernel Attention: Rethinking the
Large Kernel Attention Design in CNN(提出原文戳这)

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!
截止到发稿时,B站YOLOv9最新改进系列的源码包,已更新了11种的改进!自己排列组合2-4种后,考虑位置不同后可排列组合上千种!!专注AI学术,关注B站博主:Ai学术叫叫兽er!

摘要

我们介绍DySample,一个超轻量和有效的动态上采样器。虽然最近基于内核的动态上采样器(如CARAFE、FADE和SAPA)的性能提升令人印象深刻,但它们带来了大量的工作负载,主要是由于耗时的动态卷积和用于生成动态内核的额外子网络。此外,对高特征指导的需求在某种程度上限制了它们的应用场景。为了解决这些问题,我们绕过动态卷积并从点采样的角度制定上采样,这更节省资源,并且可以很容易地使用PyTorch中的标准内置函数实现。我们首先展示了一个朴素的设计,然后演示了如何逐步加强其上采样行为,以实现我们的新上采样器DySample。与以前基于内核的动态上采样器相比,DySample不需要定制CUDA包,并且具有更少的参数、FLOPs、GPU内存和延迟。除了轻量级的特点,DySample在五个密集预测任务上优于其他上采样器,包括语义分割、目标检测、实例分割、全视分割和单目深度估计。

1 简介

特征上采样是密集预测模型中逐渐恢复特征分辨率的关键因素。最常用的上采样器是最近邻(NN)和双线性插值,它们遵循固定的规则来插值上采样值。为了增加灵活性,在一些特定任务中引入了可学习的上采样器,例如,实例分割中的去卷积[13]和图像超分辨率中的像素混洗场景(高分辨率功能必须可用)。与早期的普通网络不同,多尺度特征经常用于现代架构中;因此,作为上采样器输入的高分辨率特征可能不是必要的。例如,在特征金字塔网络(FPN)[23]中,高分辨率特征将在上采样后添加到低分辨率特征中。因此,我们认为设计良好的单输入动态上采样器就足够了。考虑到动态卷积引入的繁重工作量,我们绕过基于内核的范例并返回到上采样的本质,即,点采样,以重新制定上采样过程。具体来说,我们假设输入的功能是内插到一个连续的双线性插值,并产生内容感知的采样点重新采样的连续地图。从这个角度来看,我们首先提出了一个简单的设计,其中逐点偏移由线性投影生成,并用于使用PyTorch中的网格采样函数重新采样点值。然后,我们展示了如何通过i)控制初始采样位置,ii)调整偏移量的移动范围,iii)将上采样过程划分为几个独立的组来逐步改进它,并获得我们的新上采样器DySample。在每一步,我们解释为什么需要调整,并进行实验,以验证性能增益。与其他动态上采样器相比,DySample i)不需要高分辨率的引导功能作为输入,ii)也不需要PyTorch以外的任何额外CUDA包,特别是iii)具有更少的推理延迟,内存占用,FLOP和参数数量,如图1和图8所示。例如,在以MaskFormer-SwinB [8]为基线的语义分割上,DySample比CARAFE的性能提高了46%,但只需要CARAFE的3%的参数和20%的FLOP。由于高度优化的PyTorch内置函数,DySample的推理时间也接近双线性插值(6.2 ms vs. 1.6 ms,当对256 × 120 × 120特征图进行上采样时)。除了这些吸引人的轻量级特性外,DySample在五个密集预测任务(包括语义分割、对象检测、实例分割、全景分割和单眼深度估计)上的性能优于其他上采样器。简而言之,我们认为DySample可以安全地取代现有密集预测模型中的NN/双线性插值,不仅是有效性,而且是效率。

图1.比较不同上采样器的性能、推理速度和GFLOP。圆圈的大小表示GFLOP的成本。通过对尺寸为256×120×120的特征图进行×2上采样来测试推理时间。使用SegFormer-B1 [40]在ADE 20 K数据集[42]上测试mIoU性能和其他GFLOP。
图1.比较不同上采样器的性能、推理速度和GFLOP。圆圈的大小表示GFLOP的成本。通过对尺寸为256×120×120的特征图进行×2上采样来测试推理时间。使用SegFormer-B1 [40]在ADE 20 K数据集[42]上测试mIoU性能和其他GFLOP。

2 相关工作

我们回顾了深度学习中的密集预测任务、特征上采样算子和动态采样。密集预测任务。密集预测是指需要逐点标签预测的任务的分支,例如语义/实例/全景分割[2,39,40,8,7,13,11,16,19],对象检测[33,4,24,36]和单眼深度估计[38,18,3,21]。不同的任务往往表现出不同的特点和困难。例如,在语义分割中很难预测平滑的内部区域和尖锐的边缘,在实例感知任务中也很难区分不同的对象。在深度估计中,具有相同语义含义的像素可能具有相当不同的深度,反之亦然。人们经常需要为不同的任务定制不同的架构。虽然模型结构各不相同,但上采样算子是密集预测模型中的重要组成部分。由于主干通常输出多尺度特征,因此低分辨率特征需要上采样到更高的分辨率。因此,一个轻量级的,有效的上采样器将有利于许多密集的预测模型。我们将展示我们新的上采样器设计为SegFormer [40]和MaskFormer [8]带来了一致的性能提升,用于语义分割,用于对象检测的Faster R-CNN [33],例如分割的Mask R-CNN [13],用于全景分割的Panoptic FPN [16],以及用于单目深度估计的DepthFormer [21],同时引入可忽略不计的工作量。功能上采样。常用的特征上采样器是NN和双线性插值。它们应用固定的规则来插值低分辨率特征,忽略了特征图中的语义含义。SegNet [2]在语义分割中采用了最大解池来保留边缘信息,但噪声和零填充的引入破坏了平滑区域的语义一致性。与卷积类似,一些可学习的上采样器在上采样中引入了可学习的参数。例如,反卷积以卷积的相反方式对特征进行上采样。Pixel Shuffle [34]使用卷积提前增加通道数,然后重塑特征图以提高分辨率。最近,一些动态上采样算子进行内容感知上采样。CARAFE [37]使用子网络来生成内容感知的动态卷积核来重新组装输入特征。FADE [29]提出将高分辨率和低分辨率特征联合收割机来生成动态内核,以便使用高分辨率结构。SAPA [30]进一步引入了点关联的概念,并计算高分辨率和低分辨率特征之间的相似性感知内核。作为模型插件,这些动态上采样器增加了比预期更多的复杂性,特别是对于需要高分辨率特征输入的FADE和SAPA。因此,我们的目标是提供一个简单,快速,低成本和通用的上采样器,同时保留动态上采样的有效性特征图,作为标准网格采样的替代。Dai等人。[9]和Zhu等人。[43]提出了可变形卷积网络,其中标准卷积中的矩形窗口采样被移位点采样取代。Deformable DETR [44]遵循这种方式,对与某个查询相关的关键点进行采样,以进行可变形注意。当图像被下采样到低分辨率时,也会发生类似的做法,用于内容感知的图像增强,也称为缝刻[1]。例如,在一个示例中,Zhang等人。[41]提出学习使用显着性指导对图像进行下采样,以保留原始图像的更多信息,Jin等人。[15]还设置了一个可学习的变形模块来对图像进行下采样。与目前基于核的上采样器不同,我们将上采样的本质解释为点重采样。因此,在特征上采样中,我们倾向于遵循与上述工作相同的精神,并使用简单的设计来实现强大而高效的动态上采样器。

3.学习采样和上采样

详细的方法介绍看全文即可,链接在文首!

4 结论

我们提出了DySample,一个快速,有效,通用的动态上采样器。与一般的基于核函数的动态上采样不同,DySample是从点采样的角度进行设计的。我们从一个简单的设计开始,并展示如何从我们对上采样的深刻见解中逐步提高其性能。与其他动态上采样器相比,DySample不仅报告了最佳性能,而且摆脱了定制的CUDA包,消耗了最少的计算资源,在延迟,训练内存,训练时间,GFLOPs和参数数量方面表现出优越性。对于未来的工作,我们计划将DySample应用于低级别任务,并研究上采样和下采样的联合建模。

9 修改步骤!

4.1 修改YAML文件

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

4.2 新建.py

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽er 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

4.3 修改tasks.py

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽er 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

三、验证是否成功即可

执行命令

python train.py

改完收工!
关注B站:Ai学术叫叫兽er
从此走上科研快速路
遥遥领先同行!!!!

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽er 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/819594.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在EC2上面安装Skywalking9.7.0

问题 前几天在k8s集群安装了skywalking,说什么这种方式不行,客户要求单独在一台linux机器安装skywalking。现在我们来解决这个问题。 步骤 # 移动到/opt目录 cd /opt # 下载apm安装包 sudo wget https://dlcdn.apache.org/skywalking/9.7.0/apache-sk…

超越GPT-4V!马斯克发布Grok-1.5 With Vision

在 Grok-1 开源后不到一个月,xAI 的首个多模态模型就问世了。Grok-1.5V是XAI的第一代多模态模型,除了其强大的文本处理能力之外,Grok现在还能够处理包括文档、图表、图形、屏幕截图和照片在内的各种视觉信息。相信Grok-1.5V将很快提供给现有的…

ViT——nlp和cv进行了统一,使多模态成为可能

题目:AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE 1.概述之前的transformer在cv中应用,大部分是将CNN模型中部分替换成transformer block(整体网络结构不变)或者用transformer将不同网络连接起来,而本文提出:一个针对图像patch的纯的t…

WebShell简介

WebShell简介 1、WebShell分类 • JSP类型 • ASP类型 • PHP类型 2、WebShell用途 • 站长工具 • 持续远程控制 • 权限提升 • 极强隐蔽性 3、WebShell检测方法 • 基于流量的 WebShell 检测 • 基于文件的 WebShell 检测 • 基于日志的 WebShell 检测 WebShe…

看到这12这个登录页,我感觉自己的很多登录白设计啦。

登录页是B端系统的脸面,它是B端系统的入口,是用户与系统之间的第一道门槛。登录页的设计直接影响用户对系统的第一印象,因此登录页的设计应该简洁、清晰、易于使用,并且能够符合用户的需求和期望。

深度学习框架

深度学习框架 1 引言 在当今技术加速发展的时代,深度学习已经成为了人工智能领域内最为引人注目的子领域之一。其在图像识别、自然语言处理、自动驾驶等多个行业中的成功应用,已经证明了深度学习在解决复杂问题方面的巨大潜力。然而,深度学习…

航芯通用MCU技术常见问题 | F4专题

日常工作中,我们的销售或技术工程师经常会收到来自用户的问题,其中一些问题是比较常见的,所以为满足日常用户对航芯产品使用及服务的了解,航芯特此推出“通用MCU技术常见问题”专题,分为F0专题及F4专题,欢迎…

32单片机入门持续更新中

配套资料为野火霸道V2 初识 STM32 4.1 什么是 STM32 STM32,从字面上来理解,ST 是意法半导体,M 是 Microelectronics 的缩写,32 表示 32 位,合起 来理解,STM32 就是指 ST 公司开发的 32 位微控制器。在如今…

如何在Vue3中使用H.265视频EasyPlayer.js流媒体播放器?

H5无插件流媒体播放器EasyPlayer属于一款高效、精炼、稳定且免费的流媒体播放器,可支持多种流媒体协议播放,可支持H.264与H.265编码格式,性能稳定、播放流畅,能支持WebSocket-FLV、HTTP-FLV,HLS(m3u8&#…

【开源鸿蒙】调试OpenHarmony轻量系统QEMU RISC-V版本

【开源鸿蒙】调试OpenHarmony轻量系统QEMU RISC-V版本 一、准备工作1.1 编译OpenHarmony源码1.2 确认OHOS_Image已生成1.3 确认OHOS_Image文件是否有调试信息1.4 检查config.gni文件是否有-g编译选项 二、GDB调试2.1 启动QEMU模拟器2.2 启动GDB调试器2.3 连接QEMU模拟器2.4 使用…

性能优化-02

uptime 依次显示当前时间、系统运行时间以及正在登录用户数,最后三个数字依次则是过去1分钟、5 分钟、15 分钟的平均负载(Load Average) 平均负载是指单位时间内,系统处于可运行状态和不可中断状态的平均进程数,也就是平均活跃进程数&#xf…

Vue3(四):Pinia

一、Pinia介绍 Pinia是一个专门为Vue.js设计的状态管理库,它提供了一种简单和直观的方式来管理应用程序的状态。在使用Pinia时,可以轻松地创建定义状态的存储,然后将其与Vue组件绑定,使它们能够使用该状态。和上一个博客提到的Vu…

【小程序】生成短信中可点击的链接

文章目录 前言一、如何生成链接二、仔细拜读小程序开发文档文档说明1文档说明2 总结 前言 由于线上运营需求,需要给用户发送炮轰短信,用户通过短信点击链接直接跳转进入小程序 一、如何生成链接 先是找了一些三方的,生成的倒是快速&#xf…

TVS参数、选型、对比

https://www.kdocs.cn/l/cpz6hHr7GRlh VRWM (Reverse working voltage) TVS 的最高工作电压,可连续施加不引起 TVS 劣化或损坏的最高工作峰值电压或直流峰值电压。 对于交流电压,用最高工作电压有效值表示,在VRWM 下&a…

科技助力上亿用户隐私安全保护,合合信息两款产品再获CCIA PIA星级标识

随着互联网技术的飞速发展,个人信息的收集、存储、使用和传输变得日益频繁,其泄露和滥用的风险也随之增加,个人信息保护已成为社会共同关注的热点议题。近期,“中国网络安全产业联盟(CCIA)数据安全工作委员…

【Windows】SecureCRT v9.2.3永久使用教程亲测可用

​ 软件介绍 SecureCRT 是一款常用的 SSH(安全外壳协议)和 Telnet 客户端软件,主要用于远程服务器管理和网络设备配置。它具有以下主要功能: 1.安全连接:SecureCRT 提供了强大的加密算法,保障用户与服务…

建立时间/保持时间为负是什么情况

目录 建立时间为负保持时间为负参考 在说明建立时间和保持时间为何为负的情况下,首先可以看看建立时间Tsu和保持时间Th的由来,可参考如下两篇文章: 建立时间和保持时间理解_为什么要满足建立时间和保持时间-CSDN博客 ic基础|时序篇&#xff…

GPT的使用

个人笔记(整理不易,有帮助点个赞) 笔记目录:学习笔记目录_pytest和unittest、airtest_weixin_42717928的博客-CSDN博客 个人随笔:工作总结随笔_8、以前工作中都接触过哪些类型的测试文档-CSDN博客 网站sms-activate.or…

Linux知识点(3)

文章目录 11. 进程间通信11.1 管道11.1.0 |11.1.1 匿名管道11.1.2 命名管道11.1.3 用匿名管道形成进程池 11.2 system V共享内存11.2.1 system V函数11.2.2 system 命令 11.3 system V消息队列11.4 system V 信号量 12. 进程信号12.1 前台进程和后台进程12.1.1 jobs12.1.2 fg &…

哈尔滨等保测评之什么是linux及快捷方式,看完这篇你还有什么不懂得嘛?

Linux 的学习对于一个程序员的重要性是不言而喻的。前端开发相比后端开发,接触 Linux 机会相对较少,因此往往容易忽视它。但是学好它却是程序员必备修养之一。 什么是Linux Linux 系统内核与 Linux 发行套件的区别 Linux 系统内核指的是由 Linus Torva…