【YOLOv8改进[注意力]】YOLOv8添加DAT(Vision Transformer with Deformable Attention)助力涨点

目录

一 DAT

二 YOLOv8添加DAT助力涨点

1 总体修改

2 配置文件

3 训练

其他


一 DAT

官方论文地址:https://openaccess.thecvf.com/content/CVPR2022/papers/Xia_Vision_Transformer_With_Deformable_Attention_CVPR_2022_paper.pdf

Transformers最近在各种视觉任务上表现出色。这个大的,有时甚至是全局的,感受野赋予了Transformer模型比它们的同行CNN模型具有更高的表示能力。然而,单纯地扩大接受野也会引起一些问题。一方面,在ViT中使用密集关注会导致过多的内存和计算成本,并且特征可能受到超出兴趣区域的不相关部分的影响。另一方面,PVT或Swin Transformer中采用的稀疏关注是数据不可知的。为了解决这些问题,本文提出了一种新的可变形自注意力模块其中自注意力中的键和值对的位置以根据数据需要的方式选择。这种灵活的方案使自注意力模块能够专注于相关区域并捕获更多信息特征。在此基础上,提出了一种具有可变形注意力的通用backbone模型——Deformable Attention Transformer,用于图像分类和密集预测任务。通过广泛的试验, 结果表明,模型在综合基准上取得了持续改进的结果。

官方代码地址:GitHub - LeapLabTHU/DAT: Repository of Vision Transformer with Deformable Attention (CVPR2022) and DAT++: Spatially Dynamic Vision Transformerwith Deformable Attention

本文提出了一种Deformable Attention Transformer,它是一种新型的分层视觉Transformer,可以同时适应图像分类和密集预测任务,即插即用。利用可变形的注意力模块,模型能够以数据依赖(关注重要的区域)的方式学习稀疏注意力模式并建模几何变换,只关注图像的一小部分关键区域,减少计算量。简言之,改善了视觉Transformer的效率和性能。大量的实验证明了模型在竞争基线上的有效性。

上图1为DAT与其他Vision Transformer模型和CNN模型中DCN的比较。

红星和蓝星表示不同的查询,带实线边界的掩码表示查询所涉及的区域。

以数据不可知的方式:

  • (a) ViT对所有查询采用全关注
  • (b) SwinTransformer采用分割窗注意力

以数据依赖的方式:

  • (c) DCN为每个查询学习不同的变形点
  • (d) DAT学习所有查询的共享变形点

上图2是可变形的注意力机制的描述。

(a)表示可变形注意力的信息流。在左侧部分,一组参考点被均匀放置在特征图上,这些参考点的偏移量从查询通过偏移网络中学习。然后根据变形点从采样特征投影出变形的键和值,如图所示。通过变形点计算相对位置偏差,增强了输出变换特征的多头注意力。为了清晰的展示,上图只展示了4个参考点,实际上在实际实现中还有更多的参考点。

(b)显示了偏移量生成网络的详细结构,标记了每层输入和输出特征图的大小。

上图3是DAT架构。N1到N4是堆叠连续的局部注意和移动窗口/可变形注意块的数量。K和s表示patch embeddings中卷积层的核大小和步长。

下图是COCO验证集上最重要的键的可视化。橙色圆圈表示在多头上传播注意力得分最高的关键点。半径越大得分越高。请注意,右下角的图像显示了一个人挥舞着球拍打网球。

二 YOLOv8添加DAT助力涨点

ultralytics的版本为8.1.47,如下图所示:

1 总体修改

① 添加DAT.py文件

ultralytics/nn/modules目录下新建DAT.py文件,内容如下所示:

② 修改ultralytics/nn/tasks.py文件

具体的修改内容如下图所示:

  1. 对于无参数的注意力机制,到此就完成了全部的修改
  2. 对于有参数的注意力机制,还要进行额外的修改,如下

搜索“parse_model”,然后修改其内容,如下所示:

本文的方法需要按照有参数的注意力机制进行修改,但是在yaml文件中不需要传入参数,因为已经设置了自动计算的方式。

2 配置文件

yolov8_DAT.yaml的内容如下所示:

3 训练

上述修改完毕后,开始训练吧!🌺🌺🌺

训练示例如下:

yolo task=detect mode=train model=cfg/models/v8/yolov8_DAT.yaml data=cfg/datasets/coco128.yaml epochs=300 batch=16 device=cpu project=yolov8

先关注 + 点赞 + 评论,然后私信我要DAT.py文件和yolov8_DAT.yaml文件吧

其他

1 报错 💔💔💔

ModuleNotFoundError: No module named 'einops'

解决方法 💚 💚 💚

pip --default-timeout=100 install einops -i https://pypi.tuna.tsinghua.edu.cn/simple

问题解决啦!!!🌺🌺🌺

2 报错 💔💔💔

ModuleNotFoundError: No module named 'timm'

解决方法 💚 💚 💚

pip --default-timeout=100 install timm -i https://pypi.tuna.tsinghua.edu.cn/simple

问题解决啦!!!🌺🌺🌺

到此,本文分享的内容就结束啦!遇见便是缘,感恩遇见!!!💛 💙 💜 ❤️ 💚 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/2024.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python5种算法模拟螺旋、分层填充、递归、迭代、分治实现螺旋矩阵ll【力扣题59】

作者介绍:10年大厂数据\经营分析经验,现任大厂数据部门负责人。 会一些的技术:数据分析、算法、SQL、大数据相关、python 欢迎加入社区:码上找工作 作者专栏每日更新: LeetCode解锁1000题: 打怪升级之旅 python数据分析…

轻松搭建llama3Web 交互界面 - Ollama + Open WebUI

Ubuntu下安装:(官网:Download Ollama on Linux) curl -fsSL https://ollama.com/install.sh | sh 就运行起来ollama了,不放心可以用ollama serve查看一下 ollama run llama3 就可以跑起来了, 那么我们肯…

信息物理系统技术概述_1.概念和实现

1.信息物理系统的概念 1.1信息物理系统的来源 信息物理系统(Cyber-Physical Systems,CPS)这一术语,最早由美国国家航天局于1992年提出,到2006年,美国国家科学基金会科学家海伦 •吉尔在国际上第一个关于信…

端口转发与端口映射区别

端口映射和端口转发是两种不同的网络技术,用于实现服务器或设备之间的通信。 端口映射是将一台设备(通常是路由器或防火墙)的公共IP地址和端口映射到内部网络中的另一台设备的特定IP地址和端口上。当外部网络上的请求到达公共IP地址和端口时…

【SAP ME 12】SAP NWDS(eclipse)下载、安装,配置

1、下载 1.1、描述 1.2、下载 2、安装 3、配置 3.1、域名映射

windows10环境下conda迁移到linux环境

网上给出的方案错误百出,记录一下正确方案。 1 创建yaml文件 创建到终端所在路径下 conda activate 环境名 conda env export --no-build >环境名.yaml2 新操作系统中创建新的conda环境 conda env create -f 环境名.yaml3 删除不兼容的包 终端报错 Could n…

CUDA编程【2】-(51-78)

系列文章目录 文章目录 系列文章目录前言51、寄存器溢出51.1 溢出概念51.1 使用控制 52、本地内存和共享内存52.1 本地内存52.2. 共享内存 53. 常量内存53.1 概念53.2 初始化 54. 全局内存54.1 概念54.2 初始化 55. GPU缓存和变量作用域55.1 缓存类型55.2 变量作用域 56. 静态全…

我的一些 35+ 前同事的现状

大家好,我是坤哥,好久不见,今天简单和大家聊一下我目前观察到的前同事的现状 今年和一些前同事简单聊过,他们的现状如下: A: 去新西兰做 iOS 开发快 10 年了,马上就要拿到永久居留证了,他说在新…

(六)小案例银行家应用程序-删除账号-findindex方法

findindex方法和find方法非常类似,只不过findindex顾名思义,他返回的是index; ● 下面我们使用删除账号的功能来学习一下findindex的 ● 当用户登录成功之后,可以在下方输入自己的用户名和密码,然后提交&#xff0c…

Unity 中(提示框Tweet)

using UnityEngine; using UnityEngine.UI; using DG.Tweening; using System; public class Message : MonoBehaviour {public float dropDuration 0.5f; // 掉落持续时间public float persisterDuration 1f; // 持续显示时间public float dorpHeight;public static Message…

Redis入门到通关之Redis数据结构-String篇

文章目录 欢迎来到 请回答1024 的博客 🍓🍓🍓欢迎来到 请回答1024的博客 关于博主: 我是 请回答1024,一个追求数学与计算的边界、时间与空间的平衡,0与1的延伸的后端开发者。 博客特色: 在我的…

HarmonyOS ArkUI实战开发-NAPI 加载原理(下)

上一节笔者给大家讲解了 JS 引擎解释执行到 import 语句的加载流程,总结起来就是利用 dlopen() 方法的加载特性向 NativeModuleManager 内部的链接尾部添加一个 NativeModule,没有阅读过上节文章的小伙伴,笔者强烈建议阅读一下,本…

如何定义带参数的EventHandler?

简述 事件调用的所有方法都需要两个参数:object sender,EventArgs e。该事件使用这两个参数调用方法,因此我们不能直接添加自定义参数。 比如下面这段代码,我们想在 MessageBox 中显示字符串 s ,这必然是不成。 priv…

初识《list》及手搓模拟《list》

目录 前言: 1. list的介绍及使用 list的介绍: list的使用: 1、list的构造​编辑 2、list iterator的使用 3、list capacity 4、list element access 5、list modifiers 2.list的模拟实现 1、关于迭代器: 2、迭代器类的…

ScriptableObject数据容器讲解

概述 是Unity提供的一个用于创建可重用的数据容器或逻辑的基类。 ScriptableObject 是继承自 UnityEngine.Object 的一个类,但与普通的 MonoBehaviour 不同,它不能附加到GameObject上作为组件。 相反,ScriptableObject 通常用于存储和管理…

操作系统的作用

操作系统的作用 硬件资源管理 进程管理:操作系统负责创建、调度、同步、通信和销毁进程,即管理多个程序的并发执行。通过进程调度算法,它决定哪个进程在何时获得处理器执行时间,实现多任务处理和资源共享,确保系统响应性和公平性。…

ThingsBoard实战教程(七):模拟设备遥测

tb做为一个多租户的物联网平台,文档也很齐全。后端使用的是java语言编写的,可以用swagger来导出文档。tb的所有服务都可以通过接口来看到。接口主要分为两部分,一部分是设备API,另一部分是用于服务端API。 在我们启动tb之后,可以通过http://ip +port/swagger-ui.html 来…

linux,从零安装nginx,并且部署vue应用程序

前言:系统使用龙蜥(8.5)的最小化安装,服务器安装这里不在赘述。 nginx 的版本:1.22.0 软件已经放在系统/home/software/ 一、安装nginx 进入路径/home/software/ 1》执行命令:rpm -ivh nginx-1.22.0-1.el7…

uboot大致流程总结

文章目录 一、uboot介绍二、uboot的配置编译过程2.1 make xxx_defconfig2.2 make 一、uboot介绍 uboot是一个bootloader,用于在嵌入式设备中引导linux内核启动,在嵌入式设备中常见的组织结构如下: 芯片内部固化代码 -> bootloader -> …

Docker NetWork (网络)

Docker 为什么需要网络管理 容器的网络默认与宿主机及其他容器都是相互隔离的,但同时我们也要考虑下面的一些问题, 比如 多个容器之间是如何通信的容器和宿主机是如何通信的容器和外界主机是如何通信的容器中要运行一些网络应用(如 nginx、web 应用、数…