【YOLO v5 v7 v8 小目标改进】ODConv:在卷积核所有维度(数量、空间、输入、输出)上应用注意力机制来优化传统动态卷积

ODConv:在卷积核所有维度(数量、空间、输入、输出)上应用注意力机制来优化传统的动态卷积

    • 提出背景
      • 传统动态卷积
      • 全维动态卷积
      • 效果
    • 小目标涨点
      • YOLO v5 魔改
      • YOLO v7 魔改
      • YOLO v8 魔改

 


论文:https://openreview.net/pdf?id=DmpCfq6Mg39

代码:https://github.com/OSVAI/ODConv

 

提出背景

在过去的十年里,我们见证了深度卷积神经网络(CNN)在许多计算机视觉应用中的巨大成功。

构建深度CNN的最常见方法是堆叠多个卷积层以及其他基本层,并预先定义特征连接拓扑。

通过手工工程和自动搜索对CNN架构设计的巨大进步,许多流行的分类骨架已经被提出。

最近的工作表明,将注意力机制融入卷积块可以进一步提高现代CNN的性能。

问题1:提高CNN性能

  • 解法:引入注意力机制。
  • 之所以使用这个解法,是因为注意力机制可以加强CNN通过鼓励有用的特征通道同时抑制不重要的特征通道,从而提高表示能力。

问题2:动态卷积的设计限制

  • 子解法1:多维度注意力机制(ODConv)
    • 之所以使用ODConv,是因为现有的动态卷积方法只关注卷积核数量的一个维度,而忽略了卷积核空间的其他三个维度(空间大小、输入通道数和输出通道数),限制了捕获丰富上下文线索的能力。
  • 子解法2:减少模型大小
    • 之所以使用这个子解法,是因为传统的动态卷积在替换常规卷积时会增加n倍的卷积参数,导致模型大小大幅增加。通过动态卷积分解方法,可以获得更紧凑且竞争力的模型。

传统动态卷积

在这里插入图片描述
上图是 DyConv(a 传统的动态卷积)和ODConv(b 本文的全维动态卷积)的结构图比较。

在DyConv中,使用全局平均池化(GAP)、全连接层(FC)和Sigmoid激活函数来计算单个注意力标量 α w i αw_i αwi,这个标量用于加权卷积核 W i W_i Wi

相比之下,ODConv采用了更复杂的多维度注意力机制来计算四种类型的注意力( α s i , α c i , α f i , 和 α w i αs_i, αc_i, αf_i, 和 αw_i αsi,αci,αfi,αwi),这些注意力分别对应于卷积核空间的不同维度。

四个不同的注意力通过四个分支生成,并通过Sigmoid或Softmax函数进行归一化。

这些注意力分别沿着卷积核空间的空间维度、输入通道维度、输出通道维度和卷积核数量维度被计算出来,并且以并行的方式应用于卷积核。

 

全维动态卷积

ODConv通过在任何卷积层利用新颖的多维度注意力机制来学习卷积核空间所有四个维度上的四种注意力,这些注意力相互补充,逐步应用它们可以显著增强CNN的基本卷积操作的特征提取能力。

让我们以ODConv在任何卷积层利用新颖的多维度注意力机制来学习卷积核空间所有四个维度上的四种注意力为例,举一个具体的应用场景来说明这种方法的有效性。

ODConv解法

  • 子特征1:空间尺寸注意力。ODConv学习不同空间尺寸的卷积核的重要性,从而能够更好地捕捉图像的局部和全局特征。之所以使用空间尺寸注意力,是因为不同大小的特征图对于捕获图像中的不同尺度信息至关重要。

  • 子特征2:输入通道注意力。通过调整对不同输入通道的关注程度,ODConv可以更有效地整合来自不同特征通道的信息。之所以使用输入通道注意力,是因为不同的特征通道可能包含不同的信息,对最终的识别任务有不同的贡献。

  • 子特征3:输出通道注意力。ODConv通过学习对输出通道的不同关注,优化了特征的表示。之所以使用输出通道注意力,是为了强化模型的能力,以区分和识别图像数据集中的细粒度类别。

  • 子特征4:卷积核数量注意力。通过动态调整不同卷积核的权重,ODConv能够根据输入图像的特征自适应地选择最适合的卷积核组合。之所以使用卷积核数量注意力,是因为它允许模型根据输入特征的复杂度动态调整其表示能力,从而在保持效率的同时提高准确性。

在这里插入图片描述
(a) αs_i:空间维度注意力,它将不同的权重分配给卷积核的每个空间位置。

(b) αc_i:输入通道维度注意力,它将不同的权重分配给卷积核的每个输入通道。

© αf_i:输出通道维度注意力,它将不同的权重分配给卷积核的每个输出滤波器。

(d) αw_i:卷积核维度注意力,它将一个整体的权重分配给整个卷积核集合。

因此,即使是使用单个卷积核的ODConv也能与现有的具有多个卷积核的动态卷积对手竞争或胜出,大大减少了额外的参数。

ODConv可以作为一种插入式设计用于替代许多CNN架构中的常规卷积,与现有的动态卷积设计相比,它在模型准确性和效率之间取得了更好的平衡。

 

在传统的CNN中,每个卷积层都使用固定的卷积核来处理输入的图像或特征图,这意味着无论输入数据如何,都会应用相同的卷积核。

然而,这种方法并不总是最优的,因为不同的输入图像可能需要不同的特征提取方式来更好地识别物体。

ODConv通过引入一种新颖的多维度注意力机制来解决这个问题。

具体来说,它在任何给定的卷积层中,不仅仅学习一个卷积核,而是学习一组卷积核,每个卷积核都针对卷积核空间的一个特定维度(如卷积核的空间尺寸、输入通道数、输出通道数和卷积核数量)。

然后,它使用输入特征动态地决定这些卷积核的注意力权重,使得网络能够根据输入图像的不同特征自适应地调整其卷积操作。

例如,如果输入图像是一只猫,ODConv可能会赋予识别猫特征(如毛发纹理或尾巴形状)更有用的卷积核更高的注意力权重。

相反,如果输入图像是一只鸟,它可能会增加那些能够捕捉到鸟的特征(如羽毛或翅膀形状)的卷积核的权重。

通过这种方式,ODConv能够为每个输入图像动态地优化其卷积操作,从而在不同的图像分类任务中实现更高的准确性,同时减少了需要的额外参数数量,因为它甚至可以使用单个卷积核与现有的多卷积核动态卷积方法竞争或超越它们的性能。

效果

ODConv的核心原理是引入一种全新的多维度注意力机制,这种机制不仅考虑卷积核的数量维度(如传统的动态卷积所做的),而且还同时考虑卷积核的空间维度、输入通道维度和输出通道维度。

这种方法允许网络根据输入数据的具体特点,在多个层面上动态调整其卷积核的权重,从而提高特征提取的能力。

ODConv通过在所有卷积核维度上应用注意力机制来优化传统的动态卷积,这样做可以提供更精细的特征处理能力,并提高模型对输入数据变化的适应性和敏感性。

这种细粒度的动态调整使得ODConv能够在增加很少或没有额外计算成本的情况下,提高模型的准确性和效率。

通过在轻量级CNN模型中应用ODConv,我们可以显著提高模型对图像的识别准确率,而不会带来太多的额外计算成本。

例如,将ODConv集成到MobileNetV2中,可能会在ImageNet测试集上获得比原始模型更高的分类准确率,同时保持模型的轻量级特性。

这种方法通过综合考虑卷积核的所有维度上的注意力,有效地增强了特征的表达力,解决了轻量级CNN在复杂任务上性能不足的问题。

小目标涨点

更新中…

YOLO v5 魔改

YOLO v7 魔改

YOLO v8 魔改

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/713676.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

leedcode刷题--day7(字符串)

23 文章讲解 力扣地址 C class Solution { public:void reverseString(vector<char>& s) {int left 0;int right s.size() - 1; // right 应该初始化为 s.size() - 1while (left < right) {swap(s[left], s[right]); // 直接交换 s[left] 和 s[right] 的值lef…

(学习日记)2024.02.29:UCOSIII第二节

写在前面&#xff1a; 由于时间的不足与学习的碎片化&#xff0c;写博客变得有些奢侈。 但是对于记录学习&#xff08;忘了以后能快速复习&#xff09;的渴望一天天变得强烈。 既然如此 不如以天为单位&#xff0c;以时间为顺序&#xff0c;仅仅将博客当做一个知识学习的目录&a…

WSL2外部网络设置

1 关闭所有WSL系统 wsl --shutdown 2 打开Hyper-V管理器 3 将“虚拟交换机管理器”-> ”WSL连接类型“设置为“外部网络” 4 启动WSL系统&#xff0c;手动修改WSL网络 将WSL网络IP修改为192.168.1.9 sudo ip addr del $(ip addr show eth0 | grep inet\b | awk {print $2} |…

FinalMLP:用于推荐系统的简单但强大的双流 MLP 模型

原文地址&#xff1a;FinalMLP: A Simple yet Powerful Two-Stream MLP Model for Recommendation Systems 了解 FinalMLP 如何转变在线推荐&#xff1a;通过尖端 AI 研究解锁个性化体验 2024 年 2 月 14 日 介绍 世界正在向数字时代发展&#xff0c;在这个时代&#xff0c;…

持安科技孙维伯:零信任在攻防演练下的最佳实践|DISCConf 2023

近日&#xff0c;在2023数字身份安全技术大会上&#xff0c;持安科技联合创始人孙维伯应主办方的特别邀请&#xff0c;发表了主题为“零信任在攻防演练下的最佳实践”的演讲。 孙维伯在2023数字身份安全技术大会上发表演讲 以下为本次演讲实录&#xff1a; 我是持安科技的联合…

【c++】 STL的组件简介与容器的使用时机

STL六大组件简介 STL提供了六大组件&#xff0c;彼此之间可以组合套用&#xff0c;这六大组件分别是:容器、算法、迭代器、仿函数、适配器&#xff08;配接器&#xff09;、空间配置器。 容器&#xff1a;各种数据结构&#xff0c;如vector、list、deque、set、map等,用来存放…

微信云开发-- Mac安装 wx-server-sdk依赖

第一次上传部署云函数时&#xff0c;会提示安装依赖wx-server-sdk 一. 判断是否安装wx-server-sdk依赖 先创建一个云函数&#xff0c;然后检查云函数目录。 如果云函数目录下只显示如下图所示三个文件&#xff0c;说明未安装依赖。 如果云函数目录下显示如下图所示四个文件&a…

EdgeX Foundry 边缘物联网中间件平台

文章目录 1.EdgeX Foundry2.平台架构3.平台服务3.1.设备服务3.2.核心服务3.3.支持服务3.4.应用服务3.5.安全服务3.6.管理服务 EdgeX Foundry # EdgeX Foundryhttps://iothub.org.cn/docs/edgex/ https://iothub.org.cn/docs/edgex/edgex-foundry/1.EdgeX Foundry EdgeX Found…

嵌入式 Linux 下的 LVGL 移植

目录 准备创建工程修改配置修改 lv_drv_conf.h修改 lv_conf.h修改 main.c修改 Makefile 编译运行更多内容 LVGL&#xff08;Light and Versatile Graphics Library&#xff09;是一个轻量化的、开源的、在嵌入式系统中广泛使用的图形库&#xff0c;它提供了一套丰富的控件和组件…

微软为金融界带来革命性突破——推出Microsoft 365中的下一代AI助手:Microsoft Copilot for Finance

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…

雷龙CS SD NAND(贴片式TF卡)测评体验

前段时间有幸免费得到了雷龙出品的贴片式的TF卡的芯片及转接板&#xff0c;两片贴片式nand芯片&#xff0b;一个转接板&#xff0c;一种一个已让官方焊接完好&#xff1b;如下图所示&#xff1a; 正面&#xff1a; 背面&#xff1a; 通过转接板&#xff0c;可以将CS SD NAND(贴…

数电实验之流水灯、序列发生器

最近又用到了数电实验设计的一些操作和设计思想&#xff0c;遂整理之。 广告流水灯 实验内容 用触发器、组合函数器件和门电路设计一个广告流水灯&#xff0c;该流水灯由 8 个 LED 组成&#xff0c;工作时始终为 1 暗 7 亮&#xff0c;且这一个暗灯循环右移。 1) 写出设计过…

关于DisableIEToEdge插件闪退问题的解决方案

关于DisableIEToEdge插件闪退问题.今天终于测试找到最佳解决方案了&#xff01; 1.管理员权限运行Windows powershell. 2.执行一下两条命令修复系统环境 DISM.exe /Online /Cleanup-image /Restorehealth sfc /scannow 3.关闭Windows安全中心的所有安全选项。 4.管理员权限运行…

【计算机考研择校】四川大学vs电子科技大学哪个难度更大?

川大在文科&#xff0c;经管方面比科大强&#xff0c;医学在国内都很强。但工科方面特别是电子信息领域明显是科大强于川大。毕竟一个是综合大学&#xff0c;一个是工科大学不可同日而语。 就业上&#xff0c;电子科大在IT领域的社会声誉口碑不错。就业一向都很好。这个多问问…

张俊将出席用磁悬浮技术改变生活演讲

演讲嘉宾&#xff1a;张俊 空压机销售总监 亿昇(天津)科技有限公司 演讲题目&#xff1a;用磁悬浮技术改变生活 会议简介 “十四五”规划中提出&#xff0c;提高工业、能源领城智能化与信息化融合&#xff0c;明确“低碳经济”新的战略目标&#xff0c;热能产业是能源产业和…

Python环境下一种改进的基于梯度下降的自适应短时傅里叶变换

在数字信号处理技术中&#xff0c;傅里叶变换及其逆变换是一种信号时频分析方法。该方法将信号的时域描述及频域描述联系在一起&#xff0c;时域信号可通过正变换转变为频域信号&#xff0c;频域信号可通过逆变换转变为时域信号进行分析。但傅里叶变换及其逆变换是一种信号的整…

Linux/Centos 部署静态IP,解决无法访问目标主机、Destination Host Unreachable、无法ping通互联网的问题

Linux/Centos 部署IP&#xff0c;解决无法访问目标主机、Destination Host Unreachable、无法ping通互联网的问题 Linux/Centos 部署静态IP查物理机/自身电脑的IP设置VMware上的虚拟网络编辑器设置网卡IP&#xff0c;激活至此就可访问百度了 Linux/Centos 部署静态IP 需要注意…

软考基础知识2

1.DMA控制方式&#xff1a;直接内存存取。数据在内存与I/O设备间直接成块传送&#xff0c;不需要CPU的任何干涉&#xff0c;由DMA硬件直接执行完成。 例题&#xff1a; 2.程序计数器总是存下一个指令的地址。 例题&#xff1a; 3.可靠度的计算&#xff1a; 例题&#xff1a…

吸猫毛空气净化器哪个好?推荐除猫毛效果好宠物空气净化器品牌

当下有越来越多的家庭选择养宠物&#xff01;尽管家里变得更加温馨&#xff0c;但养宠可能会带来异味和空气中的毛发增多可能会带来健康问题&#xff0c;这是一个大问题&#xff01; 不想家里弥漫着异味&#xff0c;特别是来自宠物便便的味道&#xff0c;所以需要一款能够处理…

ABAP - SALV教程02 - 开篇:打开SALV的三种方式之二

全屏模式生成SALV的方式&#xff1a;http://t.csdnimg.cn/CzNLz本文讲解生成可控模式的SALV&#xff0c;该方式需要依赖自己创建屏幕的自定义控件区域&#xff08;Custom Control&#xff09;实现步骤&#xff1a;需要注意的点是SALV的实例对象和dispaly方法一定是在屏幕PBO事件…