YOLOv10改进 | Conv篇 | CVPR2024最新DynamicConv替换下采样(解决低FLOPs陷阱)

 一、本文介绍

本文给大家带来的改进机制是CVPR2024的最新改进机制DynamicConv其是CVPR2024的最新改进机制,这个论文中介绍了一个名为ParameterNet的新型设计原则,它旨在在大规模视觉预训练模型中增加参数数量,同时尽量不增加浮点运算(FLOPs),所以本文的DynamicConv被提出来了,使得网络在保持低FLOPs的同时增加参数量,从而允许这些网络从大规模视觉预训练中获益,下面的图片为V10n和利用了DynamicConv的训练精度对比图,本文内容包含详细教程 + 代码 + 原理介绍。

  欢迎大家订阅我的专栏一起学习YOLO! 

专栏回顾:YOLOv10改进系列专栏——本专栏持续复习各种顶会内容——科研必备 


目录

 一、本文介绍

二、原理介绍

三、核心代码

四、手把手教你添加DynamicConv机制

4.1 修改一

4.2 修改二 

4.3 修改三 

4.4 修改四 

五、DynamicConv的yaml文件和运行记录

5.1 DynamicConv的yaml文件1

5.2 DynamicConv的yaml文件2

5.3 训练代码 

5.4 DynamicConv的训练过程截图 

五、本文总结


二、原理介绍

 

官方论文地址: 官方论文地址点击此处即可跳转

官方代码地址: 官方代码地址点击此处即可跳转 

动态卷积(Dynamic Convolution)是《DynamicConv.pdf》中提出的一种关键技术,旨在增加网络的参数量而几乎不增加额外的浮点运算(FLOPs)。以下是关于动态卷积的主要信息和原理:


主要原理:

1. 动态卷积的定义:
   动态卷积通过对每个输入样本动态选择或组合不同的卷积核(称为"experts"),来处理输入数据。这种方法可以视为是对传统卷积操作的扩展,它允许网络根据输入的不同自适应地调整其参数。

2. 参数和计算的动态化:
   在动态卷积中,不是为所有输入使用固定的卷积核,而是有多个卷积核(或参数集),并且根据输入的特性动态选择使用哪个核。
   这种选择通过一个学习得到的函数(例如,使用多层感知机(MLP)和softmax函数)来动态生成控制各个卷积核贡献的权重。

3. 计算过程:
   给定输入特征X,和一组卷积核W_1, W_2, ..., W_M,每个核对应一个专家。
   每个专家的贡献由一个动态系数 \alpha_i\alpha_i控制,这些系数是针对每个输入样本动态生成的。
   输出Y是所有动态选定的卷积核操作的加权和:Y = \sum_{i=1}^M \alpha_i (X * W_i)
   其中*表示卷积操作,\alpha_i是通过一个小型网络(如MLP)动态计算得出的,这个小网络的输入是全局平均池化后的特征。

动态卷积的优点:

  • 参数效率高:通过共享和动态组合卷积核,动态卷积可以在增加极少的计算成本的情况下显著增加模型的参数量。
  • 适应性强:由于卷积核是针对每个输入动态选择的,这种方法可以更好地适应不同的输入特征,理论上可以提高模型的泛化能力。
  • 资源使用优化:动态卷积允许模型在资源有限的环境中(如移动设备)部署更复杂的网络结构,而不会显著增加计算负担。

动态卷积的设计思想突破了传统卷积网络结构的限制,通过动态调整和优化计算资源的使用,实现了在低FLOPs条件下提升网络性能的目标,这对于需要在计算资源受限的设备上运行高效AI模型的应用场景尤为重要。


三、核心代码

本节核心代码的使用方式看章节四!

import torch.nn as nn
import torch.nn.functional as F
import torch
from timm.layers import CondConv2d__all__ = ['C2f_DynamicConv', 'DynamicConv']def autopad(k, p=None, d=1):  # kernel, padding, dilation"""Pad to 'same' shape outputs."""if d > 1:k = d * (k - 1) + 1 if isinstance(k, int) else [d * (x - 1) + 1 for x in k]  # actual kernel-sizeif p is None:p = k // 2 if isinstance(k, int) else [x // 2 for x in k]  # auto-padreturn pclass Conv(nn.Module):"""Standard convolution with args(ch_in, ch_out, kernel, stride, padding, groups, dilation, activation)."""default_act = nn.SiLU()  # default activationdef __init__(self, c1, c2, k=1, s=1, p=None, g=1, d=1, act=True):"""Initialize Conv layer with given arguments including activation."""super().__init__()self.conv = nn.Conv2d(c1, c2, k, s, autopad(k, p, d), groups=g, dilation=d, bias=False)self.bn = nn.BatchNorm2d(c2)self.act = self.default_act if act is True else act if isinstance(act, nn.Module) else nn.Identity()def forward(self, x):"""Apply convolution, batch normalization and activation to input tensor."""return self.act(self.bn(self.conv(x)))def forward_fuse(self, x):"""Perform transposed convolution of 2D data."""return self.act(self.conv(x))class DynamicConv(nn.Module):""" Dynamic Conv layer"""def __init__(self, in_features, out_features, kernel_size=1, stride=1, padding='', dilation=1,groups=1, bias=False, num_experts=4):super().__init__()# print('+++', num_experts)self.routing = nn.Linear(in_features, num_experts)self.cond_conv = CondConv2d(in_features, out_features, kernel_size, stride, padding, dilation,groups, bias, num_experts)def forward(self, x):pooled_inputs = F.adaptive_avg_pool2d(x, 1).flatten(1)  # CondConv routingrouting_weights = torch.sigmoid(self.routing(pooled_inputs))x = self.cond_conv(x, routing_weights)return xclass Bottleneck_DynamicConv(nn.Module):# Standard bottleneck with DCNdef __init__(self, c1, c2, shortcut=True, g=1, k=(3, 3), e=0.5):  # ch_in, ch_out, shortcut, groups, kernels, expandsuper().__init__()c_ = int(c2 * e)  # hidden channelsself.cv1 = Conv(c1, c_, k[0], 1)self.cv2 = DynamicConv(c_, c2, k[1], 1, groups=g)self.add = shortcut and c1 == c2def forward(self, x):return x + self.cv2(self.cv1(x)) if self.add else self.cv2(self.cv1(x))class C2f_DynamicConv(nn.Module):# CSP Bottleneck with 2 convolutionsdef __init__(self, c1, c2, n=1, shortcut=False, g=1, e=0.5):  # ch_in, ch_out, number, shortcut, groups, expansionsuper().__init__()self.c = int(c2 * e)  # hidden channelsself.cv1 = Conv(c1, 2 * self.c, 1, 1)self.cv2 = Conv((2 + n) * self.c, c2, 1)  # optional act=FReLU(c2)self.m = nn.ModuleList(Bottleneck_DynamicConv(self.c, self.c, shortcut, g, k=(3, 3), e=1.0) for _ in range(n))def forward(self, x):y = list(self.cv1(x).split((self.c, self.c), 1))y.extend(m(y[-1]) for m in self.m)return self.cv2(torch.cat(y, 1))if __name__ == "__main__":# Generating Sample imageimage_size = (1, 64, 224, 224)image = torch.rand(*image_size)# Modelmodel = C2f_DynamicConv(64, 64)out = model(image)print(out.size())


四、手把手教你添加DynamicConv机制

4.1 修改一

第一还是建立文件,我们找到如下ultralytics/nn文件夹下建立一个目录名字呢就是'Addmodules'文件夹(用群内的文件的话已经有了无需新建)!然后在其内部建立一个新的py文件将核心代码复制粘贴进去即可。


4.2 修改二 

第二步我们在该目录下创建一个新的py文件名字为'__init__.py'(用群内的文件的话已经有了无需新建),然后在其内部导入我们的检测头如下图所示。


4.3 修改三 

第三步我门中到如下文件'ultralytics/nn/tasks.py'进行导入和注册我们的模块(用群内的文件的话已经有了无需重新导入直接开始第四步即可)

从今天开始以后的教程就都统一成这个样子了,因为我默认大家用了我群内的文件来进行修改!!


4.4 修改四 

按照我的添加在parse_model里添加即可。

到此就修改完成了,大家可以复制下面的yaml文件运行。


五、DynamicConv的yaml文件和运行记录

5.1 DynamicConv的yaml文件1

仅替换原先的Conv模块!

此版本训练信息:YOLOv10n-DynamicConv-1 summary: 385 layers, 2896642 parameters, 2896626 gradients, 7.8 GFLOPs

# Ultralytics YOLO 🚀, AGPL-3.0 license
# YOLOv10 object detection model. For Usage examples see https://docs.ultralytics.com/tasks/detect# Parameters
nc: 80 # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov10n.yaml' will call yolov10.yaml with scale 'n'# [depth, width, max_channels]n: [0.33, 0.25, 1024]backbone:# [from, repeats, module, args]- [-1, 1, Conv, [64, 3, 2]] # 0-P1/2- [-1, 1, DynamicConv, [128, 3, 2]] # 1-P2/4- [-1, 3, C2f, [128, True]]- [-1, 1, DynamicConv, [256, 3, 2]] # 3-P3/8- [-1, 6, C2f, [256, True]]- [-1, 1, SCDown, [512, 3, 2]] # 5-P4/16- [-1, 6, C2f, [512, True]]- [-1, 1, SCDown, [1024, 3, 2]] # 7-P5/32- [-1, 3, C2f, [1024, True]]- [-1, 1, SPPF, [1024, 5]] # 9- [-1, 1, PSA, [1024]] # 10# YOLOv10.0n head
head:- [-1, 1, nn.Upsample, [None, 2, "nearest"]]- [[-1, 6], 1, Concat, [1]] # cat backbone P4- [-1, 3, C2f, [512]] # 13- [-1, 1, nn.Upsample, [None, 2, "nearest"]]- [[-1, 4], 1, Concat, [1]] # cat backbone P3- [-1, 3, C2f, [256]] # 16 (P3/8-small)- [-1, 1, DynamicConv, [256, 3, 2]]- [[-1, 13], 1, Concat, [1]] # cat head P4- [-1, 3, C2f, [512]] # 19 (P4/16-medium)- [-1, 1, SCDown, [512, 3, 2]]- [[-1, 10], 1, Concat, [1]] # cat head P5- [-1, 3, C2fCIB, [1024, True, True]] # 22 (P5/32-large)- [[16, 19, 22], 1, v10Detect, [nc]] # Detect(P3, P4, P5)

5.2 DynamicConv的yaml文件2

替换所有的下采样模块,包括YOLOv10自带的SCDown.

此版本训练信息:YOLOv10n-DynamicConv-2 summary: 370 layers, 4898318 parameters, 4898302 gradients, 7.6 GFLOPs

# Ultralytics YOLO 🚀, AGPL-3.0 license
# YOLOv10 object detection model. For Usage examples see https://docs.ultralytics.com/tasks/detect# Parameters
nc: 80 # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov10n.yaml' will call yolov10.yaml with scale 'n'# [depth, width, max_channels]n: [0.33, 0.25, 1024]backbone:# [from, repeats, module, args]- [-1, 1, Conv, [64, 3, 2]] # 0-P1/2- [-1, 1, DynamicConv, [128, 3, 2]] # 1-P2/4- [-1, 3, C2f, [128, True]]- [-1, 1, DynamicConv, [256, 3, 2]] # 3-P3/8- [-1, 6, C2f, [256, True]]- [-1, 1, DynamicConv, [512, 3, 2]] # 5-P4/16- [-1, 6, C2f, [512, True]]- [-1, 1, DynamicConv, [1024, 3, 2]] # 7-P5/32- [-1, 3, C2f, [1024, True]]- [-1, 1, SPPF, [1024, 5]] # 9- [-1, 1, PSA, [1024]] # 10# YOLOv10.0n head
head:- [-1, 1, nn.Upsample, [None, 2, "nearest"]]- [[-1, 6], 1, Concat, [1]] # cat backbone P4- [-1, 3, C2f, [512]] # 13- [-1, 1, nn.Upsample, [None, 2, "nearest"]]- [[-1, 4], 1, Concat, [1]] # cat backbone P3- [-1, 3, C2f, [256]] # 16 (P3/8-small)- [-1, 1, DynamicConv, [256, 3, 2]]- [[-1, 13], 1, Concat, [1]] # cat head P4- [-1, 3, C2f, [512]] # 19 (P4/16-medium)- [-1, 1, DynamicConv, [512, 3, 2]]- [[-1, 10], 1, Concat, [1]] # cat head P5- [-1, 3, C2fCIB, [1024, True, True]] # 22 (P5/32-large)- [[16, 19, 22], 1, v10Detect, [nc]] # Detect(P3, P4, P5)


5.3 训练代码 

大家可以创建一个py文件将我给的代码复制粘贴进去,配置好自己的文件路径即可运行。

import warnings
warnings.filterwarnings('ignore')
from ultralytics import YOLOif __name__ == '__main__':model = YOLO('ultralytics/cfg/models/v8/yolov8-C2f-FasterBlock.yaml')# model.load('yolov8n.pt') # loading pretrain weightsmodel.train(data=r'替换数据集yaml文件地址',# 如果大家任务是其它的'ultralytics/cfg/default.yaml'找到这里修改task可以改成detect, segment, classify, posecache=False,imgsz=640,epochs=150,single_cls=False,  # 是否是单类别检测batch=4,close_mosaic=10,workers=0,device='0',optimizer='SGD', # using SGD# resume='', # 如过想续训就设置last.pt的地址amp=False,  # 如果出现训练损失为Nan可以关闭ampproject='runs/train',name='exp',)


5.4 DynamicConv的训练过程截图 


五、本文总结

 到此本文的正式分享内容就结束了,在这里给大家推荐我的YOLOv10改进有效涨点专栏,本专栏目前为新开的平均质量分98分,后期我会根据各种最新的前沿顶会进行论文复现,也会对一些老的改进机制进行补充,如果大家觉得本文帮助到你了,订阅本专栏,关注后续更多的更新~

专栏回顾:YOLOv10改进系列专栏——本专栏持续复习各种顶会内容——科研必备 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/870027.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

训练营第八天 | 344.反转字符串、541. 反转字符串II、卡码网:54.替换数字

344.反转字符串 做题思路 双指针库函数的实现 代码细节 class Solution { public:// 库函数swap的实现void swapString(char& a, char& b) {char tmp a;a b;b tmp;}void reverseString(vector<char>& s) {// 双指针库函数int i, j;for(i 0, j s.siz…

PyTorch复现PointNet——模型训练+可视化测试显示

因为项目涉及到3D点云项目&#xff0c;故学习下PointNet这个用来处理点云的神经网络 论文的话&#xff0c;大致都看了下&#xff0c;网络结构有了一定的了解&#xff0c;本博文主要为了下载调试PointNet网络源码&#xff0c;训练和测试调通而已。 我是在Anaconda下创建一个新的…

Harbor企业docker私服安装及SSL安全访问配置

基础环境 ubuntu server18 域名配置 sudo vi /etc/hosts www.node23.com 192.168.43.23 docker安装 一键安装 curl -sSL https://get.daocloud.io/docker | sh 配置docker vi /etc/docker/daemon.json { "registry-mirrors": ["https://squpqgby.mirr…

掌握SQLCMD魔术:在SQL Server中以SQLCMD模式执行脚本的全面指南

掌握SQLCMD魔术&#xff1a;在SQL Server中以SQLCMD模式执行脚本的全面指南 SQL Server提供了一个强大的命令行工具&#xff0c;名为SQLCMD&#xff0c;它允许用户执行包含变量替换和条件逻辑的脚本。这种模式特别适用于自动化数据库维护任务、批量处理数据和部署数据库更改。…

Python——使用Seaborn钻石数据可视化分析(1)

目录 🧾 1、数据集(部分数据) ✏️ 2、导入数据集与必要模块 1️⃣ 导入数据 📍 通过info函数查看所有列数据的类型信息 2️⃣ 导入Seaborn工具包 📍 set_context 设置图形绘制时的上下文参数 📍 set_style 设置绘图风格 📍 set_palette 设置图标全局颜色…

CentOS 设置手动同步指定NTP时钟服务器

1. 文件上传至服务器 2.进入文件路径 3.查看文件名称 4.安装rpm包 注意执行顺序 1&#xff0c;3&#xff0c;2 5.启动ntp并设置开机自启 6.配置ntp配置文件 修改为时间服务器ip&#xff08;同时要删除或注释掉其他三个server开头的外网的配置&#xff0c;防止因为外网不通导致…

C++基础学习笔记

1.命名空间(namespace) 1.什么是命名空间&命名空间的作用 1.在C/C中&#xff0c;变量、函数、类都是大量存在的&#xff0c;这些变量等的名称将都存在于全局作用域中&#xff0c;就会导致很多的命名冲突等。使用命名空间的目的就是对标识符的名称进行本地化&#xff0c;以…

自动驾驶革命:商汤科技突破性大模型UniAD震撼登场

自动驾驶革命&#xff1a;商汤科技突破性大模型UniAD震撼登场&#xff01; 在人工智能的浪潮中&#xff0c;自动驾驶技术一直是科技巨头们竞相追逐的圣杯。而今&#xff0c;商汤科技联合上海人工智能实验室与武汉大学&#xff0c;以一篇名为"Planning-oriented Autonomou…

京准电钟:云计算中NTP网络时间服务器的作用是什么?

京准电钟&#xff1a;云计算中NTP网络时间服务器的作用是什么&#xff1f; 京准电钟&#xff1a;云计算中NTP网络时间服务器的作用是什么&#xff1f; NTP是一种用于同步网络中设备时间的协议&#xff0c;广泛用于互联网和局域网中。NTP网络时间服务器则是基于NTP协议构建&…

内核调试方法

文章目录 printksysrqkdb/kgdbTRACE_EVENT&#xff0c;tracepoint使用参考 printk 通过proc/sys/kernel/printk查看打印等级 $ cat /proc/sys/kernel/printk 1 4 1 3四个数字分别对应: console_loglevel&#xff1a;控制台使用的日志级别&#xff1b; defa…

AI in Finance 金融领域AI应用-基于DeepNLP AI App Store 真实用户评论打分和排名

AI在金融领域应用 AI in Finance 金融服务领域的AI应用和传统的金融智能应用不同。传统金融智能应用包括如风险评估 (Risk assessment), 风险管理&#xff08;Risk management), 欺诈检测 (Fraud Detection&#xff09;等等。 通用AI大模型和人工智能应用如ChatGPT&#xff0c…

p12初步认识c语言

1.初识c语言 什么是c语言 c语言是一门计算机语言 计算机语言是什么 人和计算机交流语言 c/c/JAVA/python 语言发展&#xff1a; 二进制语言 硬件-电-正电/负电 1010001010101010101010101010手册 科学家 1010100010-ADD -助记符-汇编语言 B语言 C语言 C、---高级…

设置Llinux自带的led功能,在timer模式下设置delay_on后会把delay_off给清0

记录&#xff1a; 内核版本4.9.88. 问题复现方法是&#xff1a; 1. cd /sys/class/leds/cpu //cpu是内核自带led的节点名 2. echo timer > trigger 3. echo 100 > delay_on在设置完delay_on之后&#xff0c;发现delay_off自己设置为0了。同理设置delay_off后&#xff…

【C++精华铺】11.STL vector模拟实现

1.序言 STL&#xff08;Standard Template Library&#xff09;是C的标准库之一&#xff0c;提供了一系列的模板类和函数&#xff0c;用于实现常用的数据结构和算法。其中&#xff0c;STL的vector是一个动态数组&#xff0c;可以根据需要自动调整大小。 vector可以存储任意类型…

python JSON Lines (JSONL)的保存和读取;jsonl的数据保存和读取,大模型prompt文件保存常用格式

1. JSON Lines (JSONL)文件保存 将一个包含多个字典的列表保存为 JSON Lines (JSONL) 格式的文件&#xff0c;每个字典对应一个 JSONL 文件中的一行。以下是如何实现这一操作的 Python 代码 import json# 定义包含字典的列表 data [{"id": 1, "name": &qu…

数据库系统安全

数据库安全威胁 数据库作为信息系统中的核心组成部分&#xff0c;存储和管理着大量敏感和关键的数据&#xff0c;成为网络攻击者的主要目标之一。以下是常见的数据库安全威胁及其详细描述&#xff1a; 一、常见数据库安全威胁 SQL注入攻击&#xff08;SQL Injection&#xff…

37.深度学习中的梯度下降法及其实现

在深度学习的优化过程中&#xff0c;梯度下降法及其变体是必不可少的工具。通过对梯度下降法的理论学习&#xff0c;我们能够更好地理解深度学习模型的训练过程。本篇文章将介绍梯度下降的基本原理&#xff0c;并通过代码实现展示其具体应用。我们会从二维平面的简单梯度下降开…

使用nodejs进行截图

创建一个空文件夹 初始化项目 npm init -y下载插件 yarn add puppeteer根目录下创建app.js放入以下内容&#xff1a; const puppeteer require(puppeteer);(async () > {// 启动 Puppeteer 并创建一个新浏览器实例// const browser await puppeteer.launch(); // 会在…

大白话讲解AI大模型

大白话讲解大模型 大模型的发展重要大模型发展时间线 大模型的简单原理-训练⼤模型是如何训练并应⽤到场景中的&#xff1f;如果训练私有化模型 模型&#xff1a;model 语料库&#xff1a;用于训练模型的数据 大模型的发展 详细信息来源&#xff1a;DataLearner 2022年11月底…

v-bind指令——03

v-bind 指令详解&#xff1a; 1 、这个指令是干嘛的&#xff1f; 可以让html标签的某个属性的值产生动态的效果 2、v-bind指令的语法格式&#xff1a;<HTML 标签 v-bind : 参数 “表达式”> </HTML> 3、v-bind指令的编译原理&#xff1a; 编译前&#xff1a…