YOLOv10改进 | Conv篇 | 利用DualConv二次创新C2f提出一种轻量化结构(轻量化创新)

一、本文介绍

本文给大家带来的改进机制是利用DualConv改进C2f提出一种轻量化的C2f,DualConv是一种创新的卷积网络结构,旨在构建轻量级的深度神经网络。它通过结合3×3和1×1的卷积核处理相同的输入特征映射通道,优化了信息处理和特征提取。DualConv利用组卷积技术高效排列卷积滤波器,大大降低了计算成本和参数数量。我们将其用于C2f的创新上能够大幅度的降低参数,还能够提升精度。

在开始之前给大家推荐一下我的专栏,本专栏每周更新3-10篇最新前沿机制 | 包括二次创新全网无重复,以及融合改进(大家拿到之后添加另外一个改进机制在你的数据集上实现涨点即可撰写论文),还有各种前沿顶会改进机制 |,更有包含我所有附赠的文件(文件内集成我所有的改进机制全部注册完毕可以直接运行)和交流群和视频讲解提供给大家。  

欢迎大家订阅我的专栏一起学习YOLO! 

   专栏回顾:YOLOv10改进系列专栏——本专栏持续复习各种顶会内容——科研必备 


目录

一、本文介绍

二、DualConv原理 

2.2  DualConv的基本原理

2.3  结合3×3和1×1卷积核

2.3 组卷积技术

三、DualConv核心代码

四、C2f_DUAL的添加方式 

4.1 修改一

4.2 修改二 

4.3 修改三 

4.4 修改四 

五、C2f_DUAL的yaml文件和运行记录

5.1 C2f_DUAL的yaml文件一

5.2 C2f_DUAL的yaml文件二

5.3 C2f_DUAL的yaml文件三

5.4 C2f_DUAL的训练过程截图 

五、本文总结


二、DualConv原理 

论文地址:官方论文地址

代码地址: 


2.2  DualConv的基本原理

DualConv是一种创新的卷积网络结构,旨在构建轻量级的深度神经网络。它通过结合3×3和1×1的卷积核处理相同的输入特征映射通道,优化了信息处理和特征提取。DualConv利用组卷积技术高效排列卷积滤波器,大大降低了计算成本和参数数量。这种结构可以广泛应用于各种卷积神经网络(CNN)模型,如VGG-16、ResNet-50等,适用于图像分类、目标检测和语义分割任务。

DualConv的基本原理可以总结如下:

1. 结合3×3和1×1卷积核:DualConv使用3×3和1×1的卷积核同时处理相同的输入特征映射通道,结合了两者的优点。

2. 利用组卷积技术:它通过组卷积技术高效地安排卷积滤波器,减少了计算成本和参数数量。


2.3  结合3×3和1×1卷积核

DualConv结构中结合3×3和1×1卷积核的设计理念是为了融合这两种卷积核的优点:3×3卷积核在进行特征提取时可以捕获更多的空间信息,而1×1卷积核则可以在不增加过多参数和计算复杂度的前提下,进行特征通道之间的交互和信息整合。

下图是DualConv结构的可视化,它展示了如何结合3×3和1×1的卷积核:

在DualConv中,3×3卷积核被用于提取特征图的空间特征,而1×1卷积核则被用来整合这些特征,并减少模型的参数。

每个组内的卷积核都分别处理一部分输入通道,然后输出合并,从而在不同的特征图通道间实现信息的高效流动和整合。这种结构设计不仅保持了网络深度和表征能力,还降低了计算复杂度和模型大小,使其适用于资源受限的环境。 


2.3 组卷积技术

DualConv运用组卷积技术,这是一种有效的参数和计算量减少策略。在组卷积中,输入和输出特征图被分成多个组,每组的卷积滤波器仅处理对应的输入特征图的一部分,这减少了模型的复杂度。DualConv利用这一技术来进一步降低计算成本,因为它允许组内的不同卷积核(如3×3和1×1)并行处理同一组输入通道,优化了信息流和特征提取效率,同时保持了网络的表征能力。 

下面这幅图展示了DualConv的结构布局

图中描绘了3×3和1×1卷积核在输入特征映射通道上的并行布局具体来说,这种布局利用了组卷积技术将卷积核分组,并在同一组内并行使用不同尺寸的卷积核。这样的设计有助于同时利用大尺寸卷积核的空间特征提取能力和小尺寸卷积核的计算效率,从而在保持准确性的同时减少模型的参数数量和计算成本。 


三、DualConv核心代码

import torch
import torch.nn as nn__all__ = ['C2f_Dual']def autopad(k, p=None, d=1):  # kernel, padding, dilation"""Pad to 'same' shape outputs."""if d > 1:k = d * (k - 1) + 1 if isinstance(k, int) else [d * (x - 1) + 1 for x in k]  # actual kernel-sizeif p is None:p = k // 2 if isinstance(k, int) else [x // 2 for x in k]  # auto-padreturn pclass Conv(nn.Module):"""Standard convolution with args(ch_in, ch_out, kernel, stride, padding, groups, dilation, activation)."""default_act = nn.SiLU()  # default activationdef __init__(self, c1, c2, k=1, s=1, p=None, g=1, d=1, act=True):"""Initialize Conv layer with given arguments including activation."""super().__init__()self.conv = nn.Conv2d(c1, c2, k, s, autopad(k, p, d), groups=g, dilation=d, bias=False)self.bn = nn.BatchNorm2d(c2)self.act = self.default_act if act is True else act if isinstance(act, nn.Module) else nn.Identity()def forward(self, x):"""Apply convolution, batch normalization and activation to input tensor."""return self.act(self.bn(self.conv(x)))def forward_fuse(self, x):"""Perform transposed convolution of 2D data."""return self.act(self.conv(x))class DualConv(nn.Module):def __init__(self, in_channels, out_channels, stride=1, g=4):"""Initialize the DualConv class.:param input_channels: the number of input channels:param output_channels: the number of output channels:param stride: convolution stride:param g: the value of G used in DualConv"""super(DualConv, self).__init__()# Group Convolutionself.gc = nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=stride, padding=1, groups=g, bias=False)# Pointwise Convolutionself.pwc = nn.Conv2d(in_channels, out_channels, kernel_size=1, stride=stride, bias=False)def forward(self, input_data):"""Define how DualConv processes the input images or input feature maps.:param input_data: input images or input feature maps:return: return output feature maps"""return self.gc(input_data) + self.pwc(input_data)class Bottleneck(nn.Module):# Standard bottleneck with DCNdef __init__(self, c1, c2, shortcut=True, g=1, k=(3, 3), e=0.5):  # ch_in, ch_out, shortcut, groups, kernels, expandsuper().__init__()c_ = int(c2 * e)  # hidden channelsself.cv1 = Conv(c1, c_, k[0], 1)self.cv2 = DualConv(c2, c_)self.add = shortcut and c1 == c2def forward(self, x):return x + self.cv2(self.cv1(x)) if self.add else self.cv2(self.cv1(x))class C2f_Dual(nn.Module):# CSP Bottleneck with 2 convolutionsdef __init__(self, c1, c2, n=1, shortcut=False, g=1, e=0.5):  # ch_in, ch_out, number, shortcut, groups, expansionsuper().__init__()self.c = int(c2 * e)  # hidden channelsself.cv1 = Conv(c1, 2 * self.c, 1, 1)self.cv2 = Conv((2 + n) * self.c, c2, 1)  # optional act=FReLU(c2)self.m = nn.ModuleList(Bottleneck(self.c, self.c, shortcut, g, k=(3, 3), e=1.0) for _ in range(n))def forward(self, x):y = list(self.cv1(x).split((self.c, self.c), 1))y.extend(m(y[-1]) for m in self.m)return self.cv2(torch.cat(y, 1))if __name__ == "__main__":# Generating Sample imageimage_size = (1, 64, 224, 224)image = torch.rand(*image_size)# Modelmodel = C2f_Dual(64, 64)out = model(image)print(out.size())


四、C2f_DUAL的添加方式 

这个添加方式和之前的变了一下,以后的添加方法都按照这个来了,是为了和群内的文件适配。


4.1 修改一

第一还是建立文件,我们找到如下ultralytics/nn/modules文件夹下建立一个目录名字呢就是'Addmodules'文件夹(用群内的文件的话已经有了无需新建)!然后在其内部建立一个新的py文件将核心代码复制粘贴进去即可。


4.2 修改二 

第二步我们在该目录下创建一个新的py文件名字为'__init__.py'(用群内的文件的话已经有了无需新建),然后在其内部导入我们的检测头如下图所示。


4.3 修改三 

第三步我门中到如下文件'ultralytics/nn/tasks.py'进行导入和注册我们的模块(用群内的文件的话已经有了无需重新导入直接开始第四步即可)

从今天开始以后的教程就都统一成这个样子了,因为我默认大家用了我群内的文件来进行修改!!


4.4 修改四 

按照我的添加在parse_model里添加即可。

到此就修改完成了,大家可以复制下面的yaml文件运行。


五、C2f_DUAL的yaml文件和运行记录

5.1 C2f_DUAL的yaml文件一

此版本训练信息:YOLOv10n-C2f-DualConv summary: 386 layers, 2508246 parameters, 2508230 gradients, 7.8 GFLOPs

# Ultralytics YOLO 🚀, AGPL-3.0 license
# YOLOv10 object detection model. For Usage examples see https://docs.ultralytics.com/tasks/detect# Parameters
nc: 80 # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov10n.yaml' will call yolov10.yaml with scale 'n'# [depth, width, max_channels]n: [0.33, 0.25, 1024]backbone:# [from, repeats, module, args]- [-1, 1, Conv, [64, 3, 2]] # 0-P1/2- [-1, 1, Conv, [128, 3, 2]] # 1-P2/4- [-1, 3, C2f_Dual, [128, True]]- [-1, 1, Conv, [256, 3, 2]] # 3-P3/8- [-1, 6, C2f_Dual, [256, True]]- [-1, 1, SCDown, [512, 3, 2]] # 5-P4/16- [-1, 6, C2f_Dual, [512, True]]- [-1, 1, SCDown, [1024, 3, 2]] # 7-P5/32- [-1, 3, C2f_Dual, [1024, True]]- [-1, 1, SPPF, [1024, 5]] # 9- [-1, 1, PSA, [1024]] # 10# YOLOv10.0n head
head:- [-1, 1, nn.Upsample, [None, 2, "nearest"]]- [[-1, 6], 1, Concat, [1]] # cat backbone P4- [-1, 3, C2f_Dual, [512]] # 13- [-1, 1, nn.Upsample, [None, 2, "nearest"]]- [[-1, 4], 1, Concat, [1]] # cat backbone P3- [-1, 3, C2f_Dual, [256]] # 16 (P3/8-small)- [-1, 1, Conv, [256, 3, 2]]- [[-1, 13], 1, Concat, [1]] # cat head P4- [-1, 3, C2f_Dual, [512]] # 19 (P4/16-medium)- [-1, 1, SCDown, [512, 3, 2]]- [[-1, 10], 1, Concat, [1]] # cat head P5- [-1, 3, C2fCIB, [1024, True, True]] # 22 (P5/32-large)- [[16, 19, 22], 1, v10Detect, [nc]] # Detect(P3, P4, P5)


5.2 C2f_DUAL的训练过程截图 

 


5.3 训练代码 

import warnings
warnings.filterwarnings('ignore')
from ultralytics import YOLOif __name__ == '__main__':model = YOLO('模型yaml文件地址')# 如何切换模型版本, 上面的ymal文件可以改为 yolov8s.yaml就是使用的v8s,# 类似某个改进的yaml文件名称为yolov8-XXX.yaml那么如果想使用其它版本就把上面的名称改为yolov8l-XXX.yaml即可(改的是上面YOLO中间的名字不是配置文件的)!# model.load('yolov8n.pt') # 是否加载预训练权重,科研不建议大家加载否则很难提升精度model.train(data=r"填写你数据集yaml文件地址",# 如果大家任务是其它的'ultralytics/cfg/default.yaml'找到这里修改task可以改成detect, segment, classify, posecache=False,imgsz=640,epochs=150,single_cls=False,  # 是否是单类别检测batch=4,close_mosaic=0,workers=0,device='0',optimizer='SGD', # using SGD# resume=True, # 这里是填写Trueamp=False,  # 如果出现训练损失为Nan可以关闭ampproject='runs/train',name='exp',)

五、本文总结

到此本文的正式分享内容就结束了,在这里给大家推荐我的YOLOv10改进有效涨点专栏,本专栏目前为新开的平均质量分98分,后期我会根据各种最新的前沿顶会进行论文复现,也会对一些老的改进机制进行补充,如果大家觉得本文帮助到你了,订阅本专栏,关注后续更多的更新~

   专栏回顾:YOLOv10改进系列专栏——本专栏持续复习各种顶会内容——科研必备 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/43251.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

二叉树的序列化和反序列化(Java)

概述 关于面试中常见的其他二叉树算法题,参考面试算法之二叉树(Java)。二叉树的定义(注意到有使用lombok提供的两个注解): lombok.Data lombok.AllArgsConstructor private static class TreeNode {private TreeNode left;priva…

java 参数传递(尤其注意参数是对象的情况)

8大基本数据类型为 值传递 类和数组为 引用传递,传递的是地址 但是要注意虽然类是引用传递,但是要注意,调用方法是新开一个栈 因此如果进行p null或者 Person p new Person()等语句,要格外注意: 如果主函数再次输出…

基于场景的 Java Spring Boot 热门面试问题

随着 Spring Boot 继续主导 Java 生态系统,对熟悉这个强大框架的熟练开发人员的需求正在上升。如果您正在准备 Spring Boot 面试,尤其是作为一名经验丰富的专业人士,那么专注于测试您的实践知识和解决问题能力的基于场景的问题至关重要。本文…

音频demo:将PCM数据与alaw、mulaw、g711数据的相互转换

1、README 前言 (截图来源:https://blog.csdn.net/u014470361/article/details/88837776) 我的理解: 首先需要知道的是u-law/a-law是用于脉冲编码的压缩/解压缩算法。而G.711是指在8KHz采样率(单声道)中,使用的u-law或…

LLM- 注意力机制

一:什么是注意力机制,以及产生背景? (1):RNN模型[RNN模型]的缺点:下图是例如RNN模型解决机器翻译的例子,从这个例子可以看到Encoder最后一个向量(eos)送给了…

springboot整合vue上传文件至oss

引言 在现代Web应用中,文件上传是一个常见需求。而将文件存储在云存储服务(如阿里云OSS、AWS S3等)则是一个优雅且高效的解决方案。本文将使用Spring Boot作为后端框架,Vue作为前端框架,演示如何实现文件上传至阿里云…

Docker启动安装nacos

单机模式# 拉取镜像 docker pull nacos/nacos-server # (最新版) docker pull nacos/nacos-server:v2.2.0挂载目录中文件 新建目录 mkdir -p /mydata/nacos/logs/ #新建logs目录 mkdir -p /mydata/nacos/conf/ #新建conf目录复制容器文件到宿主机…

B端全局导航:左侧还是顶部?不是随随便便,有依据在。

一、什么是全局导航 B端系统的全局导航是指在B端系统中的主要导航菜单,它通常位于系统的顶部或左侧,提供了系统中各个模块和功能的入口。全局导航菜单可以帮助用户快速找到和访问系统中的各个功能模块,提高系统的可用性和用户体验。 全局导航…

Kubernetes平台迁移

Kubernetes&&平台迁移 信息收集 信息收集

HJ41 称砝码

HJ41 称砝码 提示&#xff1a;文章 文章目录 前言一、背景二、 2.1 2.2 总结 前言 前期疑问&#xff1a; 本文目标&#xff1a; 一、背景 这个题目之前是没有做出来的&#xff0c;我把之前没做出来的代码也记录一下 二、 2.1 之前的代码 #include <stdio.h>int m…

代码随想录算法训练营:23/60

非科班学习算法day23 | LeetCode39:组合总和 &#xff0c;Leetcode40:组合总和|| 介绍 包含LC的两道题目&#xff0c;还有相应概念的补充。 相关图解和更多版本&#xff1a; 代码随想录 (programmercarl.com)https://programmercarl.com/#%E6%9C%AC%E7%AB%99%E8%83%8C%E6%9…

计算机的错误计算(二十五)

摘要 介绍&#xff08;不&#xff09;停机问题。给了一个算式&#xff0c;当计算机的输出为0时&#xff0c;一般需要提高计算精度继续计算&#xff0c;一直到获得非0值或有效数字。但是&#xff0c;由于事先不清楚算式的准确值是否为0或不为0&#xff0c;因此往往陷入两难境地…

java包装类。

包装类介绍 Java的包装类&#xff08;Wrapper Classes&#xff09;是Java语言为八种基本数据类型&#xff08;byte, short, int, long, float, double, char, boolean&#xff09;提供的对应类。这些包装类允许我们将基本数据类型当作对象来处理&#xff0c;并提供了许多有用的…

常见的网络协议在不同的模型中层次分布

常见的网络协议根据其功能和作用&#xff0c;分布在OSI七层参考模型或TCP/IP四层参考模型的不同层次中。以下是这些协议在不同模型中的层次分布&#xff1a; 在OSI七层参考模型中的层次分布 物理层&#xff1a; 这一层主要涉及物理连接的建立和物理信号的传输&#xff0c;但通…

【Java15】继承

继承是面向对象三大特征之一&#xff0c;也是软件代码服用的重要手段。 Java只允许单继承&#xff0c;即每个子类只有一个直接父类。 C中的多继承被Java舍弃了&#xff0c;原因是多继承一方面难以准确表述类之间的关系&#xff0c;另一方面很容易造成代码错误。总结起来就两个…

双系统ubuntu20.04扩容

windows端 打开磁盘管理器&#xff0c;选择需要的盘点击压缩卷 点击未分配的盘&#xff0c;新建简单卷&#xff0c;一致点击下一步即可&#xff0c;记住分配的大小容量 ubuntu端 lsblk 查看所有的磁盘&#xff0c;可以看到新增为nvme0n1p4、nvme1n1p2 win分配的格式为NTFS&a…

【Excel】 批量跳转图片

目录标题 1. CtrlA全选图片 → 右键 → 大小和属性2. 取消 锁定纵横比 → 跳转高度宽度 → 关闭窗口3. 最后一图拉到最后一单元格 → Alt吸附边框![](https://i-blog.csdnimg.cn/direct/d56ac1f41af54d54bb8c68339b558dd1.png)4. CtrlA全选图片 → 对齐 → 左对齐 → 纵向分布!…

全网最适合入门的面向对象编程教程:11 类和对象的Python实现-子类调用父类方法-模拟串口传感器和主机

全网最适合入门的面向对象编程教程&#xff1a;11 类和对象的 Python 实现-子类调用父类方法-模拟串口传感器和主机 摘要&#xff1a; 本节课&#xff0c;我们主要讲解了在 Python 类的继承中子类如何进行初始化、调用父类的属性和方法&#xff0c;同时讲解了模拟串口传感器和…

OpenHarmony 入门——单元测试UnitTest快速入门

引言 OpenHarmony 的单元测试&#xff08;UnitTest&#xff09;是一个关键的软件开发过程&#xff0c;它确保代码的各个部分能够按预期工作&#xff0c;OpenHarmony的测试框架中提供了很多种的单元测试&#xff0c;今天简单介绍下UnitTest 类型的TDD测试。 OpenHarmony 的TDD …

Nacos 国际化

项目需要&#xff0c;后端异常信息需要进行国际化处理。所有想有没有方便易用的可选项。 1、国际化配置调整&#xff0c;不需要重启系统 2、可支持添加不同或自定义语言包&#xff08;就是配置的资源文件&#xff09; 参考&#xff1a; Nacos实现SpringBoot国际化的增强_spr…