卷积总结篇(普通卷积、转置卷积、膨胀卷积、分组卷积和深度可分离卷积)

目录

一、普通卷积:(“卷积”就是“加权求和”)

1.以2D卷积为例,2D卷积是一个相当简单的操作

2.卷积后的尺寸大小转换公式

3.功能

4.各个指标比较(参数量、计算量、感受野)

5.代码实现

二、转置卷积(Convolution Transposed,又叫反卷积、解卷积)

1.概念或背景

2.卷积后的尺寸大小转换公式

3.功能

4.各个指标比较(参数量、计算量、感受野)

5.转置卷积用途

6.代码实现

三、膨胀卷积( Dilated Convolution,又叫空洞卷积、扩张卷积)

1.概念或背景

2.卷积后的尺寸大小转换公式

3.功能

4.各个指标比较(参数量、计算量、感受野)

5.膨胀卷积用途

6.代码实现

四、分组卷积(Group Convolution)

1.概念或背景

2.卷积后的尺寸大小转换公式

3.功能

4.各个指标比较(参数量、计算量、感受野)

5.分组卷积用途

6.代码实现​​​​​​

 五、深度可分离卷积

1.逐通道卷积(Depthwise Convolution即DW卷积)

 2.逐点卷积(Pointwise Convolution即PW卷积)

3.深度可分离卷积的功能

4.各个指标比较(参数量、计算量、感受野)

5.深度可分离卷积用途

6.代码实现

六、总结 


什么是卷积?

         卷积是指在滑动中提取特征的过程,可以形象地理解为用放大镜把每步都放大并且拍下来,再把拍下来的图片拼接成一个新的大图片的过程。


一、普通卷积“卷积”就是“加权求和”)

更详细请看笔者的博文:矩阵乘法实现卷积运算_caip12999203000的博客-CSDN博客_矩阵乘法实现卷积

1.以2D卷积为例,2D卷积是一个相当简单的操作

在这里插入图片描述


        我们先从一个小小的权重矩阵,也就是 卷积核(kernel 开始,让它逐步在二维输入数据上“扫描”。卷积核“滑动”的同时,计算权重矩阵和扫描所得的数据矩阵的乘积,然后把结果汇总成一个输出像素。

         这里原理上使用的滑动窗口,但也可以有更多高效的方法,例如:笔者的另外一篇文章,使用的是矩阵乘法实现的卷积运算。

2.卷积后的尺寸大小转换公式

 (其中W1为输入矩阵大小,K为卷积核大小,P为向外填充的参数,S为步长,W2为输出的矩阵大小

3.功能

        特征图大小不变或缩小。根据公式通过调整PS参数可实现特征图大小不变以及缩小。

4.各个指标比较(参数量、计算量、感受野)

输入的通道数为M,尺寸为DF x DF ,输出通道数为N,卷积核大小为Dx DK ,忽略偏执b

5.代码实现

Pytorch参考

import torch.nn as nn
import torch
# 输入值
im = torch.randn(1, 1, 5, 5)
# 普通卷积使用
c = nn.Conv2d(1, 1, kernel_size=2, stride=2, padding=1)
output = c(im)
# 输出
print("输入:\n",im.shape)
print("输出:\n",output.shape)
print("卷积核参数:\n",list(c.parameters()))

结果展示:


二、转置卷积(Convolution Transposed,又叫反卷积、解卷积

更详细请看笔者的博文:转置卷积(Convolution Transposed又叫反卷积、解卷积)_caip12999203000的博客-CSDN博客

1.概念或背景

在这里插入图片描述

        通常,对图像进行多次卷积运算后,特征图的尺寸会不断缩小。而对于某些特定任务 (如图像分割和图像生成等),需将图像恢复到原尺寸再操作。这个将图像由小分辨率映射到大分辨率的尺寸恢复操作,叫做 上采样 (Upsample)

2.卷积后的尺寸大小转换公式

 (其中W1为输入矩阵大小,K为卷积核大小,P为向外填充的参数,S为步长,W2为输出的矩阵大小)

3.功能

        特征图变大(上采样)将低分辨率的特征图样上采样到原始图像的分辨率大小,以给出原始图片的分割结果。

4.各个指标比较(参数量、计算量、感受野)

(输入的通道数为M,尺寸为DF x DF ,输出通道数为N,卷积核大小为Dx DK ,忽略偏执b。)

5.转置卷积用途

1) DCGAN,生成器将随机值转变为一个全尺寸图片,此时需用到转置卷积。

2)在语义分割中,会在编码器中用卷积层提取特征,然后在解码器中恢复原先尺寸,从而对原图中的每个像素分类。该过程同样需用转置卷积。经典方法有 FCN U-net

3)CNN 可视化:通过转置卷积将 CNN 的特征图还原到像素空间,以观察特定特征图对哪些模式的图像敏感。

6.代码实现

Pytorch参考

import torch.nn as nn
import torch
# 输入值
im = torch.randn(1, 1, 5, 5)
# 转置卷积使用
c = nn.ConvTranspose2d(1, 1, kernel_size=2, bias=False)
output = c(im)
# 输出
print("输入:\n",im.shape)
print("输出:\n",output.shape)
print("卷积核参数:\n",list(c.parameters()))

结果展示


三、膨胀卷积( Dilated Convolution,又叫空洞卷积、扩张卷积

更详细请看笔者的博文:

膨胀卷积(Dilated convolutions)(又成空洞卷积、扩张卷积)_caip12999203000的博客-CSDN博客

1.概念或背景

在这里插入图片描述

        膨胀卷积是在标准卷积的Convolution map的基础上注入空洞,以此来增加感受野(reception field)。因此,膨胀卷积在标准卷积的基础上又多了一个超参数(hyper-parameter)称之为膨胀率(dilation rate),该超参数指的是kernel的间隔数量。膨胀卷积是为解决语义分割任务而提出的。

2.卷积后的尺寸大小转换公式

(其中W1为输入矩阵大小,K为卷积核大小,P为向外填充的参数,S为步长,a为膨胀率,W2为输出的矩阵大小)

3.功能

        增大感受野,卷积核中间填充0。在于普通卷积相同的计算条件下的情况下,该卷积可以增大特征图的感受野。另外,通过修改padding的大小,可以保证输入输出特征图的shape不变。

4.各个指标比较(参数量、计算量、感受野)

(输入的通道数为M,尺寸为DF x DF ,输出通道数为N a为膨胀率,卷积核大小为Dx DK ,忽略偏执b。)

5.膨胀卷积用途

1)膨胀卷积(Dilated Convolution),广泛应用于语义分割与目标检测等任务中,语义分割中经典的deeplab系列与DUC对空洞卷积进行了深入的思考。目标检测中SSDRFBNet,同样使用了空洞卷积。

2)ESPNet ESP模块模块包含point-wise卷积空洞卷积金字塔,每层具有不同的dilation rate,在参数量不增加的情况下,能够融合多尺度特征,相比于深度可分离卷积,深度可分离空洞卷积金字塔性价比更高。(参考

6.代码实现

Pytorch参考

膨胀卷积中,paddingdilation所使用的因子需要是相同的,否则,可能会导致图像的尺寸会发生变化,就不是膨胀卷积了

import torch.nn as nn
import torch
# 输入值
im = torch.randn(1, 1, 5, 5)
# 膨胀卷积使用
dilation=2 # 膨胀率
c=nn.Conv2d(1, 1, kernel_size=2, stride=2,padding=dilation, bias=False, dilation=dilation)
output = c(im)
# 输出
print("输入:\n",im.shape)
print("输出:\n",output.shape)
print("卷积核参数:\n",list(c.parameters()))

结果展示:


四、分组卷积(Group Convolution)

更详细请看笔者的博文:

组卷积和深度可分离卷积_caip12999203000的博客-CSDN博客

1.概念或背景

        分组卷积(Group Convolution)顾名思义,在对特征图进行卷积的时候,首先对特征图分组再卷积。

2.卷积后的尺寸大小转换公式

(其中W1为输入矩阵大小,K为卷积核大小,P为向外填充的参数,S为步长,W2为输出的矩阵大小)

3.功能

1)减少参数量,分成G组,则该层的参数量减为原来的1/G
2)分组卷积可以看做是对原来的特征图进行了一个dropout,有正则的效果

4.各个指标比较(参数量、计算量、感受野)

(输入的通道数为M,尺寸为DF x DF ,输出通道数为N,卷积核大小为Dx DK g为组数,忽略偏执b。)

5.分组卷积用途

1)分组卷积,最早在AlexNet中出现,由于当时的硬件资源有限,训练AlexNet时卷积操作不能全部放在同一个GPU处理,因此作者把feature maps分给多个GPU分别进行处理,最有把多个GPU的结果进行融合。

2) IGCV1   简单通道的分组,都是只有一个分组,而以IGCVInterleaved Group Convolutions交替组卷积)系列为代表的模型采用了多个分组卷积结构级联的形式。(参考

6.代码实现

Pytorch参考

import torch.nn as nn
import torch
import numpy as np
# 输入值
im = torch.randn(1, 4, 5, 5)
# 分组卷积使用
groups = 2 # 组数
c=nn.Conv2d(4, 2, kernel_size=2, stride=2,padding=2, groups=groups, bias=False)
output = c(im)
# 输出
print("输入:\n",im.shape)
print("输出:\n",output.shape)
print("卷积核参数:\n",list(c.parameters()))

结果展示: 

​​​​​​


 五、深度可分离卷积

 更详细请看笔者的博文:

组卷积和深度可分离卷积_caip12999203000的博客-CSDN博客

        在计算资源受限制的移动端设备上,常规的卷积操作由于计算量大,经常难以满足实际运行速度的要求,这时深度可分离卷积(Depthwise Separable Convolution)就派上了用场。深度可分离卷积是由Depthwise(DW)卷积与Pointwise(PW)卷积组成。该结构和常规卷积类似,可用来提取特征,但相比常规卷积,其参数量和运算成本较低,所以在一些轻量级网络中经常用到此结构,如MobileNetShuffleNet

1.逐通道卷积Depthwise ConvolutionDW卷积

          Depthwise Convolution一个卷积核负责一个通道一个通道只被一个卷积核卷积,这个过程产生的Feature Map通道数和输入的通道数一样。

 2.逐点卷积Pointwise ConvolutionPW卷积

        Pointwise Convolution的运算与常规卷积非常相似,它的卷积核大小1x1xMM为上一层的通道数,所以这里的卷积运算会将上一步的map在深度方向上进行加权组合,生成新的Feature map。有几个卷积核就有几个Feature map,卷积核的shape即为:1 x 1 x 输入通道数 x 输出通道数

3.深度可分离卷积的功能

        可以看出运用深度可分离卷积比普通卷积减少了所需要的参数。重要的是深度可分离卷积将以往普通卷积操作同时考虑通道和区域改变成,卷积先只考虑区域,然后再考虑通道。实现了通道和区域的分离。

4.各个指标比较(参数量、计算量、感受野)

(输入的通道数为M,尺寸为DF x DF ,输出通道数为N a为膨胀率,卷积核大小为Dx DK n为卷积核的个数,忽略偏执b。)

5.深度可分离卷积用途

1)一些轻量级网络中经常用到此结构,如MobileNetShuffleNetSqueezeNet

2) Xception  基 于Inception系列网络结构的基础上,结合depthwise separable convolution, 就是Xception。(参考 

6.代码实现

Pytorch

import torch.nn as nn
import torch
import numpy as np
# 输入值
im = torch.randn(1, 4, 5, 5)
# 深度可分卷积使用
hidden_channel = 4 # 组数
out_channel = 1
# DW卷积
c1 = nn.Conv2d(hidden_channel, hidden_channel, kernel_size=2, stride=2, padding=2, groups=hidden_channel, bias=False)
# PW卷积
c2 = nn.Conv2d(hidden_channel, out_channel, kernel_size=1, bias=False)
output1 = c1(im)
output2 = c2(output1)
# 输出
print("输入:\n",im.shape)
print("输出:\n",output2.shape)
print("卷积核参数:\n",list(c2.parameters()))

结果展示: 


六、总结 

        上面是笔者对于前面几个博客关于卷积的总结,分别从概念、背景、原理、参数量、计算量、感受野、各种卷积的优点以及在网络的应用展开讲解。如果您感觉有用的话,请点个👍,谢谢。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/124641.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[架构之路-246/创业之路-77]:目标系统 - 纵向分层 - 企业信息化的呈现形态:常见企业信息化软件系统 - 客户关系管理系统CRM

目录 前言: 一、企业信息化的结果:常见企业信息化软件 1.1 客户关系管理系统CRM 1.1.1 什么是客户关系管理系统 1.1.2 CRM总体架构 1.1.3 什么类型的企业需要CRM 1.1.4 创业公司在什么阶段需要CRM 1.1.5 研发型创业公司什么时候需要CRM 1.1.6 C…

【OpenCV实现图像找到轮廓的不同特征,就像面积,周长,质心,边界框等等。】

文章目录 概要图像矩凸包边界矩形 概要 OpenCV是一个流行的计算机视觉库,它提供了许多图像处理和分析功能,其中包括查找图像中物体的轮廓。通过查找轮廓,可以提取许多有用的特征,如面积、周长、质心、边界框等。 以下是几种使用…

Docker:安装MySQL

Docker:安装MySQL 1. 部署MySQL2.部署多个MySQL服务 1. 部署MySQL 首先需要安装Docker,安装Docker地址:http://t.csdnimg.cn/utPGF 安装命令: docker run -d \--name mysql \-p 3306:3306 \-e TZAsia/Shanghai \-e MYSQL_ROOT…

DIY相机(一)libcamera库

相机选型 DIY相机首先是要确定使用的相机型号。兼容树莓派,画质好一些的,目前主要有两款:一是Raspberry Pi Camera Module 3,二是Raspberry Pi HQ Camera。 下图是Raspberry Pi Camera Module 3的相关特性。支持自动对焦和HDR等…

python随手小练14

题目: 文件操作 : 根据文件要求(测试)筛选出数据并且放入一个新的文件 具体操作: f1 open("1.txt","r",encoding"UTF-8") f2 open("2.txt","w",encoding"U…

软考系统架构师知识点集锦八:嵌入式系统

一、考情分析 二、考点精讲 2.1嵌入式系统概述 2.1.1基本概念 (1)嵌入式系统是以应用为中心、以计算机技术为基础,并将可配置与可裁剪的软、硬件集成于一体的专用计算机系统,需要满足应用对功能、可靠性、成本、体积和功耗等方面的严格要求。 (2)从计算机角度看,嵌…

轻量封装WebGPU渲染系统示例<8>- 渲染器基本场景管理(源码)

当前示例源码github地址: https://github.com/vilyLei/voxwebgpu/blob/main/src/voxgpu/sample/RSceneTest.ts 此示例渲染系统实现的特性: 1. 用户态与系统态隔离。 2. 高频调用与低频调用隔离。 3. 面向用户的易用性封装。 4. 渲染数据和渲染机制分离。 5. 用户操作和渲…

数据结构:算法(特性,时间复杂度,空间复杂度)

目录 1.算法的概念2.算法的特性1.有穷性2.确定性3.可行性4.输入5.输出 3.好算法的特质1.正确性2.可读性3.健壮性4.高效率与低存储需求 4.算法的时间复杂度1.事后统计的问题2.复杂度表示的计算1.加法规则2.乘法规则3.常见函数数量级比较 5.算法的空间复杂度1.程序的内存需求2.例…

SpringBoot通过注解形式实现系统操作日志

介绍 我们在日常开发工作中,肯定逃不开与日志接触,一些比较严谨的后台管理系统里面会涉及到一些比较重要的资料,有些公司为了知道有哪些人登录了系统,是谁在什么时候修改了用户信息或者资料,所以就有了操作日志这么个…

1.4 安全服务

思维导图: 1.4 安全服务 定义:在通信开放系统中,为系统或数据传输提供足够安全的协议层服务。 RFC4949 定义:由系统提供的对系统资源进行特殊保护的处理或通信服务。安全服务通过安全机制来实现安全策略。 分类:X.800 …

Flink将数据写入MySQL(JDBC)

一、写在前面 在实际的生产环境中&#xff0c;我们经常会把Flink处理的数据写入MySQL、Doris等数据库中&#xff0c;下面以MySQL为例&#xff0c;使用JDBC的方式将Flink的数据实时数据写入MySQL。 二、代码示例 2.1 版本说明 <flink.version>1.14.6</flink.version…

故障诊断模型 | Maltab实现BiLSTM双向长短期记忆神经网络故障诊断

文章目录 效果一览文章概述模型描述源码设计参考资料效果一览 文章概述 故障诊断模型 | Maltab实现BiLSTM双向长短期记忆神经网络故障诊断 模型描述 利用各种检查和测试方法,发现系统和设备是否存在故障的过程是故障检测;而进一步确定故障所在大致部位的过程是故障定位。故障…

Linux网络编程二(TCP三次握手、四次挥手、TCP滑动窗口、MSS、TCP状态转换、多进程/多线程服务器实现)

TCP三次握手 TCP三次握手(TCP three-way handshake)是TCP协议建立可靠连接的过程&#xff0c;确保客户端和服务器之间可以进行可靠的通信。下面是TCP三次握手的详细过程&#xff1a; 假设客户端为A&#xff0c;服务器为B 1、第一次握手&#xff08;SYN1&#xff0c;seq500&…

03_Flutter自定义下拉菜单

03_Flutter自定义下拉菜单 在Flutter的内置api中&#xff0c;可以使用showMenu实现类似下拉菜单的效果&#xff0c;或者使用PopupMenuButton组件&#xff0c;PopupMenuButton内部也是使用了showMenu这个api&#xff0c;但是使用showMenu时&#xff0c;下拉面板的显示已经被约定…

List的add(int index,E element)陷阱,不得不防

项目场景&#xff1a; 项目中有两个List列表&#xff0c;一个是List1用来存储一个标识&#xff0c;后续会根据这个标识去重。 一个List2是用来返回对象的&#xff0c;其中对象里也有一个属性List3。现需要将重复的标识数据追加到List3 我想到的两个方案&#xff1a; 尽量不动…

吴恩达《机器学习》2-5->2-7:梯度下降算法与理解

一、梯度下降算法 梯度下降算法的目标是通过反复迭代来更新模型参数&#xff0c;以便最小化代价函数。代价函数通常用于衡量模型的性能&#xff0c;我们希望找到使代价函数最小的参数值。这个过程通常分为以下几个步骤&#xff1a; 初始化参数&#xff1a; 随机或设定初始参数…

项目资源管理-考试重点

1. 冲突管理的5种方法 ① 撤退/回避 ② 缓和/包容 ③ 妥协/调解 ④ 强迫/命令 ⑤ 合作/解决问题 2. 虚拟团队的优缺点 优点&#xff1a; ① 能够利用不在同一地理区域的专家的专业技术 ② 将在家办公的员工纳入团队 ③ 以及将行动不便者或残疾人纳入团队 缺点&#…

【图像分类】基于计算机视觉的坑洼道路检测和识别(ResNet网络,附代码和数据集)

写在前面: 首先感谢兄弟们的关注和订阅,让我有创作的动力,在创作过程我会尽最大能力,保证作品的质量,如果有问题,可以私信我,让我们携手共进,共创辉煌。 本篇博文,我们将使用PyTorch深度学习框架搭建ResNet实现钢轨缺陷识别,附完整的项目代码和数据集,可以说是全网…

C++ 自引用指针this(整理)

使用例子&#xff1a; #include <iostream> #include <Windows.h> using namespace std; class A { public:A(int x1){x x1;}void disp(){cout<<"this"<<this<<" when x"<<this->x<<endl;} private:int x;…

Node学习笔记之user用户API模块

1、获取用户的基本信息 步骤 获取登录会话存储的session中用户的id判断是否获取到id根据用户id查询数据库中的个人信息检查指定 id 的用户是否存在将密码设置为空将数据返回给前端 // 获取用户信息数据 exports.userinfo (req, res) > {(async function () {// 1. 获取…