pytorch05:卷积、池化、激活

目录

  • 一、卷积
    • 1.1 卷积的概念
    • 1.2 卷积可视化
    • 1.3 卷积的维度
    • 1.4 nn.Conv2d
      • 1.4.1 无padding 无stride卷积
      • 1.4.2 无padding stride=2卷积
      • 1.4.3 padding=2的卷积
      • 1.4.4 空洞卷积
      • 1.4.5 分组卷积
    • 1.5 卷积输出尺寸计算
    • 1.6 卷积的维度
    • 1.7 转置卷积
      • 1.7.1 为什么被称为转置卷积
      • 1.7.2 nn.ConvTranspose2d
      • 1.7.3 转置卷积的计算方法
      • 1.7.4 核心代码
  • 二、池化层(Pooling Layer)
    • 2.1 池化的概念
    • 2.2 nn.MaxPool2d
      • 2.2.1 代码实现
    • 2.3 nn.AvgPool2d
      • 2.3.1 代码实现
    • 2.4 最大池化与平均池化区别
    • 2.5 nn.MaxUnpool2d
      • 2.5.1 核心代码实现
  • 三、线性层(Linear Layer)
    • 3.1nn.Linear
  • 四、激活函数层(Activation Layer)
    • 4.1 概念
    • 4.2 nn.Sigmoid激活函数
    • 4.3 nn.tanh激活函数
    • 4.4 nn.ReLU激活函数
    • 4.5 ReLU变体形式

一、卷积

1.1 卷积的概念

卷积运算:卷积核在输入信号(图像)上滑动,相应位置上进行乘加
卷积核:又称为滤波器,过滤器,可认为是某种模式,某种特征。
卷积过程类似于用一个模版去图像上寻找与它相似的区域,与卷积核模式越相似,激活值越高,从而实现特征提取。
在这里插入图片描述

1.2 卷积可视化

AlexNet这篇论文对卷积核进行了可视化,发现卷积核学习到的是边缘,条纹,色彩这一些细节模式,但是只有前几层卷积提取的特征可视化较为明显,随着网络的加深,卷积次数的增加,特征可视化也逐渐模糊。
在这里插入图片描述

1.3 卷积的维度

卷积维度:一般情况下,卷积核在几个维度上滑动,就是几维卷积,下面三幅图分别是一维卷积、二维卷积、三维卷积。我们常见的图片特征提取使用的是二维卷积(conv2d),在医学图像领域用于癌细胞切片分析使用的是三维卷积(conv3d)。
一维卷积
在这里插入图片描述
在这里插入图片描述

1.4 nn.Conv2d

功能:对多个二维信号进行二维卷积,例如图片
主要参数:
• in_channels:输入通道数
• out_channels:输出通道数,等价于卷积核个数
• kernel_size:卷积核尺寸
• stride:步长,卷积核每次移动的长度
• padding :图片边缘填充个数
• dilation:空洞卷积大小,常用于图像分割任务,用来提升感受野
• groups:分组卷积设置
• bias:偏置
在这里插入图片描述

1.4.1 无padding 无stride卷积

每次在原图滑动1个单位
在这里插入图片描述

1.4.2 无padding stride=2卷积

每次在原图滑动两个单位
在这里插入图片描述

1.4.3 padding=2的卷积

在原图的边缘增加2个单位的填充。
在这里插入图片描述

1.4.4 空洞卷积

在这里插入图片描述

1.4.5 分组卷积

同一种张图片使用两个不同的GPU进行训练,最后将两张GPU提取的特征进行融合。在这里插入图片描述

1.5 卷积输出尺寸计算

在这里插入图片描述
完整尺寸计算公式:
在这里插入图片描述
一般我们输入的图像都会进行预处理,将长宽变为相同大小,所以H,W两个公式可以看为相等。

1.6 卷积的维度

卷积维度:一般情况下,卷积核在几个维度上滑动,就是几维卷积,我们的图像是二维图像,卷积核的维度也是二维。
我们的图像是RGB三个通道,所以会在三个二维图像上进行滑动提取特征,最后将红绿蓝三个通道特征提取之后进行相加,得到一个output特征图。
在这里插入图片描述

1.7 转置卷积

转置卷积又称为反卷积(Deconvolution)和部分跨越卷积(Fractionallystrided Convolution) ,用于对图像进行上采样(UpSample)

1.7.1 为什么被称为转置卷积

正常卷积,图片经过卷积之后,等到的特征图尺寸会比原图小
在这里插入图片描述

而转置卷积经过卷积核之后会将原图尺寸方法常用于上采样,提升图片的尺度
在这里插入图片描述

在这里插入图片描述

1.7.2 nn.ConvTranspose2d

功能:转置卷积实现上采样
在这里插入图片描述
主要参数:
• in_channels:输入通道数
• out_channels:输出通道数
• kernel_size:卷积核尺寸
• stride:步长
• padding :填充个数
• dilation:空洞卷积大小
• groups:分组卷积设置
• bias:偏置

1.7.3 转置卷积的计算方法

在这里插入图片描述
完整版本:
在这里插入图片描述

1.7.4 核心代码

flag = 1
if flag:conv_layer = nn.ConvTranspose2d(3, 1, 3, stride=2)  # input:(i, o, size)nn.init.xavier_normal_(conv_layer.weight.data)# calculationimg_conv = conv_layer(img_tensor)

输出结果:
在这里插入图片描述
在这里插入图片描述

二、池化层(Pooling Layer)

2.1 池化的概念

池化运算:对信号进行 “收集”并 “总结”,类似水池收集水资源,因而得名池化层,“收集”:多变少;“总结”:最大值/平均值

池化有最大池化和平均池化
最大池化:取池化范围内最大的数,下图中池化范围2x2,取每个池化范围内数值最大的
平均池化:取池化范围内的平均值,下图中池化范围2x2,取每个池化范围内数值之和,再求平均
在这里插入图片描述

2.2 nn.MaxPool2d

功能:对二维信号(图像)进行最大值池化
在这里插入图片描述
主要参数:
• kernel_size:池化核尺寸
• stride:步长
• padding :填充个数
• dilation:池化核间隔大小
• ceil_mode:尺寸向上取整
• return_indices:记录池化像素索引

2.2.1 代码实现

import os
import torch
import random
import numpy as np
import torchvision
import torch.nn as nn
from torchvision import transforms
from matplotlib import pyplot as plt
from PIL import Image
from common_tools import transform_invert, set_seedset_seed(1)  # 设置随机种子# ================================= load img ==================================
path_img = os.path.join(os.path.dirname(os.path.abspath(__file__)), "lena.png")
img = Image.open(path_img).convert('RGB')  # 0~255# convert to tensor
img_transform = transforms.Compose([transforms.ToTensor()])
img_tensor = img_transform(img)
img_tensor.unsqueeze_(dim=0)  # C*H*W to B*C*H*W# ================ maxpool
flag = 1
# flag = 0
if flag:maxpool_layer = nn.MaxPool2d((2, 2), stride=(2, 2)) #这里为什么池化和步长都设置(2,2),是为了保证每次池化的区域不重叠img_pool = maxpool_layer(img_tensor)
# ================================= 展示图像 ==================================
print("池化前尺寸:{}\n池化后尺寸:{}".format(img_tensor.shape, img_pool.shape))
img_pool = transform_invert(img_pool[0, 0:3, ...], img_transform)
img_raw = transform_invert(img_tensor.squeeze(), img_transform)
plt.subplot(122).imshow(img_pool)
plt.subplot(121).imshow(img_raw)
plt.show()

输出结果,图片大小为原来的一半:
在这里插入图片描述
在这里插入图片描述

2.3 nn.AvgPool2d

功能:对二维信号(图像)进行平均值池化
在这里插入图片描述
主要参数:
• kernel_size:池化核尺寸
• stride:步长
• padding :填充个数
• ceil_mode:尺寸向上取整
• count_include_pad:填充值用于计算
• divisor_override :除法因子

2.3.1 代码实现

核心代码:

flag = 1
# flag = 0
if flag:avgpoollayer = nn.AvgPool2d((2, 2), stride=(2, 2))  # input:(i, o, size) weights:(o, i , h, w)img_pool = avgpoollayer(img_tensor)

输出结果:
在这里插入图片描述
在这里插入图片描述

2.4 最大池化与平均池化区别

下面第一幅图是最大池化,第二幅图是平均池化,因为最大池化取的是一个区域内的最大值,所以第一幅图比第二幅图某些区域更亮,特征更明显。
在这里插入图片描述

2.5 nn.MaxUnpool2d

功能:对二维信号(图像)进行最大值池化进行上采样,但是需要根据池化中的最大值位置索引进行上采样,例如[1,2,0,1]经过最大池化,取第二个位置,当前索引为2,所以[3,2,1,7]进行上采样,其中3是在上采样后索引为2的位置上,其他区域为0.
在这里插入图片描述
在这里插入图片描述
主要参数:
• kernel_size:池化核尺寸
• stride:步长
• padding :填充个数

2.5.1 核心代码实现

flag = 1
if flag:# poolingimg_tensor = torch.randint(high=5, size=(1, 1, 4, 4), dtype=torch.float) # 生成特征图maxpool_layer = nn.MaxPool2d((2, 2), stride=(2, 2), return_indices=True) # 设置池化层img_pool, indices = maxpool_layer(img_tensor) #获取池化后的数据以及索引# unpoolingimg_reconstruct = torch.randn_like(img_pool, dtype=torch.float) #根据img_poolshape随机构建数据maxunpool_layer = nn.MaxUnpool2d((2, 2), stride=(2, 2)) #搭建最大池化上采样层img_unpool = maxunpool_layer(img_reconstruct, indices)print("raw_img:\n{}\nimg_pool:\n{}".format(img_tensor, img_pool))print("索引位置:{}".format(indices))print("img_reconstruct:\n{}\nimg_unpool:\n{}".format(img_reconstruct, img_unpool))

输出结果:
在这里插入图片描述

三、线性层(Linear Layer)

线性层又称全连接层,其每个神经元与上一层所有神经元相连,实现对前一层的线性组合,线性变换。
在这里插入图片描述
在这里插入图片描述
输入的input=[1,2,3],经过加权相乘得到的hidden=[6,1,18,24]

3.1nn.Linear

功能:对一维信号(向量)进行线性组合
在这里插入图片描述
主要参数:
• in_features:输入结点数
• out_features:输出结点数
• bias :是否需要偏置
计算公式:y = 𝒙*𝑾𝑻 + 𝒃𝒊𝒂𝒔

代码实现:

flag = 1
if flag:inputs = torch.tensor([[1., 2, 3]])linear_layer = nn.Linear(3, 4)linear_layer.weight.data = torch.tensor([[1., 1., 1.],[2., 2., 2.],[3., 3., 3.],[4., 4., 4.]])linear_layer.bias.data.fill_(0.5)  # 偏执项,x*w+boutput = linear_layer(inputs)print(inputs, inputs.shape)print(linear_layer.weight.data, linear_layer.weight.data.shape)print(output, output.shape)

输出结果:
在这里插入图片描述

四、激活函数层(Activation Layer)

4.1 概念

激活函数对特征进行非线性变换,赋予多层神经网络具有深度的意义。
为什么要使用激活函数呢,因为输入的特征只是通过线性变换,不过是经过多层网络都还是线性变换,就如下面这幅图的计算公式一样。
在这里插入图片描述

4.2 nn.Sigmoid激活函数

函数图像:
在这里插入图片描述
计算公式:
在这里插入图片描述

4.3 nn.tanh激活函数

函数图像:
在这里插入图片描述
计算公式:
在这里插入图片描述

4.4 nn.ReLU激活函数

函数图像:
在这里插入图片描述
计算公式:
在这里插入图片描述

4.5 ReLU变体形式

nn.LeakyReLU:在负半轴添加一点斜率;
nn.PReLU:将负半轴的斜率变为可学习的;
nn.RReLU:负半轴的斜率上下均匀分布;
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/587389.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【HDFS联邦(2)】HDFS Router-based Federation官网解读:HDFSRouterFederation的架构、各组件基本原理

文章目录 一. 介绍二、HDFS Router-based Federation 架构1. 示例说明2. Router2.1. Federated interface2.2. Router heartbeat2.3. NameNode heartbeat2.4. Availability and fault toleranceInterfaces 3. Quota management4. State Store 三、部署 ing 本文主要参考官网&am…

JavaScript系列——正则表达式

文章目录 需求场景正则表达式的定义创建正则表达式通过 / 表示式/ 创建通过构造函数创建 编写一个正则表达式的模式使用简单模式使用特殊字符常用特殊字符列表特殊字符组和范围 正则表达式使用代码演示 常用示例验证手机号码合法性 小结 需求场景 在前端开发领域,在…

C语言 指针

C语言学习! 目录 文章目录 前言 一、指针是什么? 二、指针变量的大小 三、指针和指针类型 四、指针和函数 五、野指针 5.1野指针成因 5.2 如何规避野指针 六、指针运算 6.1 指针- 整数 6.2 指针-指针 6.3 指针的关系运算 总结 前言 指针理解的2个要点&a…

前端Vue中自定义Popup弹框、按钮及内容的设计与实践

标题:前端Vue中自定义Popup弹框、按钮及内容的设计与实践 一、引言 在Web前端开发中,弹框(Popup)是一种常见的用户界面元素,用于向用户显示额外的信息或提供额外的功能。然而,标准的弹框往往不能满足所有…

Django学习3——靓号管理

目录 靓号管理 表结构和数据 根据表结构的需求,在models.py中创建类(由类生成数据库中的表) 在数据库生成表 自己在数据模拟创建一些数据: 靓号列表 新建靓号 编辑靓号 删除靓号 搜索靓号 靓号管理 表结构和数据 根…

DHCP学习记录

目录 客户端向DHCP服务端申请租用IP的4个阶段: 客户端向HDCP服务器续租IP过程: 客户端重新连接租用IP过程: 客户端释放IP 声明: (Dynamic Host Configuration Protocol)动态主机配置协议,客户端向DHCP服务端申请获得ip的一种约定俗成的话语(协议) 手工配置方式…

啊哈c语言——4.10、for隆重登场(一起来找茬)

下面这段代码是求12345678910的值。其中有4个错误&#xff0c; 快来改正吧&#xff01; 改正后&#xff1a; #include <stdio.h> #include <stdlib.h> int main( ) {int i, sum;sum1;for(i1; i<10;i){sumsum*i;}printf("%d", sum);system("paus…

如何在无公网IP环境使用Windows远程桌面Ubuntu

文章目录 一、 同个局域网内远程桌面Ubuntu二、使用Windows远程桌面连接三、公网环境系统远程桌面Ubuntu1. 注册cpolar账号并安装2. 创建隧道&#xff0c;映射3389端口3. Windows远程桌面Ubuntu 四、 配置固定公网地址远程Ubuntu1. 保留固定TCP地址2. 配置固定的TCP地址3. 使用…

appium安装运行报错的解决方案

appium版本2.3 java17 运行报错&#xff1a; Caused by: org.openqa.selenium.SessionNotCreatedException: Could not start a new session. Response code 500. Message: An unknown server-side error occurred while processing the command. Original error: Could not…

40道MyBatis面试题带答案(很全)

1. 什么是MyBatis &#xff08;1&#xff09;Mybatis是一个半ORM&#xff08;对象关系映射&#xff09;框架&#xff0c;它内部封装了JDBC&#xff0c;开发时只需要关注SQL语句本身&#xff0c;不需要花费精力去处理加载驱动、创建连接、创建statement等繁杂的过程。程序员直接…

海康visionmaster-渲染结果:通过绑定流程或模块获取 渲染结果的方法

描述 环境&#xff1a;VM4.0.0 VS2015 及以上 现象&#xff1a;方案或流程运行执行之后&#xff0c;就可以获取结果&#xff0c;可以通过获取渲染结果和数据结果&#xff0c; 渲染结果通过绑定渲染控件进行显示。 解答 渲染结果的显示可以通过渲染控件绑定流程或者模块&#x…

RSA加密解密——用shell加密java解密

功能描述 使用shell opensll对明文进行RSA加密&#xff0c;将密文用java的RSA工具对密文解密。这应该是全网第一个同时用到shell和java的RSA加密解密教程。中间有很多坑&#xff0c;都踩过了&#xff0c;可以放心使用代码。 正确的实现流程 shell端 首先生成公钥私钥 &…

【华为机试】2023年真题B卷(python)-冠亚军排名-奖牌榜排名

一、题目 题目描述&#xff1a; 2012伦敦奥运会即将到来&#xff0c;大家都非常关注奖牌榜的情况&#xff0c;现在我们假设奖牌榜的排名规则如下. 1.首先gold medal数量多的排在前面 2.其次silver medal数量多的排在前面 3.然后bronze medal数量多的排在前面 4.若以上三个条…

【数据结构】栈和队列(栈的基本操作和基础知识)

&#x1f308;个人主页&#xff1a;秦jh__https://blog.csdn.net/qinjh_?spm1010.2135.3001.5343&#x1f525; 系列专栏&#xff1a;《数据结构》https://blog.csdn.net/qinjh_/category_12536791.html?spm1001.2014.3001.5482 目录 前言 栈 栈的概念和结构 栈的实现 ​…

【时钟】分布式时钟HLC|Logical Time|Vector Clock|True Time

目录 简略 详细 附录 1 分布式系统不能使用NTP的原因 简略 分布式系统中不同于单机系统不能使用NTP(网络时间协议&#xff08;Network Time Protocol&#xff09;)来获取时间&#xff0c;所以我们需要一个特别的方式来获取分布式系统中的时间&#xff0c;mvcc也是使用time保证读…

信号处理设计模式

问题 如何编写信号安全的应用程序&#xff1f; Linux 应用程序安全性讨论 场景一&#xff1a;不需要处理信号 应用程序实现单一功能&#xff0c;不需要关注信号 如&#xff1a;数据处理程序&#xff0c;文件加密程序&#xff0c;科学计算程序 场景二&#xff1a;需要处理信…

HTML---利用CSS3制作网页动画

文章目录 目录 文章目录 本章目标 一.CSS3概述 CSS函数概述 二.CSS3变形 transform属性 translate()&#xff1a;平移函数 scale()&#xff1a;缩放函数 rotate()&#xff1a;旋转函数 skew()&#xff1a;倾斜函数 三.CSS3过渡 四.CSS动画 练习 旋转按钮 本章目标 会使用…

“从零到一“基于Freeswitch二次开发: 应用架构设计(二)

一、架构分享 上一篇文章“从零到一“基于Freeswitch二次开发:Freeswitch入门与网络架构 (一) 对Freeswitch二次开发做了一个介绍&#xff0c;距离这篇文章的发布时间有点久了&#xff0c;之前一直没时间把下文补上来。正好到了年末想起来&#xff0c;就把我们的一个实现架构进…

深度神经网络结构

单层的感知机不能解决“异或”问题。 在前面分别介绍了M-P神经元模型和感知机模型。在M-P神经元模型中&#xff0c;神经元接收到若干个输入信号&#xff0c;并将计算得到的加权后的总输入&#xff0c;经过激活函数的处理&#xff0c;最终产生神经元的输出。而感知机模型则由两层…

腾讯云标准型S5服务器2核2G、2核4G和4核8G五年机来了

腾讯云五年特价服务器来了&#xff0c;标准型S5云服务器&#xff0c;可选2核2G、2核4G和4核8G配置&#xff0c;一次性购买五年低至2折&#xff0c;免去续费贵烦恼。腾讯云百科txybk.com分享腾讯云5年服务器特价优惠活动、购买条件、云服务器配置及优惠价格&#xff1a; 腾讯云五…