PyTorch卷积神经网络各层实现与介绍

本文将讲解,PyTorch卷积神经网络各层实现与介绍,包括:基本骨架–nn.Module的使用、卷积操作、卷积层、池化层、激活函数、全连接层的介绍。

😜 对于相关原理,可以跳转👉卷积神经网络CNN各层基本知识

😜 后续会以CIFAR10数据集作为案例,关于CIFAR10数据集在上篇中有详细的介绍,可以跳转👉Pytorch公共数据集、tensorboard、DataLoader使用。

基本骨架–nn.Module的使用

torch.nn模块包含着torch已经准备好的层,方便使用者调用构建网络,一下内容包括nnModule而极少、卷积操作的简单操作、卷积层、池化层、激活函数、全连接层以及其他层的相关使用方法

neural network

在这里插入图片描述

torch.nn模块包含着torch已经准备好的层,方便使用者调用构建网络。后文将介绍卷积层、池化层、激活函数层、循环层、全连接层的相关使用方法。

Module:位于containers容器中

在这里插入图片描述

'''神经网络模板'''
#https://beishan.blog.csdn.net/
import torch.nn as nn
import torch.nn.functional as Fclass Model(nn.Module):  # nn.Module为其父类,Model继承它def __init__(self):super().__init__()  #调用父类的初始化函数self.conv1 = nn.Conv2d(1, 20, 5)self.conv2 = nn.Conv2d(20, 20, 5)def forward(self, x):  #用于定义神经网络的前向传播过程x = F.relu(self.conv1(x))  #卷积->非线性处理return F.relu(self.conv2(x))  #卷积->非线性处理->return

代码解释如下:

forward 函数是深度学习框架中常见的一个函数,用于定义神经网络的前向传播过程。

forward 函数的作用是将输入数据经过网络中各个层的计算和变换后,得到输出结果。

在这里插入图片描述

在这里插入图片描述

在上述代码中,forward函数:对输入的x进行第一次卷积,再进行第一次非线性操作;再第二次进行卷积,然后第二次非线性操作。最后返回结果。

搭建自己的网络

import torch.nn as nn
import torch
class Beishan(nn.Module):def __init__(self):super().__init__()def forward(self, input):output = input * 2return outputbs = Beishan()
x = torch.tensor(1.0)
print(bs(x))
tensor(2.)

卷积操作

卷积可以看作输入和卷积核之间的内积运算,是两个实值函数之间的一种数学运算

在Pytorch中针对卷积操作的对象和使用场景的不同,有一维卷积、二维卷积、三位卷积与转置卷积(可以简单理解为卷积操作的逆操作),但他们的使用方法类似,都可以从torch.nn模块中调用

在这里插入图片描述
在这里插入图片描述

接下来将以torch.nn.functional.conv2d()为例进行讲解,后续的层的讲解,将以torch.nn作为案例

torch.nn.functional.conv2d(input,weight, bias=None,stride=1,padding=0,dilation=1, groups=1) 

在这里插入图片描述

参数解释
input输入图像的通道数
weight卷积核的大小
bias可选的偏置张量的形状(输出通道)(输出通道),默认值:无
stride卷积的步长,默认为1
padding在输入两边进行0填充的数量,默认为0
dilation控制卷积核之间的间距

需要注意的是:在这里插入图片描述

input中的shape:

  • minibatch:batch中的样例个数,
  • in_channels:每个样例数据的通道数,
  • iH:每个样例的高(行数),
  • iW:每个样例的宽(列数)

weight中的shape:

  • out_channels:卷积核的个数
  • in_channels/groups:每个卷积核的通道数
  • kH:每个卷积核的高(行数)
  • kW:每个卷积核的宽(列数)
  1. padding
    就是填充的意思,将图像数据的边缘部分填充的大小,通过padding可以使得卷积过程中提取到图像边缘部分的信息
  2. stride
    卷积核移动的步长,即卷积核完成局部的一次卷积后向右移动的步数,步长增大可以减小特征图的尺寸计算速度提升。适用于高分辨率的图像

在这里插入图片描述

接下来将以下图的卷积操作,其中padding和stride都是默认值。即padding=0,stride=1,利用Pytorch进行验证运算

在这里插入图片描述

import torch.nn.functional as F
import torch# input
input_ = torch.tensor([[3, 3, 2, 1, 0], [0, 0, 1, 3, 1], [3, 1, 2, 2, 3],[2, 0, 0, 2, 2], [2, 0, 0, 0, 1]])
# 卷积核
kernel = torch.tensor([[0, 1, 2], [2, 2, 0],[0, 1, 2]])# print,input_.shape,kernel.shape
print(input_.shape)
print(kernel.shape)
# 由上面可以知道.shape不满足需求,而是只有h和w的2个数据,利用reshape进行变换input_ = torch.reshape(input_, (1, 1, 5, 5))  # 表示样例个数1,每一个样例数据的通道数1,高5,宽5
kernel = torch.reshape(kernel, (1, 1, 3, 3))# 进行conv2d卷积运算
output = F.conv2d(input_, kernel, stride=1)  # stride=1即每一次只进行一步移动操作
print(output)
torch.Size([5, 5])
torch.Size([3, 3])
tensor([[[[12, 12, 17],[10, 17, 19],[ 9,  6, 14]]]])

在后续的层的讲解中,将以torch.nn作为案例。后续会更新

在这里插入图片描述

卷积层

这里主要介绍代码部分,对于相关原理,可以查看 https://beishan.blog.csdn.net/article/details/128058839

import torch.nn as nn
#其中in_channels,ut_channels,kernel_size需要进行设置,其他均有默认值
torch.nn.Conv2d(in_channels,out_channels,kernel_size, stride=1, padding=0, dilation=1,groups=1, bias=True, padding_mode='zeros',device=None, dtype=None)

在这里插入图片描述

常用的参数为:in_channelsout_channelskernel_sizestridepadding

Conv2d参数说明
in_channels表示输入的图片通道数目。
out_channels表示输出的图片通道数目。
kernel_size表示卷积核的大小,当卷积是正方形的时候,只需要一个整数边长即可,卷积不是正方形,要输入一个元组表示高和宽。
stride表示每次卷积核移动的步长值。
padding表示是否添加边界,一旦设置就是四周都添加。在原始的行列基础上,行增加2行,列增加2列。
dilation表示控制卷积核之间的间距。
groups表示控制输入和输出之间的连接。
bias表示是否将一个 bias 增加到输出。
padding_mode表示接收’zeros’, ‘reflect’, ‘replicate’ or ‘circular’. Default: ‘zeros’,默认是’zeros’,即默认在padding操作时,在外一圈是填充的0。

卷积层操作实战
下面代码以CIFAR10数据集为例进行实践

关于CIFAR10数据集在上篇中有详细的介绍,可以跳转☞Pytorch公共数据集、tensorboard、DataLoader使用。后续的操作也是以CIFAR10数据集为案例

import torch
import torchvision
import torch.nn as nn
from torch.utils.data import DataLoader
dataset = torchvision.datasets.CIFAR10("dataset",train=False,transform=torchvision.transforms.ToTensor(),download=True)
dataloader = DataLoader(dataset,batch_size=64)
Files already downloaded and verified
class BS(torch.nn.Module):def __init__(self):super().__init__()# 即输入通道设定为RGB3层,输出通道设定为6,卷积核大小为3,步长设定1,不进行填充self.conv1 = nn.Conv2d(in_channels=3,out_channels=6,kernel_size=3,stride=1,padding=0)def forward(self,x):return self.conv2(x)
bs = BS()
print(bs)  # 打印创建的卷积参数
BS((conv1): Conv2d(3, 6, kernel_size=(3, 3), stride=(1, 1))
)
#input:torch.Size([64, 3, 32, 32])
#output:torch.Size([64, 6, 32, 32])

从输出结果可知,输入通道为3,输出通道为6,卷积核结构为3×3,步长为1

在这里插入图片描述

按计算可得,输出特征图的尺寸:

( 32 − 3 + 2 ∗ 0 ) 1 (32 - 3 + 2*0)\over1 1323+20) + 1 = 30

完整代码如下:

import torch
import torchvision
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriterdataset = torchvision.datasets.CIFAR10("dataset",train=False,transform=torchvision.transforms.ToTensor(),download=True)
# 加载数据集,每次从数据集中取64
dataloader = DataLoader(dataset, batch_size=64)class BS(torch.nn.Module):def __init__(self):super().__init__()# 即输入通道设定为RGB3层,输出通道设定为6,卷积核大小为3,步长设定1,不进行填充self.conv2 = torch.nn.Conv2d(in_channels=3,out_channels=6,kernel_size=3,stride=1,padding=0)def forward(self, x):return self.conv2(x)
step = 0
writer = SummaryWriter('logs')
for data in dataloader:img, target = data# 卷积前print(img.shape)# 卷积后output = BS().conv2(img)#print(output.shape)#input:torch.Size([64, 3, 32, 32])#output:torch.Size([64, 6, 32, 32])output=output.reshape(-1,3,30,30) #output的channel为6,此时在Tensorboard可视化中无法显示通道为6的图片,所以需要进行reshape进行重新设定。print(output.shape)writer.add_images('input',img,step)writer.add_images('output',output,step)step += 1
writer.close()
Files already downloaded and verified
torch.Size([64, 3, 32, 32])
torch.Size([128, 3, 30, 30])
torch.Size([64, 3, 32, 32])
torch.Size([128, 3, 30, 30])
.......

tensorboard显示如下
在这里插入图片描述

池化层

池化操作主要用于减小特征图的尺寸,并提取出最重要的特征

它通过在特定区域内进行汇总或聚合来实现这一目标。

在这里插入图片描述

池化层的常见操作包含以下几种:最大值池化均值池化随机池化中值池化组合池化等。后续以torch.nn.MaxPool2d为例,进行介绍

torch.nn.MaxPool2d(kernel_size, stride=None,padding=0, dilation=1,return_indices=False, ceil_mode=False)

在这里插入图片描述

在这里插入图片描述

其他参数与池化层中相似,有些默认参数不同而已,这次讲解dilationceil_mode

dilation:表示设置核的膨胀率,默认 dilation=1,即如果kernel_size =3,那么核的大小就是3×3。如果dilation = 2,kernel_size =3×3,那么每列数据与每列数据,每行数据与每行数据中间都再加一行或列数据,数据都用0填充,那么核的大小就变成5×5。
在这里插入图片描述

ceil_mode:floor or ceiling,表示计算输出结果形状的时候,是使用向上取整还是向下取整。即要不要舍弃无法覆盖核的大小的数值。True为保留,False为舍弃
在这里插入图片描述

下图为max_pooling的动态演示图

在这里插入图片描述

利用pytorch演算结果

import torch
from torch import nninput = torch.tensor([[3, 0, 1, 5, 1, 3], [5, 7, 3, 4, 4, 6], [7, 7, 1, 8, 3, 5],[6, 1, 7, 0, 0, 5], [0, 4, 5, 5, 7, 2], [3, 2, 0, 2, 0, 2]],dtype=float)  # 使用dtype将此矩阵的数字变为浮点型
# 准备的参数情况
print(input.shape)
# 进行reshape
input = torch.reshape(input, (1,1,6,6))  # input:(N,C,H,W)or(C,H,W)
print(input.shape)# 搭建神经网络并进行池化操作
class BS(nn.Module):def __init__(self):super().__init__()self.maxpool2 = nn.MaxPool2d(kernel_size=2, ceil_mode=True)def forward(self, input):output = self.maxpool2(input)return output# 实例化
bs = BS()
output = bs(input)
print(output)
torch.Size([6, 6])
torch.Size([1, 1, 6, 6])
tensor([[[[7., 5., 6.],[7., 8., 5.],[4., 5., 7.]]]], dtype=torch.float64)

利用最大池化处理CIFAR10数据集图片,并利用tensorboard可视化

#https://beishan.blog.csdn.net/
import torch
import torch.nn as nn
import torchvision
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriter
dataset = torchvision.datasets.CIFAR10("dataset",train=False,transform=torchvision.transforms.ToTensor(),download=True)
# 加载数据集,每次从数据集中取64
dataloader = DataLoader(dataset, batch_size=64)class BS(nn.Module):def __init__(self):super().__init__()self.maxpool1 = nn.MaxPool2d(kernel_size=2, ceil_mode=True)def forward(self, input):output = self.maxpool1(input)return outputstep = 0
bs = BS()
writer = SummaryWriter('logs')
for data in dataloader:img, target = dataoutput = bs(img)writer.add_images('input_maxpool', img, step)writer.add_images('output_maxpool', output, step)step += 1
writer.close()
Files already downloaded and verified

tensorboard显示如下
在这里插入图片描述

非线性激活

激活函数的作用在于提供网络的非线性建模能力,如果不用激励函数,每一层输出都是上层输入的线性函数,无论神经网络有多少层,输出都是输入的线性组合,这种情况就是最原始的感知机。

激活函数给神经元引入了非线性因素,使得神经网络可以任意逼近任何非线性函数,这样神经网络就可以应用到众多的非线性模型中。

常见的包括:sigmoid、relu和tanh,后续将以relu进行介绍
在这里插入图片描述

在这里插入图片描述

使用relu处理矩阵

import torch# 准备数据
input = torch.tensor([[1, -1, 0], [-2, 3, -6]])# 搭建自己的一个神经网络
class BS(torch.nn.Module):def __init__(self):super().__init__()# 默认inplace参数为Falseself.relu1 = torch.nn.ReLU(inplace=False) #inplace保留原始数据def forward(self, input):output = self.relu1(input)return output# 实例化
l = BS()
output = l(input)
print('转换前:', input)
print('relu转换后:', output)
转换前: tensor([[ 1, -1,  0],[-2,  3, -6]])
relu转换后: tensor([[1, 0, 0],[0, 3, 0]])

利用Sigmoid来处理CIFAR10数据集

在这里插入图片描述

import torch
import torch.nn as nn
import torchvision
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriter
dataset = torchvision.datasets.CIFAR10("dataset",train=False,transform=torchvision.transforms.ToTensor(),download=True)
# 加载数据集,每次从数据集中取64
dataloader = DataLoader(dataset, batch_size=64)class BS(nn.Module):def __init__(self):super().__init__()self.sigmoid1 = nn.Sigmoid()def forward(self, input):output = self.sigmoid1(input)return outputstep = 0
bs = BS()
writer = SummaryWriter('logs')
for data in dataloader:img, target = dataoutput = bs(img)writer.add_images('input_sigmoid', img, step)writer.add_images('output_sigmoid', output, step)step += 1
writer.close()
Files already downloaded and verified

tensorboard显示如下
在这里插入图片描述

全连接层

在这里插入图片描述

线性层它也被称为全连接层,通常所说的全连接层是指一个由多个神经元所组成的层,其所有的输出和该层的所有输入都有连接,即每个输入都会影响所有神经元的输出,在Pytorch中nn.Linear()表示线性变换

全连接层可以看作是nn.Linear()表示线性层再加上一个激活函数所构成的结构。

全连接层的应用范围非常广泛,只有全连接层组成的网络是全连接神经网络,可以用于数据的分类或回归任务,卷积神经网络和循环神经网络的末端通常会由多个全连接层组成

在这里插入图片描述

torch.nn.Linear(in_features,out_features, bias=True, device=None, dtype=None)

其中最重要的三个参数为in_features, out_features, bias

  • in_features:表示输入的特征值大小,即输入的神经元个数
  • out_features:表示输出的特征值大小,即经过线性变换后输出的神经元个数
  • bias:表示是否添加偏置

以VGG16网络结构为例进行介绍
在这里插入图片描述

in_features为1,1,x形式,out_features为1,1,y的形式

import torch
import torchvision
from torch.utils.data import DataLoader# 准备数据
test_set = torchvision.datasets.CIFAR10("dataset",train=False,transform=torchvision.transforms.ToTensor(),download=True)
# 加载数据集
dataloader = DataLoader(test_set,batch_size=64)# 查看输入的通道数
# for data in dataloader:
#     imgs, target = data
#     print(imgs.shape)  # torch.Size([64, 3, 32, 32])
#     # 将img进行reshape成1,1,x的形式
#     input = torch.reshape(imgs,(1,1,1,-1)) # 每次一张图,1通道,1*自动计算x
#     print(input.shape) # torch.Size([1, 1, 1, 196608])# 搭建神经网络,设置预定的输出特征值为10
class BS(torch.nn.Module):def __init__(self):super().__init__()self.linear1 = torch.nn.Linear(196608,10)  # 输入数据的特征值196608,输出特征值10def forward(self, input):output = self.linear1(input)return outputl = BS()
for data in dataloader:imgs, target = dataprint(f"原先的图片shape:{imgs.shape}")  # torch.Size([64, 3, 32, 32])# 将img进行reshape成1,1,x的形式input = torch.flatten(imgs) # 每次一张图,1通道,1*自动计算xprint(f"flatten后的图片shape:{input.shape}")output = l(input)print(f"经过线性后的图片shape:{output.shape}") # torch.Size([1, 1, 1, 10])
Files already downloaded and verified
原先的图片shape:torch.Size([64, 3, 32, 32])
flatten后的图片shape:torch.Size([196608])
经过线性后的图片shape:torch.Size([10])
原先的图片shape:torch.Size([64, 3, 32, 32])
flatten后的图片shape:torch.Size([19660

关于神经网络的层结构远不止这些,例如dropout layers、transformer layers、recurrent layers等,大家可以去官网自行学习

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/119996.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue源码分析(二)——vue的入口发生了什么

文章目录 前言(1)vue 项目构建的时候,通过package.json文件看到构建入口(2) 构建入口页面:导入同级模块config的getAllbuilds方法(3) 通过传入参数中的builds对象使用map获取&#x…

简化路径(C++解法)

题目 给你一个字符串 path ,表示指向某一文件或目录的 Unix 风格 绝对路径 (以 / 开头),请你将其转化为更加简洁的规范路径。 在 Unix 风格的文件系统中,一个点(.)表示当前目录本身&#xff1…

Git(二)版本控制、发展历史、初始化配置、别名

目录 一、版本控制1.1 为什么要使用版本控制?1.2 集中化的版本控制系统1.3 分布式的版本控制系统1.3 两种版本控制系统对比集中式(svn)分布式(git) 二、发展历史三、初始化配置3.1 配置文件3.2 配置内容 四、别名 官网…

论文阅读 - Hidden messages: mapping nations’ media campaigns

论文链接: https://link.springer.com/content/pdf/10.1007/s10588-023-09382-7.pdf 目录 1 Introduction 2 The influence model 2.1 The influence‑model library 3 Data 4 Methodology 4.1 Constructing observations 4.2 Learning the state‑transiti…

自动驾驶之—LaneAF学习相关总结

0.前言: 最近在学习自动驾驶方向的东西,简单整理一些学习笔记,学习过程中发现宝藏up 手写AI 1. 概述 Laneaf思想是把后处理放在模型里面。重点在于理解vaf, haf,就是横向聚类:中心点,纵向聚类&…

内网渗透——macOS上搭建Web服务器

# 公网访问macOS本地web服务器【内网穿透】 文章目录 1. 启动Apache服务器2. 公网访问本地web服务2.1 本地安装配置cpolar2.2 创建隧道2.3 测试访问公网地址3. 配置固定二级子域名3.1 保留一个二级子域名3.2 配置二级子域名4. 测试访问公网固定二级子域名 以macOS自带的Apache…

Android 发布 15 周年了!Google 员工说出了这些年的美好回忆

原文链接:https://blog.google/products/android/android-15th-anniversary-googler-highlights/ 作者:Sameer Samat, GM and VP of Android Ecosystem 翻译者:张拭心 https://shixin.blog.csdn.net/ 自从带有 Android Market(现在…

python自动化测试(四):ECShop后台:商品分类添加

前置条件: 本地部署:ECShop的版本是3.0.0、Google版本是 Google Chrome65.0.3325.162 (正式版本) (32 位) Google驱动的selenium版本是3.11.0 目录 前置代码 一、登录(后台登录) 二、进入商品分类页…

常用应用安装教程---在centos7系统上安装JDK8

在centos7系统上安装JDK8 1:进入oracle官网下载jdk8的tar.gz包: 2:将下载好的包上传到每个服务器上: 3:查看是否上传成功: [rootkafka01 ~]# ls anaconda-ks.cfg jdk-8u333-linux-x64.tar.gz4&#xf…

asp.net古代服饰系统VS开发sqlserver数据库web结构c#编程包含购物答题功能点

一、源码特点 asp.net 古代服饰系统 是一套完善的web设计管理系统(含购物 答题),系统采用mvc模式(BLLDALENTITY)系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环境 为vs2010,数据库为sqlserver…

Vue2 跨域问题报错AxiosError net::ERR_FAILED、 Network Error、ERR_NETWORK

请求场景: 当前页面URL:http://127.0.0.1:8000/testcase 跳转请求页面URL:http://127.0.0.1:5000/testcase_orm 使用axios请求 时 页面提示跨域报错 跨域报错信息 > Access to XMLHttpRequest at http://127.0.0.1:5000/testcase_orm fr…

[SQL开发笔记]LIKE操作符:在 WHERE 子句中搜索列中的指定模式

一、功能描述: LIKE操作符:用于在 WHERE 子句中搜索列中的指定模式。 二、LIKE操作符语法详解: LIKE 语法 SELECT column1, column2,…FROM table_nameWHERE column LIKE pattern; 参数说明: (1)colum…

目前和未来的缓存构建

说起来可能有点反直觉,有时候不运行反而可以帮助我们加快速度,这正是网络浏览器运行的指导原则。不必在页面上加载所有内容,缓存的元素已经存在,不需要每次访问网站或网页时都重新加载。页面加载速度越快,浏览器的工作…

大数据Flink(一百零二):SQL 聚合函数(Aggregate Function)

文章目录 SQL 聚合函数(Aggregate Function) SQL 聚合函数(Aggregate Function) Python UDAF,即 Python AggregateFunction。Python UDAF 用来针对一组数据进行聚合运算,比如同一个 window 下的多条数据、或者同一个 key 下的多条数据等。针对同一组输入数据,Python A…

伦敦银现货白银走势如何应对

伦敦银是国际现货白银交易的别称,它每天的价格走势受到全球投资者广泛的关注,也是全球各个白银市场的价格指标。白银投资者要了解伦敦银走势的特点,才能更好地进行分析,实现自己的所预期的收益。 整体来说,伦敦银价格的…

Visual Studio远程连接Linux编译代码时,头文件在/usr/include中找不到,文件存在于/usr/include的子目录中

文章目录 1 问题的提出2 问题分析3 问题的解决 1 问题的提出 VS2022在编译数据安全传输平台时,远程连接到Centos上进行编译,但是提示找不到json头文件。 2 问题分析 在Linux系统下编译代码时,系统会主动到/usr/include目录主动搜索头文件。…

【Unity程序技巧】事件管理器

👨‍💻个人主页:元宇宙-秩沅 👨‍💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由 秩沅 原创 👨‍💻 收录于专栏:Uni…

Spring Boot集成Swagger接口分类与各元素排序问题

在上一篇中我们完成使用JSR-303校验,以及利用Swagger2得到相关接口文档,这节,我们在原先的基础之上,完成Swagger中关于对各个元素之间控制前后顺序的具体配置方法。 Swagger的接口的分组 首先我们需要对Swagger中的接口也就是以…

智能汽车安全:保护车辆远程控制和数据隐私

第一章:引言 智能汽车技术的快速发展为我们带来了许多便利,但也引发了一系列安全和隐私问题。本文将探讨智能汽车安全的重要性,以及如何保护车辆远程控制和数据隐私。 第二章:智能汽车远程控制 智能汽车的远程控制是一项令人兴…

全球生物气候产品2.5m和30s分辨率

简介 生物气候是指生物和气候相互作用的结果,包括植物和动物对气候的影响,以及气候对生物的影响。生物气候研究的是生物、气候、土地和水等自然要素之间相互作用的过程,旨在探讨它们是如何互动并导致生态系统的变化的。生物气候对于理解全球…