Pytorch学习 day07(神经网络基本骨架的搭建、2D卷积操作、2D卷积层)

神经网络基本骨架的搭建

  • Module:给所有的神经网络提供一个基本的骨架,所有神经网络都需要继承Module,并定义_ _ init _ _方法、 forward() 方法
  • 在_ _ init _ _方法中定义,卷积层的具体变换,在forward() 方法中定义,神经网络的前向传播具体是什么样的
  • 官方代码样例如下:
import torch.nn as nn
import torch.nn.functional as Fclass Model(nn.Module):def __init__(self):super().__init__()self.conv1 = nn.Conv2d(1, 20, 5)self.conv2 = nn.Conv2d(20, 20, 5)def forward(self, x):x = F.relu(self.conv1(x))return F.relu(self.conv2(x))
  • 表明输入 x 经过一个卷积层A,一个非线性层a,一个卷积层B,一个非线性层b,最后输出,如下图:
    在这里插入图片描述
  • 简单模型代码如下:
from torch import nn
import torch# 定义一个简单的Module
class Tudui(nn.Module):def __init__(self): # 初始化函数super().__init__()  # 调用父类的初始化函数def forward(self, input):   # 前向传播函数output = input + 1  # 定义张量的加法运算return output   # 返回输出张量tudui = Tudui() # 实例化一个Tudui对象
x = torch.tensor(1.0)   # tensor()函数可以将任意数据转换为张量
print(tudui(x))
* 注意:可以在调试模式中,选择单步执行代码,一步一步执行更清晰

2D卷积操作(了解原理即可,实际直接使用卷积层)

在这里插入图片描述

  • 2D卷积操作:卷积核在输入图像上不断移动,并把对应位相乘再求和,最后得到输出结果,以下是参数设置:
    • input:输入张量的维数要是四维,batch表示一次输入多少张图像,channel表示通道数,RGB图像的通道数为3,灰度图像(二维张量)的通道数为1,H为高度,W为宽度
    • weight:卷积核,维数也要是四维,out_channel表示(输出通道数)卷积核的数量,in_channel表示输入图像的通道数,一般groups为1,H为高度,W为宽度
    • stride:卷积核每次移动的步长(为整数或者长度为2的元组),如果是整数,表示在水平和垂直方向上使用相同的步长。如果是元组,分别表示在水平和垂直方向上的步长。默认为1。
    • padding:控制在输入张量的边界周围添加的零填充的数量(为整数或长度为2的元组),如果是整数,表示在水平和垂直方向上使用相同的填充数量。如果是元组,分别表示在水平和垂直方向上的填充数量。默认为0
  • 例如,将一张灰度图经过2D卷积操作得到输出的代码,如下:
import torch# 因为想让输入数据是tensor类型的,所以使用torch.tensor
input = torch.tensor([[1,2,0,3,1],[0,1,2,3,1],[1,2,1,0,0],[5,2,3,1,1],[2,1,0,1,1]])# 因为想让卷积核是tensor类型的,所以使用torch.tensor
kernel = torch.tensor([[1,2,1],[0,1,0],[2,1,0]])
print(input.shape) # torch.Size([5, 5])
print(kernel.shape) # torch.Size([3, 3])# 由于卷积核的尺寸和输入的尺寸都不满足卷积运算的要求,所以需要对输入和卷积核进行维度的扩展
input = torch.reshape(input, [1,1,5,5]) # 输入是一张二维图片,所以batch_size=1(一张),通道数为1(二维张量)
kernel = torch.reshape(kernel, [1,1,3,3]) # 卷积核的个数为1,所以输出通道数为1,输入通道数由上可知为1print(input.shape) # torch.Size([1, 1, 5, 5])
print(kernel.shape) # torch.Size([1, 1, 3, 3])output = torch.nn.functional.conv2d(input, kernel, stride=1)   # 经过2D卷积运算后的输出 
print(output)
  • 可视化图如下:
    在这里插入图片描述
  • padding设置为1的可视化图如下:
    在这里插入图片描述

2D卷积层

在这里插入图片描述
在这里插入图片描述

  • 2D卷积层,通常我们直接使用卷积层即可,上一节仅供了解,以下是参数设置:
    • in_channels:输入通道数,RGB图像为3,灰度图像为1
    • out_channels:输出通道数,即卷积核的个数
    • kernel_size:卷积核的高宽(整数或元组),整数时表示高宽都为该整数,元组时表示分别在水平和垂直方向上的长度。我们只需要设置卷积核的高宽,而卷积核内部的具体参数不需要我们指定,它是在神经网络的训练中不断地对分布进行采样,同时进行不断调整
    • stride:卷积核每次移动的步长(整数或元组),整数时表示在水平和垂直方向上使用相同的步长。元组时分别表示在水平和垂直方向上的步长。默认为1。
    • padding:控制在输入张量的边界周围添加的零填充的数量(为整数或元组),如果是整数,表示在水平和垂直方向上使用相同的填充数量。如果是元组,分别表示在水平和垂直方向上的填充数量。默认为0
    • padding_mode:控制以什么样的模式进行填充,默认为 zeros 零填充
    • dilation:卷积核之间的距离,空洞卷积,默认为1
    • groups:默认为1
    • bias:给输出加一个偏置,默认为True
  • 以下是2D卷积层的可视化图像,青色的为输出图像,蓝色为输入图像,深蓝色为卷积核:
请添加图片描述请添加图片描述
No padding,No stridesAribitrary padding,No strides
请添加图片描述请添加图片描述
Half padding,No stridesFull padding,No strides
请添加图片描述请添加图片描述请添加图片描述
No padding,stridesPadding,stridesPadding,strides(odd)
  • 当out_channel 为2时,卷积核也为2个,会先拿第一个卷积核与输入图像进行卷积,得到第一个输出,然后会拿第二个卷积核与输入图像进行卷积,得到第二个输出,这两个卷积核内部的具体参数可能会不同,最后把这两个输出叠加起来得到最终的输出,以下是可视化图像:
    在这里插入图片描述
  • 构建一个包含一层简单2D卷积层的神经网络模型,代码如下:
import torch
import torch.nn as nn
import torchvisiontest_dataset = torchvision.datasets.CIFAR10(root='Dataset', train=False, download=True, transform=torchvision.transforms.ToTensor())
test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=64, shuffle=False, num_workers=0)class Tudui(nn.Module):def __init__(self): # 初始化super().__init__()  # 继承父类的初始化self.conv1 = nn.Conv2d(3, 6, 3, 1, 0)   # 输入通道数3,输出通道数6,卷积核大小3*3,步长1,填充0def forward(self, x):  # 前向传播x = self.conv1(x)   # 调用卷积层对输入x进行卷积return xtudui = Tudui() # 实例化网络模型print(tudui)    # 打印网络结构# 输出结果:
# Files already downloaded and verified
# Tudui(
#  (conv1): Conv2d(3, 6, kernel_size=(3, 3), stride=(1, 1))
# )
  • 打印输入和输出的代码如下:
    • 注意:由于输入经过了一层卷积,所以输出尺寸会变小
for data in test_loader:imgs, targets = dataoutputs = tudui(imgs)   # 调用网络模型进行前向传播print(imgs.shape)       # 打印输入数据的形状,torch.Size([64, 3, 32, 32])print(outputs.shape)    # 打印输出数据的形状,torch.Size([64, 6, 30, 30])
  • 可以通过tensorboard来展示输入图像和输出图像,代码如下:
    • 注意: 由于outputs的channel为6,而add_images函数要求channel为3,所以需要对outputs进行处理
    • 把torch.Size([64, 6, 30, 30]) -> torch.Size([xx, 3, 30, 30]) 把6个通道变成3个通道,多出来的部分就打包放入batch_size中
    • 如果不知道变换后的batch_size是多少,可以写-1,PyTorch会自动计算
import torch
import torch.nn as nn
import torchvision
from torch.utils.tensorboard import SummaryWritertest_dataset = torchvision.datasets.CIFAR10(root='Dataset', train=False, download=True, transform=torchvision.transforms.ToTensor())
test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=64, shuffle=False, num_workers=0)class Tudui(nn.Module):def __init__(self): # 初始化super().__init__()  # 继承父类的初始化self.conv1 = nn.Conv2d(3, 6, 3, 1, 0)   # 输入通道数3,输出通道数6,卷积核大小3*3,步长1,填充0def forward(self, x):  # 前向传播x = self.conv1(x)   # 调用卷积层对输入x进行卷积return xtudui = Tudui() # 实例化网络模型writer = SummaryWriter("logs") # 创建一个SummaryWriter对象,指定日志文件保存路径
step = 0
for data in test_loader:imgs, targets = dataoutputs = tudui(imgs)   # 调用网络模型进行前向传播writer.add_images("input", imgs, step)  # 将输入数据imgs写入日志文件# 由于outputs的channel为6,而add_images函数要求channel为3,所以需要对outputs进行处理# 把torch.Size([64, 6, 30, 30]) -> torch.Size([xx, 3, 30, 30]) 把6个通道变成3个通道,多出来的部分就打包放入batch_size中# 如果不知道变换后的batch_size是多少,可以使用-1,PyTorch会自动计算outputs = torch.reshape(outputs, (-1, 3, 30, 30))  # 将outputs的channel从6改为3writer.add_images("output", outputs, step)  # 将输出数据outputs写入日志文件step += 1writer.close()  # 关闭日志文件
  • 结果如下:
    在这里插入图片描述
  • 注意:如果别人论文里没有写stride、padding具体为多少,那么我们可以根据以下式子进行推导:
    • N:batch_size
    • C:channel
    • H:高
    • W:宽
      在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/731968.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HTML入门:属性

你好,我是云桃桃。今天来聊一聊 HTML 属性写法和特点。 HTML 属性是用于向 HTML 标签(也叫 HTML 元素)提供附加信息或配置的特性。 如果说,把HTML 标签比作一个房子,HTML 标签定义了房子的结构和用途,比如…

FPGA高端项目:FPGA基于GS2971的SDI视频接收+HLS图像缩放+多路视频拼接,提供4套工程源码和技术支持

目录 1、前言免责声明 2、相关方案推荐本博已有的 SDI 编解码方案本方案的SDI接收转HDMI输出应用本方案的SDI接收图像缩放应用本方案的SDI接收纯verilog图像缩放纯verilog多路视频拼接应用本方案的SDI接收OSD多路视频融合叠加应用本方案的SDI接收HLS多路视频融合叠加应用本方案…

Unity中PICO实现移动交互

文章目录 前言一、在允许行走的地面加上对应的组件1、Teleportation Anchor 移动锚点2、Teleportation Area 移动区域 二、在 玩家(需要移动的对象)上挂载对应组件1、Teleportation Provider 被移动对象2、在 Teleportation Anchor 或 Teleportation Are…

【go语言开发】yaml文件配置和解析

本文主要介绍使用第三方库来对yaml文件配置和解析。首先安装yaml依赖库;然后yaml文件中配置各项值,并给出demo参考;最后解析yaml文件,由于yaml文件的配置在全局中可能需要,可定义全局变量Config,便于调用 文…

CCProxy代理服务器地址的设置步骤

目录 前言 一、下载和安装CCProxy 二、启动CCProxy并设置代理服务器地址 三、验证代理服务器设置是否生效 四、使用CCProxy进行代理设置的代码示例 总结 前言 CCProxy是一款常用的代理服务器软件,可以帮助用户实现网络共享和上网代理。本文将详细介绍CCProxy…

【鸿蒙 HarmonyOS 4.0】应用状态:LocalStorage/AppStorage/PersistentStorage

一、介绍 如果要实现应用级的,或者多个页面的状态数据共享,就需要用到应用级别的状态管理的概念。 LocalStorage:页面级UI状态存储,通常用于UIAbility内、页面间的状态共享。AppStorage:特殊的单例LocalStorage对象&…

数据库系统概念(第一周)

⚽前言 🏐四个基本概念 一、数据 定义 种类 特点 二、数据库 三、数据库管理系统(DBMS) 四、 数据库系统(DBS) 🏀数据库系统和文件系统对比 文件系统的弊端 🥎数据视图 数据抽象 …

java 环境配置(保姆级最新版)

😀前言 ps 因为网络上教程太多太杂所以干脆直接自己出个教程方便自己复习也希望帮助到大家 文章目录 第一查看自己电脑的系统类型第二 jdk下载历史jdk下载 第三 jdk安装第四 环境搭配Java_Home 配置Path 配置CLASSPATH 配置 检测是否配置成功 第一查看自己电脑的系统…

机器学习流程—数据预处理 清洗

机器学习流程—数据预处理 清洗 数据清洗因为它涉及识别和删除任何丢失、重复或不相关的数据。数据清理的目标是确保数据准确、一致且无错误,因为不正确或不一致的数据会对 ML 模型的性能产生负面影响。专业数据科学家通常会在这一步投入大量时间,因为他们相信Better data b…

Dynamo3.0.3——六年来最大的更新

Hello大家好!我是九哥~ 前几天,Dynamo Core 3.0.0版本发布,迎来了Dynamo六年来最大的一次更新。最大的改变,是更新到了.net8,这回对Dynamo节点包产生不小影响。接下来我们详细看一下都有哪些变化。 首先&#xff0…

Charles的安装及配置

1 Charles激活 激活网址:https://tools.zzzmode.com/mytools/charles/ 得到的激活码后打开Charles,选择help里的registered 进行登录 2 进行ssl代理设置(用来抓取https的请求) 3 输入ssl代理的host和port 4 安装本机证书(选择完成后点击下一步或确定就行) 手机相关配置(保持手…

瑞_23种设计模式_模板方法模式

文章目录 1 模板方法模式(Template Pattern) ★ 钩子函数1.1 介绍1.2 概述1.3 模板方法模式的结构1.4 模板方法模式的优缺点1.5 模板方法模式的使用场景 2 案例一2.1 需求2.2 代码实现 3 案例二3.1 需求3.2 代码实现 4 JDK源码解析(InputStre…

[BUUCTF]-PWN:starctf_2019_babyshell解析(汇编\x00开头绕过+shellcode)

查看保护 查看ida 这里就是要输入shellcode,但是函数会有检测。 在shellcode前面构造一个以\x00机器码开头的汇编指令,这样就可以绕过函数检查了。 完整exp: from pwn import* context(log_leveldebug,archamd64) pprocess(./babyshell)she…

【C++】C语言为什么不能函数重载?

文章目录 1.概念2. C为什么支持函数重载? 1.概念 C允许功能类似的同名函数出现,只要形参列表中的参数个数、类型、类型顺序不同,满足这三个条件中任意一个则构成函数重载,函数重载常用来处理实现功能类似数据类型不同的问题。 /…

【Docker4】使用Harbor搭建私有仓库

Docker私有仓库一、搭建本地私有仓库1、daemon.json 配置文件中常用配置项2、搭建私有仓库3、Docker容器重启策略 二、Docker--harbor私有仓库部署与管理1、Harbor 简介2、Harbor的特性3、Harbor的构成4、Harbor 部署4.1、部署 Docker-Compose 服务4.2、部署 Harbor 服务4.3、启…

解决文件过大无法存入U盘

如果文件达到4GB以上大小,且还是比U盘容量小,却放不进去。 这是由于格式问题。 U盘默认格式是FAT32,存放的单个文件大小不能超过4GB 可以修改U盘格式为exFAT或者NTFS格式。这样不会收到限制 下面以Windows11系统进行演示: 1.连接U盘 2.按WINe打开文件管理器 3.点击"文件…

雷卯的ESD管SDA3311DN可以替代AZ5883-01F ---国产化替代篇

已经有很多客户选用雷卯的 SDA3311DN替代Amazing的 AZ5883-01F,客户可以获得更好的价格和更快的交期。 SDA3311DN主要应用于对3.3V供电的静电浪涌防护等,特别是在一些受空间所限的小电子设备很受青睐。 雷卯的SDA3311DN优势: IPP大(65A) &…

快速瓦斯封孔器请满载希望出发

不论昨天如何,今天请满载希望出发!每一个微笑、每一次服务,都是我们通往成功巅峰的阶梯。 一、 用途: CKF-I型快速瓦斯封孔器用以快速封闭采面卸压抽放钻孔,具有重量轻、速度快、操作简便的特点&#xff1…

模拟框图的表示

微分方程的建立 目的:为建立LTI系统的数学模型,需要列写微分方程式。 以RLC电路为例: 以Us为输入,Uc为输入,则可以得出以下微分方程式: 抽去物理意义后,得到一般的常微分线性方程:…

重塑语言智能未来:掌握Transformer,驱动AI与NLP创新实战

Transformer模型 Transformer是自然语言理解(Natural Language Understanding,NLU)的游戏规则改变者,NLU 是自然语言处理(Natural Language Processing,NLP)的一个子集。NLU已成为全球数字经济中AI 的支柱之一。 Transformer 模型标志着AI 新…