PyTorch入门之【dataset】

参考:https://www.bilibili.com/video/BV1DV4y1y7KG/?spm_id_from=333.999.0.0&vd_source=98d31d5c9db8c0021988f2c2c25a9620

目录

  • 使用Pytorch自带的dataset
  • 用户自定义的dataset

使用Pytorch自带的dataset

在 PyTorch 中,torchvision.datasets 包中提供了许多经典数据集的实现,你可以使用它们来训练和测试模型。
当然这些数据集是在服务器上的它在使用的时候是联网下载的。首次运行会下载,再次运行就不用下载了。
这里以经典的MNIST数据集为例。
总代码如下:

import torch
from torchvision import datasets
import matplotlib.pyplot as plt
from torch.utils.data import DataLoader
from torchvision import transforms# define a transform
transform = transforms.Compose([transforms.Resize(24),transforms.RandomRotation(10),transforms.ToTensor()
])# download training & testing dataset
training_data = datasets.MNIST(root='data',train=True,download=True,transform=transform
)test_data = datasets.MNIST(root='data',train=False,download=True,transform=transform
)# create label to idx dictionary
labels = {i: training_data.classes[i] for i in range(len(training_data.classes))}# display images in MNIST
figure = plt.figure(figsize=(8, 8))
cols, rows = 3, 3
for i in range(1, cols * rows + 1):sample_idx = torch.randint(len(training_data), size=(1,)).item()img, label = training_data[sample_idx]figure.add_subplot(rows, cols, i)plt.title(labels[label])plt.axis("off")plt.imshow(img.squeeze(), cmap="gray")
plt.show()# create dataloader
train_data_loader = DataLoader(training_data, batch_size=16, shuffle=True)
test_data_loader = DataLoader(test_data, batch_size=16, shuffle=True)
print(next(iter(train_data_loader))[0].shape)

下面挨个看各个模块的作用:

# define a transform
transform = transforms.Compose([transforms.Resize(24),transforms.RandomRotation(10),transforms.ToTensor()
])

这段代码定义了一个数据转换管道,它将一系列的图像处理操作串联起来,以便对图像进行预处理。

  • transforms.Grayscale():将彩色图像转换为灰度图像。
  • transforms.Resize(24):调整图像的大小为 24x24 像素。
  • transforms.RandomRotation(10):随机旋转图像最多 10 度,增加数据的多样性和鲁棒性。
  • transforms.ToTensor():将图像转换为张量形式,以便进行后续的数据处理和模型训练。

通过将上述操作按照顺序组合在一起,你可以定义一个 transform 对象,用于对图像数据集中的每个图像进行预处理。该 transform 对象被用于加载 MNIST 数据集,并且在 DataLoader 中配合使用。这样的数据预处理流程在深度学习中非常常见,它能够帮助提高模型训练的效果和泛化能力。你可以根据自己的需求,定制不同的转换操作,以适应不同的任务和数据集特点。

# download training & testing dataset
training_data = datasets.MNIST(root='data',train=True,download=True,transform=transform
)test_data = datasets.MNIST(root='data',train=False,download=True,transform=transform
)

上述代码就是下载training_data和test_data数据。
download=True 参数用于指定是否下载数据集。当该参数设置为 True 时,如果数据集尚未下载,则会自动下载数据集。如果数据集已经存在,将不会再次下载。在加载数据集时 datasets.MNIST() 会检查文件是否下载过。

# create label to idx dictionary
labels = {i: training_data.classes[i] for i in range(len(training_data.classes))}

这段代码的作用是将 MNIST 训练集的类别标签映射为整数索引,并将其存储在 labels 字典中。
这个MNIST 训练集是用来区分0-9的数据集,故这里就可以将0映射到0,1映射到1以此类推。

# display images in MNIST
figure = plt.figure(figsize=(8, 8))
cols, rows = 3, 3
for i in range(1, cols * rows + 1):sample_idx = torch.randint(len(training_data), size=(1,)).item()img, label = training_data[sample_idx]figure.add_subplot(rows, cols, i)plt.title(labels[label])plt.axis("off")plt.imshow(img.squeeze(), cmap="gray")
plt.show()

上述代码就是将MNIST数据集中随机的生成9个图片打印出来,为了验证一下我们的MNIST数据集是否成功的加载

# create dataloader
train_data_loader = DataLoader(training_data, batch_size=16, shuffle=True)
test_data_loader = DataLoader(test_data, batch_size=16, shuffle=True)
print(next(iter(train_data_loader))[0].shape)

上述代码用于创建数据加载器 (DataLoader),设置批次以及是否shuffle。

用户自定义的dataset

import torch
import matplotlib.pyplot as plt
from torch.utils.data import DataLoader
from torchvision import transforms
from torchvision.datasets import ImageFolder# define a transform
transform = transforms.Compose([transforms.Grayscale(),transforms.Resize(24),transforms.RandomRotation(10),transforms.ToTensor()
])# create dataset
my_mnist = ImageFolder(root='./my-mnist', transform=transform)# create label to idx dictionary
labels = {i: my_mnist.classes[i] for i in range(len(my_mnist.classes))}# display images in MNIST
figure = plt.figure(figsize=(8, 8))
cols, rows = 3, 3
for i in range(1, cols * rows + 1):sample_idx = torch.randint(len(my_mnist), size=(1,)).item()img, label = my_mnist[sample_idx]figure.add_subplot(rows, cols, i)plt.title(labels[label])plt.axis("off")plt.imshow(img.squeeze(), cmap="gray")
plt.show()# create dataloader
train_data_loader = DataLoader(my_mnist, batch_size=16, shuffle=True)
print(next(iter(train_data_loader))[0].shape)

总的代码几乎差不多,唯一有区别的就是数据是从自己定义的路径下加载的。
使用 ImageFolder 类创建数据集 my_mnist

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/96952.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

评价指标篇——IOU(交并比)

什么是IoU(Intersection over Union) IoU是一种测量在特定数据集中检测相应物体准确度的一个标准。 即是产生的候选框(candidate bound)与原标记框(ground truth bound)的交叠率 即它们的交集与并集的比值。最理想情况是完全重叠…

【面试】反问环节+面试套路

文章目录 一、反问环节一)技术面二)HR面 二、面试套路 努力经营当下 直至未来明朗! 一、反问环节 一)技术面 如果有幸入职,我在工作上需要准备些什么呀?请问在所有能力中(如:学习…

数据中台实战(11)-数据中台的数据安全解决方案

0 微盟删库跑路 除了快、准和省,数据中台须安全,避免“微盟删库跑路”。 2020年2月23日19点,国内最大精准营销服务商微盟出现大面积系统故障,旗下300万商户线上业务全停,商铺后台所有数据被清。始作俑者是一位运维&a…

OpenMesh 网格面片随机赋色

文章目录 一、简介二、实现代码三、实现效果一、简介 OpenMesh中的赋色方式与Easy3D很是类似,它统一有一个属性数组来进行管理,我们在进行赋色等操作时,必须要首先添加该属性才能进行使用,这里也进行记录一下(法向量等特征也是类似的操作)。 二、实现代码 #define _USE_…

秒验:可以自定义UI的一键登录服务

一键登录如今成为越来越多移动应用的首选,但千篇一律的登陆界面在引发用户担忧其安全性的同时,也容易让用户在不同APP切换时产生误解。因此,由国内知名移动应用开发服务商MobTech打造的一键登录工具——秒验,通过允许开发者自定义…

Springboot中Aop的使用

Springboot中使用拦截器、过滤器、监听器-CSDN博客 相比较于拦截器&#xff0c;Spring 的aop则功能更强大&#xff0c;封装的更细致&#xff0c;需要单独引用 jar包。 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-b…

C#学习系列相关之多线程(一)----常用多线程方法总结

一、多线程的用途 在介绍多线程的方法之前首先应当知道什么是多线程&#xff0c; 在一个进程内部可以执行多个任务&#xff0c;而这每一个任务我们就可以看成是一个线程。是程序使用CPU的基本单位。进程是拥有资源的基本单位&#xff0c; 线程是CPU调度的基本单位。多线程的作用…

快速掌握批量合并视频

在日常的工作和生活中&#xff0c;我们经常需要对视频进行编辑和处理&#xff0c;而合并视频、添加文案和音频是其中常见的操作。如何快速而简便地完成这些任务呢&#xff1f;今天我们介绍一款强大的视频编辑软件——“固乔智剪软件”&#xff0c;它可以帮助我们轻松实现批量合…

C++深入学习part_1

Linux下编译C程序 安装g命令&#xff1a;sudo apt install g 编译命令&#xff1a;$ g *.cc 或者 *.cpp -o fileName; hellworld 编译程序可以看到&#xff1a; namespace命名空间 首先&#xff0c;命名空间的提出是为了防止变量重名冲突而设置的。 浅浅试一下&#xff1…

深度学习基础之参数量(3)

一般的CNN网络的参数量估计代码 class ResidualBlock(nn.Module):def __init__(self, in_planes, planes, norm_fngroup, stride1):super(ResidualBlock, self).__init__()print(in_planes, planes, norm_fn, stride)self.conv1 nn.Conv2d(in_planes, planes, kernel_size3, …

Py之pygraphviz:pygraphviz的简介、安装、使用方法之详细攻略

Py之pygraphviz&#xff1a;pygraphviz的简介、安装、使用方法之详细攻略 目录 pygraphviz的简介 pygraphviz的安装 Graphviz&#xff1a;可视化工具Graphviz的简介、安装、使用方法、经典案例之详细攻略 pygraphviz的使用方法 1、基础用法 2、进阶案例 Algorithm&#…

后端解决跨域(极速版)

header(Access-Control-Allow-Origin: *); header(Access-Control-Allow-Methods:*); 代表接收全部的请求&#xff0c;"POST,GET"//允许访问的方式 指定域&#xff0c;如http://172.20.0.206//宝塔的域名&#xff0c;注意不是&#xff1a;http://wang.jingyi.icu等…

前端try和catch

为什么要使用try catch 使用try...catch语句是为了处理和管理可能会在程序运行过程中发生的异常或错误情况。以下是一些使用try...catch的主要原因&#xff1a; 错误处理&#xff1a;在开发过程中&#xff0c;无法避免地会出现各种错误&#xff0c;如网络请求失败、数据解析错误…

网络和系统操作命令

目录 ping&#xff1a;用于检测网络是否通畅&#xff0c;以及网络时延情况。ipconfig&#xff1a;查看计算机的IP参数配置信息&#xff0c;如IP地址、默认网关、子网掩码等信息。netstat&#xff1a;显示协议统计信息和当前TCP/IP网络连接。tasklist&#xff1a;显示当前运行的…

正点原子嵌入式linux驱动开发——U-boot图形化配置及其原理

经过之前对uboot的学习可以知道&#xff1a;uboot可以通过stm32mp15_trusted_defconfig来配置&#xff0c;或者通过文件stm32mp1.h来配置uboot。还有另外一种配置uboot的方法&#xff0c;就是图形化配置&#xff0c;以前的uboot是不支持图形化配置&#xff0c;只有Linux内核才支…

Mac M1安装ROS1或ROS2

1.首先进入Anaconda官网&#xff0c;安装Anaconda 2.创建、激活并配置环境 #创建环境 conda create -n ROS #激活环境 conda activate ROS #配置环境 conda config --add channels conda-forge conda config --add channels robostack conda config --set channel_priority st…

JMeter工具的介绍,安装

一、本文学习目标 1、能知道JMeter的优缺点 2、能掌握JMeter的安装流程 3、能掌握JMeter线程组的设置 4、能掌握JMeter参数化的使用 5、能掌握JMeter直连数据库操作 6、能掌握JMeter的断言. 二、JMeter简介 &#xff08;1&#xff09;Jmeter详细介绍 **JMeter&#xff08;A…

C++递归函数

在本文中&#xff0c;您将学习创建递归函数。调用自身的函数。 调用自身的函数称为递归函数。并且&#xff0c;这种技术称为递归。 递归在C 中如何工作&#xff1f; void recurse() {... .. ...recurse();... .. ... }int main() {... .. ...recurse();... .. ... } 下图显…

在 ubuntu 22.04 上配置界面服务器 vnc

xrdp服务器的安装 步骤 1.安装服务器 $ sudo apt install tightvncserver // 命令过后并没有启动服务器 // 这个包没有 systemd 脚本,其不被 systemd 管理!!!查看配置 $ cat ~/.vnc/xstartup #!/bin/shxrdb "$HOME/.Xresources" xsetroot -solid grey #x-termina…

08 集群参数配置(下)

Kafka Broker不需要太大的堆内存&#xff1f; Kafka Broker不需要太大的堆内存&#xff1f;应该把内存留给页缓存使用&#xff1f; kafka刷盘时宕机 kafka认为写入成功是指写入页缓存成功还是数据刷到磁盘成功算成功呢&#xff1f;还是上次刷盘宕机失败的问题&#xff0c;页…