Mnist手写体数字数据集介绍与在Pytorch中使用

1.介绍

        MNIST(Modified National Institute of Standards and Technology)数据集是一个广泛用于机器学习和计算机视觉研究的常用数据集之一。它由手写数字图像组成,包括0到9的数字,每张图像都是28x28像素的灰度图像,图片和标签均采用二进制编码,共70000张图像,其中包括60000张训练集和10000测试集。每张图像都对应一个one-hot标签,表示图像中显示的是哪个数字

        这个数据集因其相对较小的规模和简单的图像内容也成为了许多机器学习入门教程和示例的标准数据集,因为它的简单性和普遍性,使得学习者能够快速开始构建和训练模型,从而更好地理解机器学习的基本概念和流程,可以说它就是计算机视觉的“Hello World”。

        官网地址https://yann.lecun.com/exdb/mnist/

2.在Pytorch中使用Mnist

        Pytorch的torchvision中的datasets自带下载与读取Mnist数据集的函数,可以很方便的使用

1.导入所需库

import torch
from torchvision import datasets, transforms
from torch.utils.data import DataLoader
import matplotlib.pyplot as plt

 2.下载Mnist数据集

# 定义数据转换
transform = transforms.Compose([transforms.ToTensor()  # 将图像转换为 PyTorch 张量
])# 下载并加载 MNIST 训练和测试数据集
train_dataset = datasets.MNIST(root='./dataset', train=True, download=True, transform=transform)
test_dataset = datasets.MNIST(root='./dataset', train=False, download=True, transform=transform)
  • root为数据集保存的位置
  • train为是否为训练集
  • download为是否自动下载该数据集,如果数据集已经下载过,即使设置为True也没关系,他会自动检测
  • transform为数据转换的操作,ToTensor()是必须的

        这里如果不使用科学上网可能无法下载,或者下载有点慢。而直接去官网的话又需要登陆

                        

        这里另外一个介绍使用迅雷下载数据集的方法,不止适用于这个数据集,我们复制好链接后打开迅雷就会自动弹出下载界面

数据集文件名下载地址
训练集图像train-images-idx3-ubyte.gzhttp://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz
训练集标签train-labels-idx1-ubyte.gzhttp://yann.lecun.com/exdb/mnist/train-labels-idx1-ubyte.gz

测试集图像

t10k-images-idx3-ubyte.gzhttp://yann.lecun.com/exdb/mnist/t10k-images-idx3-ubyte.gz
测试集标签t10k-labels-idx1-ubyte.gzhttp://yann.lecun.com/exdb/mnist/t10k-labels-idx1-ubyte.gz

                        

         没有弹出的话就把链接复制到搜索框

        下载好后,在root参数指定的位置下新建一个MNIST文件夹,再在MNIST中新建一个raw文件夹,对于其他数据集不知道如何建文件夹可以先尝试自动下载,他会建好文件夹,然后把下载好的四个压缩包直接放进去就可以

        

接着我们再运行一次上面的代码,他会检测到数据集已存在,然后自动解压缩,这样就完成了

 3.读取数据集与展示

        使用dataloader将数据分为一个个批量大小的数据,生成一个迭代器,shuffle为是否洗牌

# 创建数据加载器以批量加载数据
batch_size = 128
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=batch_size, shuffle=False)
# 输出训练集和测试集的长度
train_length = len(train_dataset)
test_length = len(test_dataset)
print(f"训练集的长度:{train_length}")
print(f"测试集的长度:{test_length}")

# 创建一个字典以存储类别索引及其对应的图像
images_by_class = {}# 填充字典,每个类别只保留几张图像
num_images_per_class = 5# 循环遍历训练集中的每个图像和对应的标签
for image, label in train_dataset:# 如果当前标签不在字典中,为该标签创建一个空列表if label not in images_by_class:images_by_class[label] = []# 如果当前类别的图像数量未达到指定的数量(num_images_per_class),则将当前图像添加到对应类别的列表中if len(images_by_class[label]) < num_images_per_class:images_by_class[label].append(image)# 显示每个类别的图像
for label, images in images_by_class.items():print(f"Class {label}:")# 创建一个新的图像窗口,并设置大小plt.figure(figsize=(num_images_per_class * 2, 2))# 遍历每个类别的图像列表并显示for i in range(num_images_per_class):plt.subplot(1, num_images_per_class, i + 1)# 显示图像,并使用灰度颜色图plt.imshow(images[i].squeeze(), cmap='gray')plt.axis('off')  # 不显示坐标轴plt.show()  # 显示图像

        然后使用for循环就可以一次读取一个批量的数据,进行后面的一系列任务,这里只是展示一个批次数据

# 读取一个批次的数据
for i, (images, labels) in enumerate(train_loader):print("第{}批次".format(i+1))print(images.shape)  # 图像批次的形状 (batch_size, 通道数, 高度, 宽度)print(labels.shape)  # 标签批次的形状 (batch_size,)break   

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/592999.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

探索大模型语言(LLM)科技的革新

文章目录 一. 引言二. 了解大模型语言2.1 什么是LLM&#xff1f;2.2 大模型与大模型语言的区分 三. 机器学习3.1 AI开发3.2 机器学习服务 四. 大模型的应用场景五. 全篇总结 一. 引言 自然语言处理领域的发展取得了巨大的突破&#xff0c;其中广义语言模型&#xff08;LLM&…

pytorch学习笔记

torchvision处理图像的 pytorch官网上看数据集的包&#xff0c;COCO数据集目标检测、语义分割&#xff0c;cifar物体识别 预训练好的模型 这个模块是图片的处理 root-位置&#xff0c;train-创建的true是个训练集&#xff0c;transform 前面是输出图片的数据类型&#xff0c;“…

ByteTrack算法流程的简单示例

ByteTrack ByteTrack算法是将t帧检测出来的检测框集合 D t {\mathcal{D}_{t}} Dt​ 和t-1帧预测轨迹集合 T ~ t − 1 {\tilde{T}_{t-1}} T~t−1​ 进行匹配关联得到t帧的轨迹集合 T t {T_{t}} Tt​。 首先使用检测器检测t帧的图像得到检测框集合 D t {\mathcal{D}_{t}} …

md文件图片上传方案:Github+PicGo 搭建图床

文章目录 1. PicGo 下载2. 配置Github3. 配置PicGo4. PicGo集成Typora4.1 picGo监听端口设置 5. 测试 1. PicGo 下载 下载地址&#xff1a;https://molunerfinn.com/PicGo/ 尽量下载稳定版本 2. 配置Github 1. 创建一个新仓库&#xff0c;用于存放图片 2. 生成一个token&a…

【安卓的签名和权限】

Android 编译使用哪个key签名&#xff1f; 一看Android.mk 在我们内置某个apk的时候都会带有Android.mk&#xff0c;这里面就写明了该APK使用的是什么签名&#xff0c;如&#xff1a; LOCAL_CERTIFICATE : platform表明使用的是platform签名 LOCAL_CERTIFICATE : PRESIGNED…

Redis 生产环境查找无过期时间的 key

在项目中,Redis 不应该被当作传统数据库来使用;储存大量没有过期时间的数据。如果储存大量无过期时间,而且无效的key的话;再加上 Redis 本身的过期策略没有被正确设置,就会大量占用内存。这样就会导致再多的内存资源也不够用。 情况大致是这样,项目中采用 Redis 二级存储…

SpringBoot整合ElasticSearch实现CRUD操作

本文来说下SpringBoot整合ES实现CRUD操作 文章目录 概述项目搭建ES简单的crud操作保存数据修改数据查看数据删除数据 本文小结 概述 SpringBoot支持两种技术和es交互。一种的jest&#xff0c;还有一种就是SpringData-ElasticSearch。根据引入的依赖不同而选择不同的技术。反正作…

leetcode2967. 使数组成为等数数组的最小代价

文章目录 题目思路复杂度Code 题目 给你一个长度为 n 下标从 0 开始的整数数组 nums 。 你可以对 nums 执行特殊操作 任意次 &#xff08;也可以 0 次&#xff09;。每一次特殊操作中&#xff0c;你需要 按顺序 执行以下步骤&#xff1a; 从范围 [0, n - 1] 里选择一个下标 …

代码随想录算法训练营Day16 | 654.最大二叉树、617.合并二叉树、700.二叉搜索树中的搜索、98.验证二叉搜索树

LeetCode 654 最大二叉树 本题思路&#xff1a;我们可以看到每次其实这个找最大值&#xff0c;然后创建节点的过程就是一个二叉树的前序遍历的过程。所以&#xff0c;我们可以递归来完成它。 先创找到数组中&#xff0c;最大的值的下标&#xff0c;然后创建根节点然后根据下标…

pytest装饰器:@pytest.mark.incremental

pytest.mark.incremental 是一个pytest中的装饰器&#xff0c;用于标记增量测试。增量测试是一种测试策略&#xff0c;它将测试分解成多个递增的步骤或阶段&#xff0c;并按顺序执行这些步骤。 pytest.mark.incremental 装饰器的作用是告诉pytest&#xff0c;该测试函数是一个…

c语言-整型在内存的存储

文章目录 前言一、整型数值在内存中的存储1.1 整型数值的表示形式1.2 二进制的表示形式1.3 整数在内存中存储 二、大端字节序存储和小端字节序存储2.1 大端字节序存储2.2 小端字节序存储2.3 练习 总结 前言 本篇文章叙述c语言中整型数据在内存中的存储方式。 一、整型数值在内…

Vue学习计划-Vue3--核心语法(一)OptionsAPI、CompositionAPI与setup

1. OptionsAPI与CompositionAPI Vue2的API设计是Options(配置)风格的Vue3的API设计是Composition(组合)风格的 Options API的弊端&#xff1a; Options类型的API&#xff0c;数据、方法、计算属性等&#xff0c;是分散在&#xff1a;data、methods、computed中的&#xff0c;若…

【操作系统xv6】学习记录2 -RISC-V Architecture

说明&#xff1a;看完这节&#xff0c;不会让你称为汇编程序员&#xff0c;知识操作系统的前置。 ref&#xff1a;https://binhack.readthedocs.io/zh/latest/assembly/mips.html https://www.bilibili.com/video/BV1w94y1a7i8/?p7 MIPS MIPS的意思是 “无内部互锁流水级的微…

Maple 2021安装包下载及安装教程

Maple 2021下载链接&#xff1a;https://docs.qq.com/doc/DUk9MQ1BPRHRYWU9s 1.鼠标右键解压到“Maple 2021” 2.选中Setup&#xff0c;鼠标右击选择“以管理员身份运行” 3.点击“Next” 4.选择I accept the agreement&#xff0c;点击“Next” 5.选择软件安装路径&#xff0c…

YOLOv8-Seg改进:Backbone改进 | 支持restnet50和restnet101

🚀🚀🚀本文改进: 将restnet50和restnet101作为backbone引入到YOLOv8-seg,下表为参数量和计算量的对比 layersparametersgradientsGFLOPsyolov8m-seg3312724022727240211

数据库系统原理例题之——数据管理技术的发展

数据管理技术的发展 第八章 数据管理技术的发展【例题】一 、单选题二 、填空题【答案&解析】一、单选题二、填空题【延伸知识点】【延伸知识点答案&解析】第八章 数据管理技术的发展 【例题】 一 、单选题 69.由数据结构 、关系操作和数据完整性三部分组成的是( ) …

IDEA JAVA Spring Boot运行Hello World(1.8)

参考资料&#xff1a; Spring Boot运行Hello World - 知乎https://blog.csdn.net/weixin_44005516/article/details/108293228(解决bug)SpringBoot入门第一章&#xff1a;Hello World-java教程-PHP中文网 (仅参考如何运行程序)java 8安装教程 java 8安装教程_java8安装-CSDN博…

uView Button 按钮

该组件内部实现以uni-appbutton组件为基础&#xff0c;进行二次封装&#xff0c;主要区别在于&#xff1a; 按钮type值有更多的主题颜色按钮size值有更多的尺寸可选 注意 此组件内部使用uni-appbutton组件为基础&#xff0c;除了开头中所说的增加的功能&#xff0c;另外暴露…

力扣:763. 划分字母区间(贪心,哈希)

题目&#xff1a; 给你一个字符串 s 。我们要把这个字符串划分为尽可能多的片段&#xff0c;同一字母最多出现在一个片段中。 注意&#xff0c;划分结果需要满足&#xff1a;将所有划分结果按顺序连接&#xff0c;得到的字符串仍然是 s 。 返回一个表示每个字符串片段的长度…

SpringBoot集成MQTT协议

简介 MQTT 可以被解释为一种低开销&#xff0c;低带宽占用的即时通讯协议&#xff0c;可以用较少的代码和带宽为远程设备连接提供实时可靠的消息服务&#xff0c;它适用于硬件性能低下的远程设备以及网络状况糟糕的环境下&#xff0c;因此 MQTT 协议在 IoT&#xff08;Interne…