MNIST 数据集 ubyte 格式介绍

train-images-idx1-ubyte 文件是用于存储 MNIST 数据集中手写数字图像数据的文件。与标签文件类似,这个文件使用的是一种简单而紧凑的二进制格式。具体的文件格式如下:

  1. 文件头(Header)
    文件头部分包含了一些描述文件内容的信息,具体如下:

    • 魔数(Magic Number):文件的前 4 个字节,用于标识文件类型。对于图像文件,魔数通常是 2051(十进制)。
    • 图像数量:紧随魔数之后的 4 个字节,表示文件中包含的图像数量。
    • 图像高度:再接下来的 4 个字节,表示图像的高度(像素)。
    • 图像宽度:紧随图像高度之后的 4 个字节,表示图像的宽度(像素)。
  2. 图像数据
    图像数据部分紧随文件头之后,包含了所有图像的像素数据,每个像素占用 1 个字节(0 到 255 之间的灰度值)。

具体来说,文件的格式可以用伪代码表示如下:

[header]
| magic number (4 bytes) | number of images (4 bytes) | number of rows (4 bytes) | number of columns (4 bytes) |
[images]
| pixel 1 (1 byte) | pixel 2 (1 byte) | ... | pixel N (1 byte) |

其中,每个图像的数据按行优先顺序存储(即每行的像素从左到右排列,按行排列)。

读取 train-images-idx1-ubyte 文件的示例代码

以下是一个 Python 示例代码,用于读取和解析 train-images-idx1-ubyte 文件:

import struct
import numpy as np
import matplotlib.pyplot as pltdef read_images(file_path):with open(file_path, 'rb') as file:# 读取魔数和图像信息magic_number, num_images, num_rows, num_columns = struct.unpack('>IIII', file.read(16))print(f"Magic Number: {magic_number}, Number of Images: {num_images}, Rows: {num_rows}, Columns: {num_columns}")# 读取所有图像images = np.fromfile(file, dtype=np.uint8).reshape(num_images, num_rows, num_columns)return images# 使用示例
file_path = 'train-images-idx3-ubyte'
images = read_images(file_path)
print(f"First Image Shape: {images[0].shape}")# 显示第一张图像
plt.imshow(images[0], cmap='gray')
plt.show()

在这段代码中:

  • 使用 struct.unpack 方法从文件中读取二进制数据。
  • '>IIII' 表示以大端序读取四个 4 字节的无符号整数,分别对应魔数、图像数量、图像高度和图像宽度。
  • np.fromfile 方法从文件中读取剩余的像素数据,并将其重塑为 (num_images, num_rows, num_columns) 的形状。

通过上述代码,可以将 train-images-idx1-ubyte 文件中的所有图像数据读取到一个 NumPy 数组中,并展示第一张图像。

train-labels-idx1-ubyte 是一个存储在 Ubyte 格式中的文件,常用于 MNIST 数据集的标签文件。这个文件的格式是一个二进制文件,包含了手写数字图片对应的标签。它的存储结构是非常简单和紧凑的,下面是具体的存储格式:

  1. 文件头(Header)
    文件头部分包含了一些描述文件内容的信息,具体如下:

    • 魔数(Magic Number):文件的前 4 个字节,用于标识文件类型。对于标签文件,魔数通常是 2049(十进制)。
    • 标签数量:紧随魔数之后的 4 个字节,表示文件中包含的标签数量。
  2. 标签数据
    标签数据部分紧随文件头之后,包含了所有图片的标签,每个标签占用 1 个字节(表示 0 到 9 之间的数字)。

具体来说,文件的格式可以用伪代码表示如下:

[header]
| magic number (4 bytes) | number of items (4 bytes) |
[labels]
| label 1 (1 byte) | label 2 (1 byte) | ... | label N (1 byte) |

读取 train-labels-idx1-ubyte 文件的示例代码

以下是一个 Python 示例代码,用于读取和解析 train-labels-idx1-ubyte 文件:

import structdef read_labels(file_path):with open(file_path, 'rb') as file:# 读取魔数和标签数量magic_number, num_labels = struct.unpack('>II', file.read(8))print(f"Magic Number: {magic_number}, Number of Labels: {num_labels}")# 读取所有标签labels = []for _ in range(num_labels):label = struct.unpack('B', file.read(1))[0]labels.append(label)return labels# 使用示例
file_path = 'train-labels-idx1-ubyte'
labels = read_labels(file_path)
print(f"First 10 Labels: {labels[:10]}")

在这段代码中:

  • 使用 struct.unpack 方法从文件中读取二进制数据。
  • '>II' 表示以大端序读取两个 4 字节的无符号整数,分别对应魔数和标签数量。
  • 'B' 表示读取一个 1 字节的无符号整数,表示一个标签。

通过上述代码,可以将 train-labels-idx1-ubyte 文件中的所有标签读取到一个列表中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/41271.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Ubuntu 20版本安装Redis教程,以及登陆

第一步 切换到root用户,使用su命令,进行切换。 输入: su - 第二步 使用apt命令来搜索redis的软件包,输入命令:apt search redis 第三步 选择需要的redis版本进行安装,本次选择默认版本,redis5.…

mac如何安装nvm

​ vue项目开发,热更新,webpack,前辈造的轮子:各类的工具,库,像axios,qs,cookie等轮子在npm上可以拿来直接用,需要node作为环境支撑。 开发时同时有好几个项目,每个项目的需求不同…

威纶通创建项目创建(输入,输出,画面切换使用)

创建一个项目 1,打开软件 2,创建项目,设置系统参数 增加设备,选择好对应型号(有市面上80%设备) 3,修改页面,选择参数 4,创建新页面 不能在已经编辑的页面进行新增 5&a…

【HTML入门】第三课 - 标题、段落、空格

这一小节,我们说一些比较零散的知识,HTML课程中呢,其实就是一些标签,正是这些标签组成了前端网页的各种元素,所以你也可以叫他们标签元素。 像前两节我们说的,html head body title meta style 。这些都是…

算法刷题笔记 滑动窗口(C++实现,非常详细)

文章目录 题目描述基本思路实现代码 题目描述 给定一个大小为n ≤ 10^6的数组。有一个大小为k的滑动窗口,它从数组的最左边移动到最右边。你只能在窗口中看到k个数字。每次滑动窗口向右移动一个位置。以下是一个例子: 该数组为 [1 3 -1 -3 5 3 6 7]&…

用HttpURLConnection复现http响应码405

目录 使用GET方法,访问GET接口,服务端返回405使用GET方法,访问POST接口,服务端返回405使用POST方法,访问GET接口,服务端返回405 使用GET方法,访问GET接口,服务端返回405 发生场景&a…

Linux shell编程学习笔记63:free命令 获取内存使用信息

0 前言 在系统安全检查中,内存使用情况也是一块可以关注的内容。Linux提供了多个获取内存信息的命令很多。今天我们先研究free命令。 1 free命令的功能、用法和选项说明 1.1 free命令的功能 free 命令可以显示系统内存的使用情况,包括物理内存、交换…

Java多语言跨境电商外贸商城源码 tiktok商城系统源码 跨境电商源码

Java多语言跨境电商外贸商城源码 tiktok商城系统源码 跨境电商源码 技术栈 PC端使用:vueelementui 用户端使用:uniapp 管理端使用:vueelementui 后台服务使用:springbootmybatisplusmysql 功能描述: 对接PayPal…

vue3+electron项目搭建,遇到的坑

我主要是写后端,所以对前端的vue啊vue-cli只是知其然,不知其所以然 这样也导致了我在开发前端时候遇到了很多的坑 第一个坑, vue2升级vue3始终升级不成功 第二个坑, vue add electron-builder一直卡进度,进度条走完就是不出提示succes 第一个坑的解决办法: 按照网上说的升级v…

Ubuntu 20.04下多版本CUDA的安装与切换 超详细教程

目录 前言一、安装 CUDA1.找到所需版本对应命令2.下载 .run 文件3.安装 CUDA4.配置环境变量4.1 写入环境变量4.2 软连接 5.验证安装 二、安装 cudnn1.下载 cudnn2.解压文件3.替换文件4.验证安装 三、切换 CUDA 版本1.切换版本2.检查版本 前言 当我们复现代码时,总会…

深入分析SSL/TLS服务器的证书(C/C++代码实现)

SSL(Secure Sockets Layer)和TLS(Transport Layer Security)是网络安全领域的重要协议,它们在保护网络通信中发挥着至关重要的作用。这些协议通过加密和身份验证机制,确保数据在传输过程中的机密性和完整性…

初见:AntDB智能运维“三剑客“之ACC

前情回顾 在前两个章节中,我们介绍了 AntDB 智能运维"三剑客"的 ADC 和 MTK。 初见:AntDB智能运维"三剑客"之ADC 初见:AntDB智能运维"三剑客"之MTK 本文将继续介绍 AntDB 数据库智能运维平台 ACC。 AntDB 介绍…

minist数据集分类模型的训练

minist数据集训练 训练方法:利用pytorch来实现minist数据集的分类模型训练 训练模型如下图所示 模型代码: import torch from torch import nn from torch.nn import Flattenclass Net(nn.Module):def __init__(self):super().__init__()self.module …

ChatGPT对话:Scratch编程中一个单词,如balloon,每个字母行为一致,如何优化编程

【编者按】balloon 7个字母具有相同的行为,根据ChatGPT提供的方法,优化了代码,方便代码维护与复用。初学者可以使用7个字母精灵,复制代码到不同精灵,也能完成这个功能,但不是优化方法,也没有提高…

FairJob:促进在线广告系统公平性研究

在人工智能(AI)与人类动态的交汇处,既存在机遇也存在挑战,特别是在人工智能领域。尽管取得了进步,但根植于历史不平等中的持续偏见仍然渗透在我们的数据驱动系统中,这些偏见不仅延续了不公平现象&#xff0…

Centos新手问题——yum无法下载软件

起因:最近在学习centos7,在VM上成功安装后,用Secure进行远程登陆。然后准备下载一个C编译器,看网络上的教程,都是用yum来下载,于是我也输入了命令: yum -y install gcc* 本以为会自动下载&…

docker部署redis/mongodb/

一、redis 创建/root/redis/conf/redis.conf 全部执行命令如下 docker run -it -d --name redis -p 6379:6379 --net mynet --ip 172.18.0.9 -m 400m -v /root/redis/conf:/usr/local/etc/redis -e TXAsia/Shangehai redis redis-server /usr/local/etc/redis/redis.conf 部署…

C#——密封类详情

密封类 密封类是密封方法的扩展,用于确保某个类不会被继承。在C#中,你可以使用sealed关键字来声明一个密封类。 public sealed class SealedClass {// 类成员定义 } 如果使用密封类继承的话,程序会报错!!&#xff0…

01:spring

文章目录 一:常见面试题1:什么是Spring框架?1.1:spring官网中文1.2:spring官网英文 2:谈谈自己对于Spring IOC和AOP的理解2.1:IOCSpring Bean 的生命周期主要包括以下步骤: 2.2&…

解决微信读书和Apple Books导入epub电子书不显示图片的问题

title: 解决微信读书和Apple Books导入epub电子书不显示图片的问题 tags: 个人成长 categories:杂谈 最近找到一本很喜欢的书的电子版的epub版,发现无论是导入微信读书,还是Apple家的Books, 都无法正常显示图片。 于是我用calibre打开epub电子书&#x…