[pytorch、学习] - 3.5 图像分类数据集

参考

3.5. 图像分类数据集

在介绍shftmax回归的实现前我们先引入一个多类图像分类数据集

本章开始使用pytorch实现啦~

本节我们将使用torchvision包,它是服务于PyTorch深度学习框架的,主要用来构建计算机视觉模型。torchvision主要由以下几部分构成:

torchvision.datasets: 一些加载数据的函数及常用的数据集接口
torchvision.models: 包含常用的模型(含预训练模型),例如 AlexNet、VGG、ResNet等
torchvision.transforms: 常用的图片变换,例如裁剪、旋转等;
torchvision.utils: 其他的一些有用的方法

3.5.1. 获取数据集

import torch
import torchvision
import torchvision.transforms as transforms
import matplotlib.pyplot as plt
import time
import sys
sys.path.append('..')  # 为了导入上层的d2lzh_pytorch
import d2lzh_pytorch as d2l

下面,我们通过torchvision的torchvision.dataset来下载这个数据集。第一次调用时会自动从网上下载获取数据。我们通过参数train来指定获取训练集或测试数据集(testing data)。

mnist_train = torchvision.datasets.FashionMNIST(root='~/Datasets/FashionMNIST', train=True, download=True, transform=transforms.ToTensor())
mnist_test = torchvision.datasets.FashionMNIST(root='~/Datasets/FashionMNIST', train=False, download=True, transform=transforms.ToTensor())

数据集下载如果比较慢,建议通过网址下载4个,然后根据下载的目录导入即可。如下图,是下载了(4个文件,这里只说一个,其他类似)train-images-idx3-ubyte.gz到本地的目录C:\Users\1/Datasets/FashionMNIST\FashionMNIST\raw\下.可从网址直接下载4个(无需解压)到该目录下在执行以上代码.

在这里插入图片描述

# 上面的 mnist_train 和 mnist_test都是 torch.utils.data.Datasets的子类
# 所以我们可以用len()来获取该数据集的大小,还可以用下标来获取具体的一个样本
# 训练集中和测试集中的每个类别的图像分别是6000和1000。因为有10个类别,所以训练集和测试集的样本数分别为60000和10000
print(type(mnist_train))   # <class 'totchvision.datasets.mnist.FashionMNIST'>
print(len(mnist_train), len(mnist_test))   # 60000 10000
# 通过下标访问任意样本
feature, label = mnist_train[0]
print(feature.shape, label)   # torch.Size([1, 28, 28]) tensor(5)

在这里插入图片描述
变量feature对应高和宽均为28像素的图像。由于我们使用了transforms.ToTensor(),所以每个像素的数值为[0.0, 1.0]的32位浮点数。需要注意的是,feature的尺寸是(C * H * W)的,而不是(H * W * C)。第一维是通道数,因为数据通道数为1.后面两维分别是图像的高和宽

Fashion-MNIST中一共包括了10个类别,分别0、1、2、3、4、5、6、7、8、9

# 本函数已保存在d2lzh包中方便以后使用
def get_fashion_mnist_labels(labels):
#     text_labels = ['t-shirt', 'trouser', 'pullover', 'dress', 'coat', 'sandal', 'shirt', 'sneaker', 'bag', 'ankle boot']text_labels = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']return [text_labels[int(i)] for i in labels]# 定义一个可以在一行里面画出多张图像和对应标签的函数
def show_fashion_mnist(images, labels):d2l.use_svg_display()_, figs = plt.subplots(1, len(images), figsize= (12, 12))for f, img, lbl in zip(figs, images, labels):f.imshow(img.view((28, 28)).numpy())f.set_title(lbl)f.axes.get_xaxis().set_visible(False)f.axes.get_yaxis().set_visible(False)plt.show()X, y = [], []
for i in range(10):# 从数据集中取出10个X.append(mnist_train[i][0])y.append(mnist_train[i][1])
show_fashion_mnist(X, get_fashion_mnist_labels(y))

在这里插入图片描述

3.5.2. 读取小批量

我们将在训练数据集上训练模型,并将训练好的模型在测试集上评价模型的表现。前面说过, mnist_train 是torch.utils.data.Dataset的子类,所以我们可以将其传入torch.utils.data.DataLoader来创建一个读取小批量数据样本的DataLoader实例

batch_size = 256
if sys.platform.startswith('win'):num_workers = 0  # 0表示不用额外的进程来加速读取数据
else:num_workers = 4
train_iter = torch.utils.data.DataLoader(mnist_train, batch_size=batch_size, shuffle=True, num_workers=num_workers)
test_iter = torch.utils.data.DataLoader(mnist_test, batch_size=batch_size, shuffle=False, num_workers=num_workers)start = time.time()
for X,y in train_iter:continue
print('%.2f sec' % (time.time() - start))