PyTorch框架学习五——图像预处理transforms（一）

一、transforms运行机制
二、transforms的具体方法
- 1.裁剪
- - （1）随机裁剪：transforms.RandomCrop()
  - （2）中心裁剪：transforms.CenterCrop()
  - （3）随机长宽比裁剪：transforms.RandomCrop()
  - （4）上下左右中心裁剪：transforms.FiveCrop()
  - （5）上下左右中心裁剪后翻转：transforms.TenCrop()
- 2.翻转、旋转
- - （1）依概率p水平翻转：transforms.RandomHorizontalFlip()
  - （2）依概率p垂直翻转：transforms.RandomVerticalFlip()
  - （3）随机旋转：transforms.RandomRotation()

一、transforms运行机制

介绍transforms之前先简单介绍一下torchvision。

torchvision是PyTorch的计算机视觉工具包，包含了一些与CV相关的处理。有三个需要重要介绍：

torchvision.transforms：包含了常用的图像预处理方法，如数据中心化、标准化、缩放、裁剪等。
torchvision.datasets：包含了常用数据集的dataset实现，如MNIST、CIFAR-10、ImageNet等。
torchvision.model：包含了常用的预训练模型，如AlexNet、VGG、ResNet、GoogleNet等。

在transforms中除了具体的预处理方法之外，有一个Compose操作，这里提前介绍，它可以将一系列transforms操作有序地组合包装，以此按顺序执行每一项操作。

torchvision.transforms.Compose(transforms)

参数：
在这里插入图片描述
如：

>>> transforms.Compose([
>>>     transforms.CenterCrop(10),
>>>     transforms.ToTensor(),
>>> ])

二、transforms的具体方法

transforms的操作一般的目的是为了图像预处理和数据增强，所谓数据增强，又称数据增广、数据扩增，它是对训练集进行变换，使训练集更丰富，从而让模型更具泛化能力。下面将介绍二十多种具体的transforms的方法。

1.裁剪

（1）随机裁剪：transforms.RandomCrop()

功能：从图片中随机裁剪出尺寸为size的部分，图像可以是PIL格式或者是张量。

torchvision.transforms.RandomCrop(size, padding=None, pad_if_needed=False, fill=0, padding_mode='constant')

参数如下：
在这里插入图片描述

size：（序列或int）若为int，则是（size，size）的大小，若为序列如（h，w），则大小为（h，w）。
padding：（序列或int，可选）默认为None，当为整数a时，上下左右的边均要填充a个像素；当为(a, b)时，上下两边填充b个像素，左右两边填充a个；当为(a, b, c, d)时，左、上、右、下分别填充a、b、c、d个像素。
pad_if_need：（布尔型）如果输入的图像尺寸小于要裁剪的尺寸size，则填充，以防报错。
fill：padding_mode中constant模式时设置填充的像素值，默认为0。
padding_mode：填充模式，有四种，constant、edge、reflect和symmetric，默认为constant，而且目前symmetric模式不支持输入为张量（Tensor）。constant模式：像素值由fill设定；edge模式：由图像边缘像素决定；reflect模式：镜像填充，最后一个像素不镜像，如[1, 2, 3, 4]→[3, 2, 1, 2, 3, 4, 3, 2]；symmetric模式：镜像填充，最后一个像素也镜像，如[1, 2, 3, 4]→[2, 1, 1, 2, 3, 4, 4, 3]。

下面看一下随机裁剪的几个例子及其效果，变换前图片的原始尺寸为224×224，如下图所示：
在这里插入图片描述

（1）随机裁剪尺寸为224，padding=16，即四边都填充16个像素，就是在256×256的范围随机裁剪224×224的大小，效果如下图所示：

transforms.RandomCrop(224, padding=16)

在这里插入图片描述
（2）随机裁剪尺寸为224，padding=（16, 64），即左右填充16个像素，上下填充64个像素，就是在256×352 的范围随机裁剪224×224的大小，效果如下图所示：

transforms.RandomCrop(224, padding=(16, 64))

在这里插入图片描述
（3）与（1）不同之处就在于像素的填充，这里设定了填充的像素值为(255, 0, 0)，效果如下图所示：

transforms.RandomCrop(224, padding=16, fill=(255, 0, 0))

在这里插入图片描述
（4）随机裁剪的尺寸为512，大于原始图像的尺寸224，所以pad_if_needed必须设置为True来进行自动填充，扩大尺寸（填充是随机的），效果如下图所示：

transforms.RandomCrop(512, pad_if_needed=True)

在这里插入图片描述
（5）与（1）或（3）不同的是，填充模式设定为‘edge’，效果如下图所示：

transforms.RandomCrop(224, padding=64, padding_mode='edge')

在这里插入图片描述
（6）与（1）或（3）或（5）不同的是，填充模式设定为 ‘reflect’ ，效果如下图所示：

transforms.RandomCrop(224, padding=64, padding_mode='reflect')

在这里插入图片描述
（7）最后看一个综合一点的：

transforms.RandomCrop(1024, padding=1024, padding_mode='symmetric')

在这里插入图片描述

（2）中心裁剪：transforms.CenterCrop()

功能：从图像中心裁剪图片，图片可以是PIL格式或是张量。

torchvision.transforms.CenterCrop(size)

在这里插入图片描述
例子如下：

transforms.CenterCrop(128)

在这里插入图片描述

transforms.CenterCrop(512)

在这里插入图片描述

（3）随机长宽比裁剪：transforms.RandomCrop()

功能：随机大小、长宽比裁剪图片，图片可以是PIL格式或是张量。

torchvision.transforms.RandomResizedCrop(size, scale=(0.08, 1.0), ratio=(0.75, 1.3333333333333333), interpolation=2)

参数如下：
在这里插入图片描述

size：同上。
scale：随机裁剪的大小区间，如scale=(0.08, 1.0)，即随机裁剪出的图片面积会在原始面积的0.08倍至1.0倍之间。
ratio：随机长宽比的范围，默认为(3/4，4/3)。
interpolation：插值方法，有三种，分别为PIL.Image.NEAREST、PIL.Image.BILINEAR、PIL.Image.BICUBIC，默认为PIL.Image.BILINEAR。

例子如下：裁剪出来的部分是原来部分面积的0.5倍，但是大小又必须为224不变，所以用了默认了插值方法PIL.Image.BILINEAR。

transforms.RandomResizedCrop(size=224, scale=(0.5, 0.5))

在这里插入图片描述

（4）上下左右中心裁剪：transforms.FiveCrop()

功能：对给定图像的四个角以及中心进行裁剪，图片可以是PIL格式或是张量，返回一个包含五个元素的元组（tuple），一般都要紧跟一个将元组转变为张量的操作，而且还要注意前后代码尺寸上的匹配。

torchvision.transforms.FiveCrop(size)

参数size同上。

例子如下，紧跟了一个将元组变换为张量的操作：

transforms.FiveCrop(112)
transforms.Lambda(lambda crops: torch.stack([(transforms.ToTensor()(crop)) for crop in crops])),

在这里插入图片描述

（5）上下左右中心裁剪后翻转：transforms.TenCrop()

功能：在图像（PIL格式或者是张量）的上下左右四个角以及中心裁剪出尺寸为size的5张图片，TenCrop对这5张图片进行水平或垂直镜像从而获得10张图片。

torchvision.transforms.TenCrop(size, vertical_flip=False)

参数如下：
在这里插入图片描述

size：同上。
vertical_flip：设置为True时，会垂直翻转，为False时，会水平翻转，默认为False。

transforms.TenCrop(112, vertical_flip=False)
transforms.Lambda(lambda crops: torch.stack([(transforms.ToTensor()(crop)) for crop in crops])),

在这里插入图片描述

2.翻转、旋转

（1）依概率p水平翻转：transforms.RandomHorizontalFlip()

功能：依概率水平翻转，输入图像为PIL格式或是张量。

torchvision.transforms.RandomHorizontalFlip(p=0.5)

参数：
在这里插入图片描述
例子如下：

transforms.RandomHorizontalFlip(p=1)

在这里插入图片描述

（2）依概率p垂直翻转：transforms.RandomVerticalFlip()

功能：依概率垂直翻转，输入图像为PIL格式或是张量。

torchvision.transforms.RandomVerticalFlip(p=0.5)

在这里插入图片描述
例子如下：

transforms.RandomVerticalFlip(p=1)

在这里插入图片描述

（3）随机旋转：transforms.RandomRotation()

功能：随机旋转图片。

torchvision.transforms.RandomRotation(degrees, resample=False, expand=False, center=None, fill=None)

参数如下：
在这里插入图片描述

degrees：旋转的角度，当为a时，在（-a, a）之间选择旋转角度；当为（a, b）时，在（a, b）之间选择角度。
resample：（可选）重采样方法（以后细学）。
expand：（布尔，可选）若为True，则会自动扩大输出尺寸，以保证原图信息不丢失；若为False或省略，输出尺寸保持和输入一致。
center：（可选）旋转中心，以左上角为原点（0,0），默认旋转中心为图像中心点。
fill：像素填充值，默认为0，只支持pillow>=5.2.0版本。

注意：expand的计算公式是针对中心点旋转的，若设置为左上角旋转或者其他点为旋转中心，则不能保证保持原图信息。

下面看几个例子：
（1）中心点旋转，范围（-90度，90度）：

transforms.RandomRotation(90)

在这里插入图片描述
（2）设置expand保持原图信息，图像尺寸自动扩大：

transforms.RandomRotation((90), expand=True)

在这里插入图片描述
（3）旋转中心改为左上角：

transforms.RandomRotation(30, center=(0, 0))

在这里插入图片描述

（4）旋转中心为左上角并进行expand：

transforms.RandomRotation(30, center=(0, 0), expand=True)

结果不能保证保持原图信息：
在这里插入图片描述

PyTorch框架学习五——图像预处理transforms（一）

PyTorch框架学习五——图像预处理transforms（一）

一、transforms运行机制

二、transforms的具体方法

1.裁剪

（1）随机裁剪：transforms.RandomCrop()

（2）中心裁剪：transforms.CenterCrop()

（3）随机长宽比裁剪：transforms.RandomCrop()

（4）上下左右中心裁剪：transforms.FiveCrop()

（5）上下左右中心裁剪后翻转：transforms.TenCrop()

2.翻转、旋转

（1）依概率p水平翻转：transforms.RandomHorizontalFlip()

（2）依概率p垂直翻转：transforms.RandomVerticalFlip()

（3）随机旋转：transforms.RandomRotation()

相关文章

机器之心 GitHub 项目地址：

IBM Watson大裁70% 员工，撕掉了国内大批伪AI企业最后一块遮羞布！

PyTorch框架学习六——图像预处理transforms（二）

新浪微博学习的知识点

numpy方法读取加载mnist数据集

纳米线传感器来了，传感芯片还会远吗

PyTorch框架学习七——自定义transforms方法

Fashion-MNIST下载地址

dfs算法

美国芯片简史：军方大力扶持下的产物但一度被日韩超越

PyTorch框架学习八——PyTorch数据读取机制（简述）

使用feed_dict不一定要用占位符

报告 | 2019年全球数字化转型现状研究报告

Android调用binder实现权限提升-android学习之旅（81）

PyTorch框架学习九——网络模型的构建

将张量转换为 int32 类型

中国17种稀土有啥军事用途？没它们，美军技术优势将归零

swiper链接href无效

PyTorch框架学习十——基础网络层（卷积、转置卷积、池化、反池化、线性、激活函数）

一个招标书文件的需求分析