卷积神经网络(CNN)基础
- 前言
- 一、CNN概述
- 二、卷积层
- 2.1 卷积
- 2.2 步幅(Stride)
- 2.3 填充(Padding)
- 2.4 多通道卷积
- 2.5 多卷积计算
- 2.6 特征图大小计算
- 2.7 代码演示
- 三、池化层
- 3.1 池化层计算
- 3.1.1 最大池化层
- 3.1.2 平均池化层
- 3.2 填充(Padding)
- 3.3 步幅(Stride)
- 3.4 多通道池化计算
- 3.5 代码演示
- 总结
前言
- 卷积神经网络(convolutional neural network,CNN)是一类强大的、为处理图像数据而设计的神经网络。
- 基于卷积神经网络架构的模型在计算机视觉领域中已经占主导地位,当今几乎所有的图像识别、目标检测或语义分割相关的学术竞赛和商业应用都以这种方法为基础。
一、CNN概述
- 卷积神经网络(Convolutional Neural Network)是含有卷积层的神经网络
- 卷积层的作用就是用来自动学习、提取图像的特征
- 主要由三部分组成:
- 卷积层:负责提取图像中的局部特征
- 池化层:用来大幅降低参数量级(降维)
- 全连接层:用来输出想要的结果
二、卷积层
- 卷积层其实就是将我们输入的张量通过与卷积核的运算得到新的张量的过程
- Input 表示输入的张量
- Filter 表示卷积核, 也叫做卷积核(滤波矩阵)
- Input 经过 Filter 得到输出为最右侧的图像,该图叫做特征图
2.1 卷积
- 卷积运算本质上就是在卷积核和输入数据的局部区域间做点积
- Output的第一行第一个数计算过程:
- 1 ∗ 1 + 1 ∗ 0 + 1 ∗ 1 + 0 ∗ 0 + 1 ∗ 1 + 1 ∗ 0 + 0 ∗ 1 + 0 ∗ 0 + 1 ∗ 1 = 4 1*1+1*0+1*1+0*0+1*1+1*0+0*1+0*0+1*1=4 1∗1+1∗0+1∗1+0∗0+1∗1+1∗0+0∗1+0∗0+1∗1=4
- 1 ∗ 1 + 1 ∗ 0 + 1 ∗ 1 + 0 ∗ 0 + 1 ∗ 1 + 1 ∗ 0 + 0 ∗ 1 + 0 ∗ 0 + 1 ∗ 1 = 4 1*1+1*0+1*1+0*0+1*1+1*0+0*1+0*0+1*1=4 1∗1+1∗0+1∗1+0∗0+1∗1+1∗0+0∗1+0∗0+1∗1=4
- 卷积通过移动,对不同位置进行卷积运算,最终的特征图结果为:
2.2 步幅(Stride)
- 上述演示中卷积核的步幅(移动步长)为1,其计算特征图过程如下:
- 如果步长变成 2,则计算特征图过程就变成:
2.3 填充(Padding)
- 通过上面的卷积计算过程,最终的特征图比原始图像小很多,如果想要保持经过卷积后的图像大小不变, 可以在原图周围添加 Padding 来实现.
2.4 多通道卷积
- 实际上我们处理的图像都是多通道组成,那么我们怎么计算卷积呢?
- 我们对每个通道的输入,分别与卷积核进行运算,得到的三个卷积后的tensor,然后将三个tensor进行加法运算,得到最终的tensor:
2.5 多卷积计算
- 当使用多个卷积核的时候,我们会对每个卷积核与输入的张量进行卷积,最后得到的是两个卷积后的tensor,我们可以根据需要,将其进行堆叠。
2.6 特征图大小计算
-
公式:
N = W − F + 2 P S + 1 N = \frac{W-F+2P}{S}+1 N=SW−F+2P+1- 输入图像大小: W W W x W W W
- 卷积核大小: F F F x F F F
- Stride: S S S
- Padding: P P P
- 输出图像大小: N N N x N N N
-
举例:
- 图像大小: 5 x 5
- 卷积核大小: 3 x 3
- Stride: 1
- Padding: 1
- (5 - 3 + 2) / 1 + 1 = 5, 即得到的特征图大小为: 5 x 5
2.7 代码演示
代码演示如下:
conv = nn.Conv2d(in_channels, out_channels, kernel_size, stride, padding)
"""
参数说明:in_channels:输入的通道数out_channels:输出通道,也可以理解为卷积核kernel的数量kernel_size:卷积核的高和宽设置,一般设置为3,5,7....stride:卷积核移动的步长padding:在四周加入的padding的数量,默认补 0"""
import torch
import torch.nn as nn
import matplotlib.pyplot as pltdef my_test():# 读取图像, 形状: (640, 640, 3)img = plt.imread('data/img.jpg') # 这里放你们的图片路径,绝对路径和相对路径都可以plt.imshow(img)plt.axis('off')plt.show()# 构建卷积层# out_channels表示卷积核个数# 修改out_channels,stride,padding观察特征图的变化情况conv = nn.Conv2d(in_channels=3, out_channels=3, kernel_size=3, stride=2, padding=0)# 输入形状: (BatchSize, Channel, Height, Width)# img形状: torch.Size([3, 640, 640])img = torch.tensor(img).permute(2, 0, 1)# img形状: torch.Size([1, 3, 640, 640])img = img.unsqueeze(0)# 将图像送入卷积层中feature_map_img = conv(img.to(torch.float32))# 打印特征图的形状print(feature_map_img.shape) if __name__ == '__main__':my_test()# 输入的图像原来是 (640, 640, 3),然后经过维度变化后变成了(3,640,640),
# 再转成tensor就变成(1,3,640,640)
# 经过卷积运算后变成了(1,3,319,319) 除不尽的时候舍弃小数位
三、池化层
- 池化层 (Pooling) 是为了降低维度, 缩减模型大小,提高计算速度.
3.1 池化层计算
3.1.1 最大池化层
- 当确定了池化窗口大小的时候,取窗口内最大的数作为池化后的一个结果
3.1.2 平均池化层
- 当确定了池化窗口大小的时候,取窗口内所有的数取平均值作为池化后的一个结果
3.2 填充(Padding)
3.3 步幅(Stride)
3.4 多通道池化计算
3.5 代码演示
代码演示如下:
# 最大池化
nn.MaxPool2d(kernel_size=2, stride=2, padding=1)
# 平均池化
nn.AvgPool2d(kernel_size=2, stride=1, padding=0)
- 单通道池化
import torch
import torch.nn as nndef test01():# 定义输入输数据 【1,3,3 】inputs = torch.tensor([[[0, 1, 2],[3, 4, 5], [6, 7, 8]]]).float()# 修改stride,padding观察效果# 1. 最大池化polling = nn.MaxPool2d(kernel_size=2, stride=1, padding=0)output = polling(inputs)print("最大池化:\n", output)# 2. 平均池化polling = nn.AvgPool2d(kernel_size=2, stride=1, padding=0)output = polling(inputs)print("平均池化:\n", output)if __name__ == '__main__':test01()
"""
经过最大池化后的tensor:tensor([[[4., 5.],[7., 8.]]])经过最大池化后的tensor:tensor([[[2., 3.],[5., 6.]]])
"""
- 多通道池化
import torch
import torch.nn as nndef test02():# 定义输入输数据 【3,3,3 】inputs = torch.tensor([[[0, 1, 2], [3, 4, 5], [6, 7, 8]],[[10, 20, 30], [40, 50, 60], [70, 80, 90]],[[11, 22, 33], [44, 55, 66], [77, 88, 99]]]).float()# 最大池化polling = nn.MaxPool2d(kernel_size=2, stride=1, padding=0)output = polling(inputs)print("多通道池化:\n", output)if __name__ == '__main__':test02()"""
多通道池化:tensor([[[ 4., 5.],[ 7., 8.]],[[50., 60.],[80., 90.]],[[55., 66.],[88., 99.]]])
"""
总结
- 我们对卷积神经网络中的卷积层和池化层做了演示,并且进行了相关代码的展示。