前言
本文不讲述如泛化,前向后向传播,过拟合等基础概念。
本文图片来源于网络,图片所有者可以随时联系笔者删除。
CNN,常用于计算机视觉,是计算机视觉方面常见的基础模型,后面发展的有很多其他变种,也被用于文字处理等非计算机视觉领域。概念是由AI领域著名大佬LeCun等人在上世纪90年代提出。CNN之所以在计算机视觉领域(CNN、)表现出色,是因为它们能够自动并有效地捕捉到图像中的空间层次结构,这一点对于理解像素组成的图像至关重要。通过利用这种层次结构,CNN能够识别和分类从简单到复杂的对象和场景,无论它们的大小、位置或者是姿态如何变化。CNN的变种和改进模型层出不穷:AlexNet、VGG、GoogLeNet到ResNet和DenseNet等等等等。
正文
引-- CNN用于图像领域
- 图像是由像素矩阵构成的,每个像素包含了颜色信息。在处理图像时,我们不仅关心每个像素的值,还关心像素之间的空间关系。这是因为空间上邻近的像素组合在一起,往往构成了图像中可识别的模式和物体边缘。例如,在Fashion-MNIST数据集中,某些像素组合可能形成鞋子的轮廓,而另一些组合可能形成衣服的图案。但是,当我们使用全连接层处理图像时,这种空间上的关系往往被忽略。因为全连接层将图像展平为一维向量,这样做虽然简化了模型的输入处理,但同时也丢失了像素之间的空间信息。
- 此外,全连接网络模型在处理大尺寸图像时面临着巨大的参数数量和相应的计算资源消耗问题。如前所述,对于一个大尺寸的图像,即便是一个简单的全连接层也可能需要上百万到数千万的参数,这不仅导致模型存储开销大,而且容易引发过拟合,限制了模型处理大规模图像数据的能力。
卷积神经网络(CNN)应运而生,旨在解决这些问题:
-
局部感受野:CNN中的卷积层通过覆盖图像的小区域来检测局部特征,如边缘、纹理等。这些局部特征随着网络层的加深,可以组合成更复杂的图案。
-
参数共享:在卷积层中,一个卷积核在整个输入图像上滑动,以检测特定的特征。由于这个卷积核的参数在各个位置共享,它可以极大地减少模型的参数数量。
LeNet by Yann LeCUN
LeNet是由Yann LeCun于1998年提出的,是最早的卷积神经网络之一,主要用于手写数字识别。虽然LeNet相对简单,但它奠定了现代深度学习在图像识别领域应用的基础。
结构
LeNet模型主要包含两部分:卷积层部分和全连接层部分。模型结构大致如下:
- 卷积层1:使用6个卷积核,每个大小为5x5,步幅为1,无填充(valid),产生6个特征图)。
- 平均池化层1(又称为下采样层):对每个特征图使用2x2的池化核,步幅为2,进行下采样。
- 卷积层2:使用16个卷积核,每个大小为5x5,对上一层的特征图进行卷积,产生16个特征图。
- 平均池化层2:同样使用2x2的池化核进行下采样。
- 全连接层1:将前一层的输出展平后,连接到120个神经元上。
- 全连接层2:连接上一层的120个输出到84个神经元上。
- 输出层:最后连接到一个具有10个输出的全连接层,对应于10个类别的手写数字。
示例代码
import torch
import torch.nn as nn
import torch.nn.functional as Fclass LeNet(nn.Module):def __init__(self):super(LeNet, self).__init__()self.conv1 = nn.Conv2d(1, 6, 5) # 输入通道1, 输出通道6, 卷积核大小5x5self.pool = nn.AvgPool2d(2, 2) # 平均池化,池化核大小2x2,步幅2self.conv2 = nn.Conv2d(6, 16, 5)self.fc1 = nn.Linear(16 * 5 * 5, 120) # 5x5是特征图的大小self.fc2 = nn.Linear(120, 84)self.fc3 = nn.Linear(84, 10) # 10个输出对应于10个类别def forward(self, x):x = self.pool(F.relu(self.conv1(x)))x = self.pool(F.relu(self.conv2(x)))x = x.view(-1, 16 * 5 * 5)x = F.relu(self.fc1(x))x = F.relu(self.fc2(x))x = self.fc3(x)return xnet = LeNet()
print(net)
LeNet能够以较少的参数量处理图像数据,从而降低了过拟合的风险并提高了模型的泛化能力。
AlexNet by Alex Krizhevsky
在LeNet提出将近20年后,尽管神经网络在早期的小规模数据集上展示了潜力,但它们在更大的真实世界数据集上的表现并不尽如人意。这一时期,神经网络面临着计算复杂度高、训练困难、缺乏有效的参数初始化和优化算法等多重挑战,导致它们被其他机器学习方法,如支持向量机所超越。
然而,随着数据集的增大和计算能力的提升,尤其是GPU的广泛应用,神经网络开始显示出其真正的潜力。2012年,一个名为AlexNet的深度卷积神经网络模型在ImageNet Large Scale Visual Recognition Challenge(ILSVRC)上取得了突破性的成功,标志着深度学习时代的开始。
AlexNet的成功展示了端到端学习模型的强大能力,即直接从原始像素到最终分类结果。
AlexNet带来了两个影响深远的概念,ReLU激活函数和Dropout。
- sigmoid激活函数输出极接近0或1时,这些区域的梯度几乎为0,从而造成反向传播无法继续更新部分模型参数;而ReLU激活函数在正区间的梯度恒为1。因此若模型参数初始化不当,sigmoid函数可能在正区间得到几乎为0的梯度,从而令模型无法得到有效训练。
- Dropout则是根据预先设置的比例随机丢弃一些参数,来避免过拟合问题,简单有效。
结构
AlexNet主要由以下几个部分组成:
- 5个卷积层,其中一些卷积层后面跟有最大池化层。
- 3个全连接层,最后一个全连接层输出到1000个类的softmax层(ImageNet数据集的类别数)。
- 使用ReLU作为激活函数,提高训练的非线性性和速度。
- 引入Dropout技术,减少全连接层的过拟合问题。
- 使用GPU进行模型训练,显著加快了训练速度。
示例代码
import torch
import torch.nn as nn
import torch.nn.functional as Fclass AlexNet(nn.Module):def __init__(self, num_classes=1000):super(AlexNet, self).__init__()self.conv1 = nn.Conv2d(3, 96, kernel_size=11, stride=4, padding=2)self.conv2 = nn.Conv2d(96, 256, kernel_size=5, padding=2)self.conv3 = nn.Conv2d(256, 384, kernel_size=3, padding=1)self.conv4 = nn.Conv2d(384, 384, kernel_size=3, padding=1)self.conv5 = nn.Conv2d(384, 256, kernel_size=3, padding=1)self.pool = nn.MaxPool2d(kernel_size=3, stride=2)self.fc1 = nn.Linear(256 * 6 * 6, 4096)self.fc2 = nn.Linear(4096, 4096)self.fc3 = nn.Linear(4096, num_classes)self.dropout = nn.Dropout()def forward(self, x):x = self.pool(F.relu(self.conv1(x)))x = self.pool(F.relu(self.conv2(x)))x = F.relu(self.conv3(x))x = F.relu(self.conv4(x))x = self.pool(F.relu(self.conv5(x)))x = x.view(-1, 256 * 6 * 6)x = self.dropout(F.relu(self.fc1(x)))x = self.dropout(F.relu(self.fc2(x)))x = self.fc3(x)return xnet = AlexNet(num_classes=1000)
print(net)