批量规范化与ResNet——paddle部分
本文部分为paddle框架以及部分理论分析,torch框架对应代码可见批量规范化与ResNet
import paddle
print("paddle version:",paddle.__version__)
paddle version: 2.6.1
批量规范化
批量规范化(Batch Normalization,简称BN)是一种在深度学习中广泛使用的技术,旨在加速深层神经网络的训练过程,同时提高模型的稳定性和泛化能力。其基本原理是在网络训练过程中,对每个小批量(mini-batch)的数据进行标准化处理,使得每一层的输入数据具有固定的均值和方差。这样做可以有效缓解内部协变量偏移问题,即网络层之间输入数据分布的变化,从而帮助网络更容易学习和收敛。
具体来说,批量规范化的过程可以归纳为以下几个步骤:
-
计算均值和方差:在每次训练迭代中,对于当前小批量数据,首先计算其均值和方差。这两个统计量是基于当前小批量中的所有样本计算得到的。
-
标准化处理:接着,利用上一步计算得到的均值和方差,对当前小批量中的每个样本进行标准化处理,即减去均值并除以标准差,使得处理后的数据具有均值为0、方差为1的分布。为了数值稳定性,通常会在分母中加上一个小的常数ε(epsilon)。
-
引入可学习参数:标准化处理后的数据虽然具有固定的均值和方差,但其分布可能与网络的原始输入数据分布相差较大,这可能会限制网络的表示能力。因此,批量规范化还引入了两个可学习的参数:拉伸参数(scale,γ)和偏移参数(shift,β)。这两个参数分别用于对标准化后的数据进行缩放和偏移,以恢复其原始的数据分布特性。
-
训练过程中的调整:在训练过程中,批量规范化层会不断根据反向传播算法更新拉伸参数和偏移参数,同时也会更新网络中的其他参数。同时,为了能够在测试阶段使用批量规范化,通常会维护一组全局的均值和方差,这些全局统计量是在训练过程中通过滑动平均的方式计算得到的。
批量规范化的数学公式可以表示为:
BN ( x i ) = γ ( x i − μ B σ B 2 + ϵ ) + β \text{BN}(x_i) = \gamma \left( \frac{x_i - \mu_\mathcal{B}}{\sqrt{\sigma_\mathcal{B}^2 + \epsilon}} \right) + \beta BN(xi)=γ(σB2+ϵxi−μB)+β
其中, x i x_i xi表示当前小批量中的第 i i i个样本, μ B \mu_\mathcal{B} μB和 σ B 2 \sigma_\mathcal{B}^2 σB2分别表示当前小批量的均值和方差, γ \gamma γ和 β \beta β分别表示拉伸参数和偏移参数, ϵ \epsilon ϵ是一个小的常数用于数值稳定性。
# 让我们测试一下批量规范化层,它对一个mini-batch的输入进行规范化。
# 测试一下
batch_norm = paddle.nn.BatchNorm1D(5) # 创建一个批量规范化层,输入的维度为1维x1 = paddle.randn((3, 5))
y1 = batch_norm(x1) # 对输入进行批量规范化
print(y1) # 输出规范化后的结果
Tensor(shape=[3, 5], dtype=float32, place=Place(gpu:0), stop_gradient=False,[[ 1.37697136, -1.39297330, 1.33283722, 1.21341109, 1.39014637],[-0.96759880, 0.48505354, -0.25698468, -1.22396541, -0.91988957],[-0.40937260, 0.90791976, -1.07585251, 0.01055432, -0.47025684]])
观察数据可以发现,batch_norm(x1)的输出结果中,对于batch中的每个样本,其均值接近于0,方差接近于1,这符合批量规范化的预期效果。读者不妨思考,当batch_size为1时,批量规范化会如何工作?
运行后可以发现程序输入输出相同。这是因为当 batch_size为1时,批量规范化计算均值为每个数本身,方差则为0,因为此时没有足够的样本来计算这些统计量。因此,在训练是批量规范化通常要求batch_size大于1。同时,在测试时,批量规范化会使用训练过程中维护的全局均值和方差,因此不需要担心batch_size的问题。
接下来,我们再测试一下批量规范化层对一个mini-batch的输入进行规范化,其中batch_size为1。
x2 = paddle.randn((1, 5))
batch_norm.eval()
y2 = batch_norm(x2)
print(x2)
print(y2)
Tensor(shape=[1, 5], dtype=float32, place=Place(gpu:0), stop_gradient=True,[[ 0.05095419, 1.10956526, 0.29212147, 0.11223148, -0.45737460]])
Tensor(shape=[1, 5], dtype=float32, place=Place(gpu:0), stop_gradient=False,[[ 0.00438103, 1.10405421, 0.29548159, 0.12629299, -0.51910108]])
数据输出发现x2和y2一样,这是因为batch_norm还未参与训练,其全局均值和方差仍为0,因此测试时batch_norm(x2)的输出与x2相同。
让我们看一下批量规范化层对于图像数据的处理吧。
batch_norm = paddle.nn.BatchNorm2D(3) # 创建一个批量规范化层,输入的样本通道数为3x1 = paddle.randn((3, 3, 1, 2)) # 创建一个随机张量,维度为3x3x1x2
y1 = batch_norm(x1) # 对输入进行批量规范化
print(y1) # 输出规范化后的结果
Tensor(shape=[3, 3, 1, 2], dtype=float32, place=Place(gpu:0), stop_gradient=False,[[[[ 0.64140540, 0.73852235]],[[ 1.54244053, 0.14188576]],[[ 1.26155853, 0.40623882]]],[[[ 0.51346081, -1.84547091]],[[-0.50799036, -1.44020164]],[[-0.45918781, -0.83757848]]],[[[-0.85237151, 0.80445397]],[[-0.65344304, 0.91730863]],[[-1.46263731, 1.09160614]]]])/opt/conda/envs/python35-paddle120-env/lib/python3.10/site-packages/paddle/nn/layer/norm.py:824: UserWarning: When training, we now always track global mean and variance.warnings.warn(
可以发现,批量规范化层对于图像数据的处理与对于一维数据的处理类似,都是对每个通道进行规范化。对这些通道的“每个”输出执行批量规范化,每个通道都有自己的拉伸(scale)和偏移(shift)参数,这两个参数都是标量。 假设我们的小批量包含 m m m个样本,并且对于每个通道,卷积的输出具有高度 h h h和宽度 w w w。 那么对于卷积层,我们在每个输出通道的 m × h × w m \times h \times w m×h×w个元素上同时执行每个批量规范化。 因此,在计算平均值和方差时,我们会收集所有空间位置的值,然后在给定通道内应用相同的均值和方差,以便在每个空间位置对值进行规范化。
ResNet
ResNet(Residual Network)是一种深度卷积神经网络,它通过引入残差连接(Residual Connection)来解决深度神经网络中的梯度消失和梯度爆炸问题。ResNet的核心思想是让网络中的每一层都学习残差映射,而不是直接学习输出。残差映射是指输入与网络输出的差值,而不是直接学习输出。通过这种方式,网络可以更容易地学习到复杂的特征表示。
ResNet的残差连接结构如下所示:
其中, x x x表示输入, f ( x ) − x f(x)-x f(x)−x表示残差映射, f ( x ) f(x) f(x)表示网络的实际输出。通过这种方式,网络可以更容易地学习到复杂的特征表示。
接下来,我们使用CIFAR-10来训练一个ResNet模型,看看模型效果吧!
CIFAR-10数据集是一个广泛使用的图像数据集,由Hinton的学生Alex Krizhevsky和Ilya Sutskever整理,用于识别普适物体的小型数据集。CIFAR-10数据集是从一个叫做“80 million tiny images dataset”(8000万张小图数据集)中精炼剥离出来的一部分,是该数据集的子集。由于原数据集涉及争议内容,目前已被下架。该数据集主要用于机器学习领域的计算机视觉算法基准测试,特别是在图像分类任务中。
- 数据集内容
- 图像数量:CIFAR-10数据集包含60,000张32x32像素的彩色(3通道)图像。
- 类别分布:分为10个类别,每个类别包含6,000张图像。具体类别包括飞机(airplane)、汽车(automobile)、鸟类(bird)、猫(cat)、鹿(deer)、狗(dog)、蛙类(frog)、马(horse)、船(ship)和卡车(truck)。
- 数据划分:数据集被划分为50,000张训练图片和10,000张测试图片。训练图片被进一步分为5个批次(batches),每个批次包含10,000张图片。
CIFAR-10数据集包含的是现实世界中真实的物体,与手写字符数据集(如MNIST)相比,CIFAR-10的噪声更大,物体的比例、特征都不尽相同,这为识别带来很大困难。直接的线性模型(如Softmax)在CIFAR-10上表现得很差,需要更复杂的模型来实现较高的分类准确率。CIFAR-10数据集是一个经典的图像分类数据集,广泛用于计算机视觉领域的研究和教育中。尽管其识别问题在深度学习模型的帮助下已经得到了较好的解决,但它仍然是初学者和研究者了解图像分类问题的一个良好起点。
import paddle
from paddle.vision.transforms import Compose, Resize, ToTensor, Normalize
from paddle.vision.datasets import Cifar10
from paddle.io import DataLoader # 定义数据预处理
transform = Compose([ Resize((224, 224)), ToTensor(), Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
]) # 加载数据集
train_dataset = Cifar10(mode='train', transform=transform)
test_dataset = Cifar10(mode='test', transform=transform) # 创建数据加载器
train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=64)
item 80/41626 [..............................] - ETA: 43s - 1ms/itemCache file /home/aistudio/.cache/paddle/dataset/cifar/cifar-10-python.tar.gz not found, downloading https://dataset.bj.bcebos.com/cifar/cifar-10-python.tar.gz
Begin to downloaditem 41626/41626 [============================>.] - ETA: 0s - 2ms/itemDownload finished
让我们将加载好的数据放入迭代器中,并看看训练集的前几张图片和标签。
# 查看训练集的前几张图片和标签
import math
import numpy as np
import matplotlib.pyplot as plt num_toshow = 10
for images, labels in train_loader:print(labels[0:num_toshow]) # 打印标签# 创建一个新的figure,尺寸为10x5英寸 plt.figure(figsize=(10, 5)) for i in range(num_toshow): # 选择第i张图片 img = images[i] # 将图片数据放缩到[0, 255] data_min, data_max = paddle.min(img), paddle.max(img)img = (img - data_min) / (data_max - data_min)img = img * 255 # 将张量转换为numpy数组,并确保数据类型是uint8 img = img.numpy().astype(np.uint8) # 将图片从CHW格式转换为HWC格式 img = img.transpose((1, 2, 0)) # 在subplot中展示图片 cols = round(math.sqrt(num_toshow))plt.subplot(cols, math.ceil(num_toshow / cols), i + 1) plt.xticks([]) plt.yticks([]) plt.grid(False) plt.imshow(img) plt.xlabel(f'Image {i+1}') # 展示所有subplot plt.show()break
Tensor(shape=[10], dtype=int64, place=Place(gpu:0), stop_gradient=True,[0, 8, 6, 9, 7, 3, 8, 2, 3, 2])
接下来,让我们使用一个ResNet结构的网络模型,并使用CIFAR-10数据集进行训练。我们首先看一下PyTorch自带的resnet18模型。我们可以使用pytorch可视化工具netron查看YOLO网络模型结构。
在命令行执行:
C:\Users\admin>netron
Serving at http://localhost:8080
即可在网页端打开netron
将网络模型保存为.pt,或者将现有的.pt文件导入网页即可。如果没有安装netron,需要先pip一下~:pip install netron
from paddle.vision.models import resnet18
import paddle.nn.functional as F # 导入预训练的ResNet18模型
model = resnet18(pretrained=True) # 设置模型为评估模式
model.eval() # 保存模型
paddle.save(model.state_dict(), 'data/resnet18.pdparams')
100%|██████████| 69183/69183 [00:01<00:00, 57674.41it/s]
对于ResNet结构,读者不妨参考原论文Deep Residual Learning for Image Recognition中的介绍。如下图所示,对于一个没有残差结构的普通卷积神经网络,当网络层数更多时,网络训练和测试反而会变得更差,这是由于梯度消失和梯度爆炸问题导致的。
然而当采用残差结构时,网络训练和测试的效果会随层数增加而提升。如下图所示,下图使用了CIFAR-10数据集进行了验证。
接下来让我们来训练测试一下ResNet18模型。首先我们看一下模型输入输出尺寸是否正确。
out = model(images)
print(out.shape)
[64, 1000]
可以看到,原网络输出类别个数为1000,我们需要对其进行结构修改。
import paddle.nn as nn class ResNet18_CIFAR_10(nn.Layer): def __init__(self, output_size=10): super(ResNet18_CIFAR_10, self).__init__() # 定义ResNet18模型并加载预训练权重 self.resnet18 = resnet18(pretrained=True) # 修改全连接层输出类别个数 num_ftrs = self.resnet18.fc.weight.shape[0] self.resnet18.fc = nn.Linear(num_ftrs, output_size) def forward(self, x): # 前向传播 x = self.resnet18(x) return x
net = ResNet18_CIFAR_10()
out = net(images)
print(out.shape)
[64, 10]
接下来我们进行训练和测试。
from paddle.vision.transforms import Compose, Normalize
import warnings
warnings.filterwarnings('ignore') # 忽略所有警告# 设置设备
device = paddle.set_device('gpu' if paddle.is_compiled_with_cuda() else 'cpu')
net = net.to(device) # 损失函数和优化器
criterion = paddle.nn.CrossEntropyLoss()
optimizer = paddle.optimizer.Adam(parameters=net.parameters(), learning_rate=0.001) num_epochs = 10
for epoch in range(num_epochs): for i, (images, labels) in enumerate(train_loader): images = images.to(device) labels = labels.to(device) outputs = net(images) loss = criterion(outputs, labels) loss.backward() optimizer.step() optimizer.clear_grad() if (i + 1) % 100 == 0: print(f'Epoch [{epoch + 1}/{num_epochs}], Step [{i + 1}/{len(train_loader)}], Loss: {loss.numpy():.4f}')
Epoch [10/10], Step [700/782], Loss: 0.0456
接下来我们在测试集上对模型进行测试。
# 测试模型
net.eval()
total = 0
correct = 0
for imgs, labels in test_loader(): outputs = net(imgs) _, predicted = paddle.topk(outputs, k=1, axis=1) total += labels.shape[0] correct += paddle.sum(paddle.equal(predicted.reshape((1,-1)), labels)).numpy() breakprint('Accuracy: %.2f %%' % (100 * correct / total))
Accuracy: 85.94 %
可以看到模型在测试集上具有较好的准确率。ResNet在工程上主要有以下应用领域:
-
图像分类:
- ResNet在图像分类任务中表现优异,尤其是在大规模数据集(如ImageNet)上取得了卓越的性能。通过在大规模数据集上进行预训练,ResNet可以学习到强大的特征表示,进而在各种图像分类任务中取得良好的结果。
-
目标检测:
- 在目标检测任务中,ResNet常作为骨干网络(backbone network),结合相应的检测框架(如Faster R-CNN、YOLO、SSD等)构建高性能的目标检测系统。这些系统能够准确识别图像中的目标物体,并给出其位置和类别信息。
-
语义分割:
- 语义分割是计算机视觉领域的一个重要任务,旨在将图像中的每个像素划分为相应的类别。ResNet在语义分割任务中也具有广泛应用,通过与全卷积网络(FCN)等结构相结合,实现对图像像素级别的精细分类。
除了计算机视觉领域,ResNet还逐渐渗透到自然语言处理、语音识别等其他领域。例如,在自然语言处理中,ResNet可用于文本分类、情感分析等任务;在语音识别中,ResNet可用于提取音频特征,提高识别率。ResNet作为一种强大的深度学习模型结构,在多个领域取得了显著成果,并展现出广阔的发展前景。未来,随着技术的不断进步和应用场景的不断拓展,ResNet有望在更多领域发挥更大作用,为人类社会的进步贡献更多力量。
,ResNet常作为骨干网络(backbone network),结合相应的检测框架(如Faster R-CNN、YOLO、SSD等)构建高性能的目标检测系统。这些系统能够准确识别图像中的目标物体,并给出其位置和类别信息。
- 语义分割:
- 语义分割是计算机视觉领域的一个重要任务,旨在将图像中的每个像素划分为相应的类别。ResNet在语义分割任务中也具有广泛应用,通过与全卷积网络(FCN)等结构相结合,实现对图像像素级别的精细分类。
除了计算机视觉领域,ResNet还逐渐渗透到自然语言处理、语音识别等其他领域。例如,在自然语言处理中,ResNet可用于文本分类、情感分析等任务;在语音识别中,ResNet可用于提取音频特征,提高识别率。ResNet作为一种强大的深度学习模型结构,在多个领域取得了显著成果,并展现出广阔的发展前景。未来,随着技术的不断进步和应用场景的不断拓展,ResNet有望在更多领域发挥更大作用,为人类社会的进步贡献更多力量。