回顾GoogleNet:传送门
1.1 介绍
InceptionV3是Google开发的一种深度卷积神经网络架构,它是Inception系列网络中的第三代模型,由Christian Szegedy等人在论文《Rethinking the Inception Architecture for Computer Vision》中提出,该论文发表于CVPR 2016。Inception系列网络设计的主要目标是在不显著增加计算复杂度的情况下提高模型的识别精度,尤其是解决深度增加与模型性能之间的平衡问题。
(inceptionV2和V3在同一篇论文中)
主要特点:
-
模块化设计:InceptionV3的核心是其独特的“Inception模块”,这些模块由不同大小的卷积核(如1x1, 3x3, 5x5)以及最大池化操作组成,它们并行工作,然后将输出concatenate(连接)在一起。这种设计允许网络在同一层内捕获不同尺度的特征,提高了模型的表达能力。
-
卷积核分解:为了减少计算成本,InceptionV3引入了卷积核的分解思想,即将大尺寸的卷积核(如5x5)分解为两个连续的小尺寸卷积核(如一个1x5接一个5x1),这样做不仅减少了参数数量,还保持了模型的性能。
-
1x1卷积用于降维:在应用更大尺寸卷积核之前,Inception模块先使用1x1卷积进行降维,这有助于减少计算量而不会过多损失信息,因为1x1卷积可以看作是对输入通道的线性变换。
-
Batch Normalization(批量归一化):InceptionV3在网络中广泛使用了批量归一化技术,它加速了训练过程,提高了模型的稳定性和泛化能力。
-
Label Smoothing:在训练过程中,InceptionV3采用了标签平滑正则化技术,通过给正确标签分配接近但不完全是1的概率,从而减少过拟合,提升模型的泛化性能。
-
优化器选择:相较于早期版本,InceptionV3在训练时可能采用了更先进的优化器,如RMSProp,以替代传统的随机梯度下降(SGD),这有助于更快地收敛和找到更好的局部最小值。
应用领域:
InceptionV3因其高效的特征提取能力,在图像分类、物体检测、图像分割等多个计算机视觉任务中表现优秀。它也被广泛应用于迁移学习,即在预训练的InceptionV3模型基础上,微调特定任务的数据,以利用其学到的通用视觉特征,快速提升新任务的性能。
实现与实践:
该模型可以通过多种深度学习框架(如TensorFlow、PyTorch等)轻松实现,许多框架提供了预训练的InceptionV3模型,这些模型通常在ImageNet数据集上进行了预训练,可以直接用于特征提取或作为其他视觉任务的基础模型。
1.2 改进的Inception模块
nceptionV3中的Inception模块,也称为Inception块或Inception单元,是对原始Inception模块设计的进一步发展和优化。这一模块的设计初衷是为了在保持计算资源高效的同时,增强网络的表达能力,使其能够学习到更多层次的特征。以下是InceptionV3中Inception模块的关键特点:
-
并行多尺度卷积: Inception模块内部包含了多个平行的卷积路径,每个路径使用不同大小的卷积核(如1x1, 3x3, 5x5)。这样的设计允许网络同时从不同尺度上捕捉特征信息,增强了模型对尺度变化的鲁棒性。
-
1x1卷积进行降维: 在应用较大的3x3和5x5卷积之前,Inception模块首先使用1x1卷积核进行降维。这样做的目的是减少后续卷积的计算负担,而不会显著影响模型的表达能力。1x1卷积主要用于空间维度不变但减少通道数的操作。
-
池化操作: 模块中还包括最大池化操作,通常使用的是3x3的最大池化,步长为1,且边缘补零以保持输出尺寸与输入一致。这有助于引入更多的空间不变性特征。
-
深度 wise 和点 wise 分解: 特别地,InceptionV3中广泛采用了1x1卷积进行深度wise操作(减少或维持通道数),随后跟上更大尺寸的卷积核进行空间信息的提取,这是一种有效的参数量减少策略。
-
组合输出: 所有这些并行路径的输出被concatenate(连接)在一起,形成一个具有丰富特征信息的输出,这一输出将作为下一个模块的输入或者在模型末端用于分类。
-
Batch Normalization: InceptionV3中的每一个卷积层后通常都跟着Batch Normalization层,这有助于加速训练过程,减少内部协变量转移,并提高模型的泛化能力。
下图为创新的Inception模块,图左侧将V1中的5x5卷积变为两个3x3卷积(7x7卷积可用3个3x3卷积),图右侧将7x7卷积变为1x3,3x1,1x3,3x1这种不对称的卷积(同理3x3也能用1x3和3x1替代)。
第三个模块是相当于把图右侧的不对称卷积按“宽度”展开(图右侧是按深度展开),这么做是为了增加表示维度。
Module A
将5x5卷积分解为两个3x3卷积的主要目的就是减少参数量。
Module B
不对称卷积,或者叫做空间可分离卷积。
Module C
下采样模块(Grid Size Reduction)
寸),同时尽量减少信息损失和计算成本。这是深度卷积神经网络(CNN)中一个重要的环节,因为在网络的深层,通常需要减小特征图的尺寸以捕获更抽象、更高层次的特征,同时控制模型的复杂性和计算需求。
在InceptionV3中,实现Grid Size Reduction的高效方法涉及到以下几点关键设计:
-
stride卷积和最大池化结合:传统上,减少特征图尺寸常用的方法是最大池化(Max Pooling),但这可能导致信息丢失。InceptionV3采取了一种更为精细的方法,即在某些Inception模块的输出之后,不是单独使用池化层,而是结合stride为2的卷积层和最大池化层的结果。具体来说,它可能会将一个stride为2的卷积层(例如3x3卷积)与最大池化层(如3x3,stride为2)的输出进行concatenate(连接),这样既减少了空间尺寸,又保留了更多的特征信息。
-
使用1x1卷积进行降维:在执行上述操作之前,Inception模块通常会先使用1x1卷积进行通道数的降维,这有助于减少后续卷积操作的计算负担,同时保持模型的表达能力。
-
避免表达瓶颈:在进行Grid Size Reduction时,设计者特别注意避免“表达瓶颈”(representational bottleneck),这意味着即使在减少特征图尺寸时,也要确保有足够的通道数来保持信息的丰富性。因此,可能会在降维后紧接着增加通道数,确保模型的表达能力不受损。
-
平衡计算效率和信息保留:InceptionV3的Grid Size Reduction策略力求在减少计算成本的同时,最大化保留图像中的有用信息。通过上述设计,模型能够在不引入额外计算负担的前提下,有效地下采样特征图,从而促进模型对更复杂特征的学习。
下图左侧图为普通的下采样,右侧为grid size Reduction
1.3 Inception V2模型结构
1.4 Label Smooth
原理:
传统上,分类任务中使用的标签通常是“硬”标签,即对于一个样本,其正确类别的标签为1,而其他所有类别的标签均为0。但在实际应用中,这种绝对确定性的假设并不总是成立,模型可能会过分自信于训练数据中的硬标签,导致对未见数据的泛化能力下降。
Label Smoothing通过将硬标签转换为“软”标签来缓解这一问题。具体操作是,将原本的标签分布稍微平滑化,即将正确标签的概率略微减小(通常减小一个很小的比例,比如0.1),并将这部分概率平均分配给其他类别。这意味着正确标签不再是1,而是比如0.9,而每个错误类别分得一个非常小的概率份额(例如,如果总共有10个类别,每个错误类别得到0.01的概率)。
实现方式:
在PyTorch等深度学习框架中,可以很容易地实现Label Smoothing。通常,这涉及到修改损失函数计算的方式,使其能够接受经过平滑处理的标签。例如,可以使用如下方式实现:
import torch.nn.functional as Fdef cross_entropy_with_label_smoothing(logits, targets, epsilon=0.1, num_classes=10):"""计算带有标签平滑的交叉熵损失:param logits: 模型输出的logits:param targets: 真实标签(通常是硬标签):param epsilon: 平滑因子:param num_classes: 类别总数:return: 标签平滑后的交叉熵损失"""one_hot_targets = F.one_hot(targets, num_classes=num_classes) # 将硬标签转换为one-hot形式one_hot_targets = one_hot_targets.float() * (1 - epsilon) + (epsilon / num_classes) # 应用标签平滑log_probs = F.log_softmax(logits, dim=-1)loss = -(one_hot_targets * log_probs).sum(dim=-1).mean()return loss
效果:
通过引入Label Smoothing,模型在训练时被鼓励学习到更加稳健的决策边界,因为它不再过度依赖于严格正确的标签,而是考虑到了一定程度的不确定性。这有助于提高模型在测试数据上的表现,尤其是在类别边界模糊或者存在噪声的数据集上。InceptionV3等深度学习模型在使用Label Smoothing后,往往能在图像分类等任务上获得更好的泛化性能。