CVPR(Conference on Computer Vision and Pattern Recognition)是计算机视觉领域最有影响力的会议之一,主要方向包括图像和视频处理、目标检测与识别、三维视觉等。近期,CVPR 2024 公布了最佳论文。共有10篇论文获奖,其中2篇最佳论文,2篇最佳学生论文,2篇最佳论文题目和4篇最佳学生论文提名。本公众号推出CVPR 2024最佳论文专栏,分享这10篇最佳论文。
本推文详细介绍了CVPR 2024最佳论文《Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods》。该论文的第一作者为俄勒冈州立大学博士生江明琪。论文通过将深度解释算法系统地应用于数据集,并比较所生成解释的数量和性质,揭示了不同视觉识别模型决策过程中的差异。本推文由陆新颖撰写,审校为朱旺和李杨。
1.研究背景与解决的关键问题
论文研究了深度学习领域中不同视觉识别模型在决策机制上的差异,特别关注卷积神经网络(Convolutional Neural Networks, CNNs)和Transformer模型在组合性和不连续性方面的表现。传统的CNN模型在处理复杂场景时存在泛化能力不足的问题,而近年来兴起的Transformer模型在整合全局信息和处理长距离依赖关系上展现出优异性能。论文提出了一种新的评估方法,通过最小充分解释(Minimally Sufficient Explanations, MSEs)和子解释计数等技术,深入分析了不同模型在部分证据上的表现和特征使用情况。此外,还通过交叉测试方法评估了不同模型在特征使用上的相似性。研究发现,新模型(如ConvNeXt和Transformer)在处理复杂场景时表现出更好的组合性和泛化能力,而经典CNN模型在部分证据上的表现较差。论文的研究为理解和优化深度学习模型的决策机制提供了新的视角和方法。
2.方法
(1)最小充分解释和结构解释
MSEs和结构解释方法旨在深入理解深度神经网络的决策过程。传统的单一热图无法全面展示网络的决策机制,因此本文提出了一种新的系统性方法。首先,将图像分割成不重叠的小块,并通过波束搜索在低分辨率下组合这些小块,找到能导致高分类置信度的区域组合。接着,通过仅保留部分图像区域,观察分类是否保持不变,从而识别出在决策过程中起关键作用的图像部分。这个方法不仅揭示了网络在做出分类决策时依赖的关键特征,还提供了一种系统化的方式来解释模型的行为。如图1所示,原图是被识别分类在教堂类别中的,通过将图像分割若干小块,并组合不同数目的小块,当一定的组合在分类置信度高于90%时,同时组合中小块数目最少时,判断为MSEs。
图1 最小充分解释(MSE)和子解释的说明
(2)子解释计数
子解释计数方法旨在研究深度网络在部分证据基础上的决策行为。具体做法是,从MSEs中删除部分图块,然后计算这些子集上的预测条件概率与完整图像的置信度比值。通过这种方式,可以评估网络在仅有部分信息时的决策能力,从而了解网络在处理不完整信息时的表现。这种方法有助于揭示模型在面对部分信息时的可靠性和鲁棒性。
(3)设计选择的影响
为了分析不同设计选择对模型解释数量的影响,本文研究了归一化方法和感受野大小的选择。具体来说,训练了使用不同归一化方法(如批归一化、层归一化和组归一化)和不同感受野大小的模型,然后比较这些模型在ImageNet上的性能。结果表明,归一化方法的选择对模型的组合性和不连续性有显著影响,这表明设计选择在深度学习模型的决策机制中起着重要作用。
(4)交叉测试特征
交叉测试方法进一步分析了不同模型在使用视觉特征上的差异。具体步骤包括:首先,使用一个深度模型生成归因图;然后,基于该归因图对第二个深度模型的插入/删除指标进行评估;最后,根据原始图像和完全模糊图像的平均分类置信度进行归一化比较。通过这种方法,可以评估不同模型在特征使用上的相似性和差异性,从而更好地理解不同模型的决策机制。
3.实验结果
论文的实验设置主要使用ImageNet数据集来评估不同视觉识别模型的表现,包括经典CNN模型(如ResNet50和VGG19)、现代数据增强后的CNN模型(如ResNet50-C1、ResNet50-C2和ResNet50-D)、混合模型ConvNeXt-T,以及多种Transformer模型(如Swin-T、Nest-T、DeiT-S和PiT-S),评估指标主要是Top-1和Top-5分类准确率,并通过最小充分解释和子解释计数方法深入分析模型的决策机制,以揭示不同模型在处理全局信息和部分证据时的行为差异,得到了以下的实验结果:
表1 不同模型之间的MSEs数和子解释数
在表格1中,统计了不同模型之间的MSEs数和子解释数。大多数CNN、ConvNeXts和经蒸馏的Transformers具有较高的MSEs数和较小的MSEs大小。相反,Swin Transformers和其他未经蒸馏的Transformers具有较小的MSEs数和较大的MSEs大小。回顾MSEs的定义,更高的数量和较小的大小意味着模型需要更少的补丁组合来形成一个自信的分类。然而,如果某个重要特征不可见,模型可以使用不同的组合,因此它可能对遮挡或缺失的视觉特征具有鲁棒性。
表2 ConvNeXt和Swin-T变体的归一化与感受野实验结果
作者调整了ConvNeXt-T-3和Swin-T-4模型的核尺寸和窗口大小,并尝试了批量归一化和组归一化替代层归一化。结果意外地显示,批量归一化显著减少了子解释的数量,使ConvNeXt和Swin Transformer的表现接近CNN模型的水平。这突显了归一化选择在模型组合性中的关键作用,比感受野大小更为重要。
图2 交叉测试的定性结果
作者还进行了交叉测试研究探索了不同类型的神经网络在分类任务中使用相似特征的情况。使用iGOS++方法生成的归因图热图揭示了不同网络对于相同图像的分类依赖程度。通过Kernel PCA将插入分数投影到二维空间,图2展示了交叉测试的定性结果。
通过分析以上的实验结果可以得到以下结论:
· 经典CNN模型在交叉测试中得分较低,表明它们的特征使用单一,依赖于特定的视觉特征。
· 新模型(如ConvNeXt和Transformer)在交叉测试中得分较高,表明它们使用了更多样化的特征,具有更好的泛化能力。
5. 结论
论文通过实验和分析,探讨了CNNs和Transformer模型在视觉识别任务中的决策机制,发现这些模型在组合性和不连续性特征上存在显著差异。研究表明,经典的CNNs依赖特定图像区域进行分类,泛化能力较差;而新模型如ConvNeXt和Transformer能够更好地整合全局信息,具有更强的泛化能力和鲁棒性。归一化方法的选择对模型决策机制有重要影响,批归一化导致组合性较差,而组归一化和层归一化则提高了组合性。此外,新模型在部分证据上的表现优于经典模型,使用特征更加多样化。这些发现为未来视觉识别模型的设计和优化提供了新的视角和方法。