CVPR 2024最佳论文分享:通过解释方法比较Transformers和CNNs的决策机制

CVPR(Conference on Computer Vision and Pattern Recognition)是计算机视觉领域最有影响力的会议之一,主要方向包括图像和视频处理、目标检测与识别、三维视觉等。近期,CVPR 2024 公布了最佳论文。共有10篇论文获奖,其中2篇最佳论文,2篇最佳学生论文,2篇最佳论文题目和4篇最佳学生论文提名。本公众号推出CVPR 2024最佳论文专栏,分享这10篇最佳论文。

本推文详细介绍了CVPR 2024最佳论文《Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods》。该论文的第一作者为俄勒冈州立大学博士生江明琪。论文通过将深度解释算法系统地应用于数据集,并比较所生成解释的数量和性质,揭示了不同视觉识别模型决策过程中的差异。本推文由陆新颖撰写,审校为朱旺和李杨。

1.研究背景与解决的关键问题

论文研究了深度学习领域中不同视觉识别模型在决策机制上的差异,特别关注卷积神经网络(Convolutional Neural Networks, CNNs)和Transformer模型在组合性和不连续性方面的表现。传统的CNN模型在处理复杂场景时存在泛化能力不足的问题,而近年来兴起的Transformer模型在整合全局信息和处理长距离依赖关系上展现出优异性能。论文提出了一种新的评估方法,通过最小充分解释(Minimally Sufficient Explanations, MSEs)和子解释计数等技术,深入分析了不同模型在部分证据上的表现和特征使用情况。此外,还通过交叉测试方法评估了不同模型在特征使用上的相似性。研究发现,新模型(如ConvNeXt和Transformer)在处理复杂场景时表现出更好的组合性和泛化能力,而经典CNN模型在部分证据上的表现较差。论文的研究为理解和优化深度学习模型的决策机制提供了新的视角和方法。

2.方法

1)最小充分解释和结构解释

MSEs和结构解释方法旨在深入理解深度神经网络的决策过程。传统的单一热图无法全面展示网络的决策机制,因此本文提出了一种新的系统性方法。首先,将图像分割成不重叠的小块,并通过波束搜索在低分辨率下组合这些小块,找到能导致高分类置信度的区域组合。接着,通过仅保留部分图像区域,观察分类是否保持不变,从而识别出在决策过程中起关键作用的图像部分。这个方法不仅揭示了网络在做出分类决策时依赖的关键特征,还提供了一种系统化的方式来解释模型的行为。如图1所示,原图是被识别分类在教堂类别中的,通过将图像分割若干小块,并组合不同数目的小块,当一定的组合在分类置信度高于90%时,同时组合中小块数目最少时,判断为MSEs。

图1 最小充分解释(MSE)和子解释的说明

2)子解释计数

子解释计数方法旨在研究深度网络在部分证据基础上的决策行为。具体做法是,从MSEs中删除部分图块,然后计算这些子集上的预测条件概率与完整图像的置信度比值。通过这种方式,可以评估网络在仅有部分信息时的决策能力,从而了解网络在处理不完整信息时的表现。这种方法有助于揭示模型在面对部分信息时的可靠性和鲁棒性。

3)设计选择的影响

为了分析不同设计选择对模型解释数量的影响,本文研究了归一化方法和感受野大小的选择。具体来说,训练了使用不同归一化方法(如批归一化、层归一化和组归一化)和不同感受野大小的模型,然后比较这些模型在ImageNet上的性能。结果表明,归一化方法的选择对模型的组合性和不连续性有显著影响,这表明设计选择在深度学习模型的决策机制中起着重要作用。

4)交叉测试特征

交叉测试方法进一步分析了不同模型在使用视觉特征上的差异。具体步骤包括:首先,使用一个深度模型生成归因图;然后,基于该归因图对第二个深度模型的插入/删除指标进行评估;最后,根据原始图像和完全模糊图像的平均分类置信度进行归一化比较。通过这种方法,可以评估不同模型在特征使用上的相似性和差异性,从而更好地理解不同模型的决策机制。

3.实验结果

论文的实验设置主要使用ImageNet数据集来评估不同视觉识别模型的表现,包括经典CNN模型(如ResNet50和VGG19)、现代数据增强后的CNN模型(如ResNet50-C1、ResNet50-C2和ResNet50-D)、混合模型ConvNeXt-T,以及多种Transformer模型(如Swin-T、Nest-T、DeiT-S和PiT-S),评估指标主要是Top-1和Top-5分类准确率,并通过最小充分解释和子解释计数方法深入分析模型的决策机制,以揭示不同模型在处理全局信息和部分证据时的行为差异,得到了以下的实验结果:

表1 不同模型之间的MSEs数和子解释数

在表格1中,统计了不同模型之间的MSEs数和子解释数。大多数CNN、ConvNeXts和经蒸馏的Transformers具有较高的MSEs数和较小的MSEs大小。相反,Swin Transformers和其他未经蒸馏的Transformers具有较小的MSEs数和较大的MSEs大小。回顾MSEs的定义,更高的数量和较小的大小意味着模型需要更少的补丁组合来形成一个自信的分类。然而,如果某个重要特征不可见,模型可以使用不同的组合,因此它可能对遮挡或缺失的视觉特征具有鲁棒性。

表2 ConvNeXt和Swin-T变体的归一化与感受野实验结果

作者调整了ConvNeXt-T-3和Swin-T-4模型的核尺寸和窗口大小,并尝试了批量归一化和组归一化替代层归一化。结果意外地显示,批量归一化显著减少了子解释的数量,使ConvNeXt和Swin Transformer的表现接近CNN模型的水平。这突显了归一化选择在模型组合性中的关键作用,比感受野大小更为重要。

图2 交叉测试的定性结果

作者还进行了交叉测试研究探索了不同类型的神经网络在分类任务中使用相似特征的情况。使用iGOS++方法生成的归因图热图揭示了不同网络对于相同图像的分类依赖程度。通过Kernel PCA将插入分数投影到二维空间,图2展示了交叉测试的定性结果。

通过分析以上的实验结果可以得到以下结论:

·  经典CNN模型在交叉测试中得分较低,表明它们的特征使用单一,依赖于特定的视觉特征。

·  新模型(如ConvNeXt和Transformer)在交叉测试中得分较高,表明它们使用了更多样化的特征,具有更好的泛化能力。

5. 结论

论文通过实验和分析,探讨了CNNs和Transformer模型在视觉识别任务中的决策机制,发现这些模型在组合性和不连续性特征上存在显著差异。研究表明,经典的CNNs依赖特定图像区域进行分类,泛化能力较差;而新模型如ConvNeXt和Transformer能够更好地整合全局信息,具有更强的泛化能力和鲁棒性。归一化方法的选择对模型决策机制有重要影响,批归一化导致组合性较差,而组归一化和层归一化则提高了组合性。此外,新模型在部分证据上的表现优于经典模型,使用特征更加多样化。这些发现为未来视觉识别模型的设计和优化提供了新的视角和方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/41824.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算组的妙用!!页面权限控制

需求描述: 某些特殊的场景下,针对某页看板,需要进行数据权限卡控,但是又不能对全部的数据进行RLS处理,这种情况下可以利用计算组来解决这个需求。 实际场景 事实表包含产品维度和销售维度 两个维度属于同一公司下面的…

【Python】已解决:FileNotFoundError: [Errno 2] No such file or directory: ‘./1.xml’

文章目录 一、分析问题背景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项 已解决:FileNotFoundError: [Errno 2] No such file or directory: ‘./1.xml’ 一、分析问题背景 在Python编程中,FileNotFoundError是一个常见的异常&…

贝尔曼方程(Bellman Equation)

贝尔曼方程(Bellman Equation) 贝尔曼方程(Bellman Equation)是动态规划和强化学习中的核心概念,用于描述最优决策问题中的价值函数的递归关系。它为状态值函数和动作值函数提供了一个重要的递推公式,帮助我们计算每个状态或状态-动作对的预期回报。 贝尔曼方程的原理 …

Python 自动化测试必会技能板块—unittest框架

说到 Python 的单元测试框架,想必接触过 Python 的朋友脑袋里第一个想到的就是 unittest。 的确,作为 Python 的标准库,它很优秀,并被广泛应用于各个项目。但其实在 Python 众多项目中,主流的单元测试框架远不止这一个…

西门子PLC1200--与电脑S7通讯

硬件构成 PLC为西门子1211DCDCDC 电脑上位机用PYTHON编写 二者通讯用网线,通讯协议用S7 PLC上的数据 PLC上的数据是2个uint,在DB1,地址偏移分别是0和2 需要注意的是DB块要关闭优化的块访问,否则是没有偏移地址的 PLC中的数据内…

elementui中日期/时间的禁用处理,使用传值的方式

项目中,经常会用到 在一个学年或者一个学期或者某一个时间段需要做的某件事情,则我们需要在创建这个事件的时候,需要设置一定的时间周期,那这个时间周期就需要给一定的限制处理,避免用户的误操作,优化用户体验 如下:需求为,在选择学年后,学期的设置需要在学年中,且结束时间大…

软件架构之计算机组成与体系结构

1.1计算机系统组成 计算机系统是一个硬件和软件的综合体,可以把它看成按功能划分的多级层次结构。 1.1.1 计算机硬件的组成 硬件通常是指一切看得见,摸得到的设备实体。原始的冯•诺依曼(VonNeumann)计算机在结构上是以运算器为…

2024年中国十大杰出起名大师排行榜,最厉害的易经姓名学改名字专家

在2024年揭晓的中国十大杰出易学泰斗评选中,一系列对姓名学与国学易经有深入研究的专家荣登榜单。其中,中国十大权威姓名学专家泰斗顶级杰出代表人物的师傅颜廷利大师以其在国际舞台上的卓越贡献和深邃学识,被公认为姓名学及易经起名领域的权…

verilog读写文件注意事项

想要的16进制数是文本格式提供的文件,想将16进制数提取到变量内, 可以使用 f s c a n f ( f d 1 , " 也可以使用 fscanf(fd1,"%h",rd_byte);实现 也可以使用 fscanf(fd1,"也可以使用readmemh(“./FILE/1.txt”,mem);//fe放在mem[0…

基于Android Studio零食工坊

目录 项目介绍 图片展示 运行环境 获取方式 项目介绍 用户 可以浏览商品 , 查询商品 , 加入购物车 , 结算商品 , 查看浏览记录 , 修改密码 , 修改个人信息 , 查询订单 管理员 能够实现商品的…

huggingface笔记:gpt2

0 使用的tips GPT-2是一个具有绝对位置嵌入的模型,因此通常建议在输入的右侧而不是左侧填充GPT-2是通过因果语言建模(CLM)目标进行训练的,因此在预测序列中的下一个标记方面非常强大 利用这一特性,GPT-2可以生成语法连…

Autosar MCAL-S32k324 Crypto配置-RandomNumber生成及使用

文章目录 前言CryptoPrimitivesCryptoPrimitiveAlgorithmFamilyCryptoPrimitiveAlgorithmModeCryptoPrimitiveAlgorithmSecondaryFamilyCryptoPrimitiveServiceCryptoDriverObject代码使用Random Generate执行流程配置job函数使用示例总结前言 之前介绍过AES-CMAC算法的配置,…

Windows 与 Windows Server 2022环境下如何开启远程桌面

文章目录 前言Windows 环境下如何开启远程桌面控制功能Windows Server 环境下如何开启远程桌面 前言 我这边是客户需要搭建一套备份系统,整体的系统流程是这样的:客户的笔记本或者其他PC工具可以自由访问到我司搭建的服务器平台并进行文件传输&#xff…

【C++】开源:地图投影和坐标转换proj库配置使用

😏★,:.☆( ̄▽ ̄)/$:.★ 😏 这篇文章主要介绍地图投影和坐标转换proj库配置使用。 无专精则不能成,无涉猎则不能通。——梁启超 欢迎来到我的博客,一起学习,共同进步。 喜欢的朋友可以关注一下&a…

5款极其强大的大模型文生图工具!

文生图技术是一种基于深度学习的技术,可以根据自然语言描述生成相应的高品质图像。 下面介绍几个目前市场上比较优秀的工具或网站,并制作一张男性的白袍巫师图来比较。 针对大模型和AIGC技术趋势、AIGC 算法项目落地经验分享、新手如何入门算法岗、该如…

el-scrollbar组件使用踩坑记录

一、el-scrollbar和浏览器原生滚动条一起出现 问题描述 el-scrollbar组件主要用于替换浏览器原生导航条。如下图所示,使用el-scrollbar组件后,发现未能成功替换掉浏览器原生导航条,二者同时出现。 引发原因 el-scrollbar的height属性如果…

前端根据目录生成模块化路由routes

根据约定大于配置的逻辑,如果目录结构约定俗成,前端是可以根据目录结构动态生成路由所需要的 route 结构的,这个过程是要在编译时 进行,生成需要的代码,保证运行时的代码正确即可 主流的打包工具都有对应的方法读取文…

【不容错过】可灵AI重磅更新:画质升级,运镜控制,首尾帧自定义,还有30万创作激励奖金!

还记得最近在各大平台肆虐的老照片变成视频吗,就是用快手的可灵AI做的,今天可灵又迎来了一次重大更新。 「电脑端上线了」 之前一直用其他工具生的图片还需要保存到手机上,再用可灵来生成视频,很多人都能感受到手机操作不太方便&…

elasticsearch源码分析-04集群状态发布

集群状态发布 cluster模块封装了在集群层面执行的任务,如集群健康、集群级元信息管理、分片分配给节点、节点管理等。集群任务执行之后可能会产生新的集群状态,如果产生新的集群状态主节点会将集群状态广播给其他节点。 集群状态封装在clusterState中&…

ionic7 使用Capacitor打包 apk 之后,设置网络权限

报错处理 在打包的时候遇到过几个问题,这里记录下来两个 Visual Studio Code运行ionic build出错显示ionic : 无法加载文件 ionic 项目通过 android studio 打开报错 capacitor.settings.gradle 文件不存在 ionic7 项目初始化以及打包 apk 这篇文章讲到了如果安装…