CVPR 2024最佳论文分享:通过解释方法比较Transformers和CNNs的决策机制

CVPR(Conference on Computer Vision and Pattern Recognition)是计算机视觉领域最有影响力的会议之一,主要方向包括图像和视频处理、目标检测与识别、三维视觉等。近期,CVPR 2024 公布了最佳论文。共有10篇论文获奖,其中2篇最佳论文,2篇最佳学生论文,2篇最佳论文题目和4篇最佳学生论文提名。本公众号推出CVPR 2024最佳论文专栏,分享这10篇最佳论文。

本推文详细介绍了CVPR 2024最佳论文《Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods》。该论文的第一作者为俄勒冈州立大学博士生江明琪。论文通过将深度解释算法系统地应用于数据集,并比较所生成解释的数量和性质,揭示了不同视觉识别模型决策过程中的差异。本推文由陆新颖撰写,审校为朱旺和李杨。

1.研究背景与解决的关键问题

论文研究了深度学习领域中不同视觉识别模型在决策机制上的差异,特别关注卷积神经网络(Convolutional Neural Networks, CNNs)和Transformer模型在组合性和不连续性方面的表现。传统的CNN模型在处理复杂场景时存在泛化能力不足的问题,而近年来兴起的Transformer模型在整合全局信息和处理长距离依赖关系上展现出优异性能。论文提出了一种新的评估方法,通过最小充分解释(Minimally Sufficient Explanations, MSEs)和子解释计数等技术,深入分析了不同模型在部分证据上的表现和特征使用情况。此外,还通过交叉测试方法评估了不同模型在特征使用上的相似性。研究发现,新模型(如ConvNeXt和Transformer)在处理复杂场景时表现出更好的组合性和泛化能力,而经典CNN模型在部分证据上的表现较差。论文的研究为理解和优化深度学习模型的决策机制提供了新的视角和方法。

2.方法

1)最小充分解释和结构解释

MSEs和结构解释方法旨在深入理解深度神经网络的决策过程。传统的单一热图无法全面展示网络的决策机制,因此本文提出了一种新的系统性方法。首先,将图像分割成不重叠的小块,并通过波束搜索在低分辨率下组合这些小块,找到能导致高分类置信度的区域组合。接着,通过仅保留部分图像区域,观察分类是否保持不变,从而识别出在决策过程中起关键作用的图像部分。这个方法不仅揭示了网络在做出分类决策时依赖的关键特征,还提供了一种系统化的方式来解释模型的行为。如图1所示,原图是被识别分类在教堂类别中的,通过将图像分割若干小块,并组合不同数目的小块,当一定的组合在分类置信度高于90%时,同时组合中小块数目最少时,判断为MSEs。

图1 最小充分解释(MSE)和子解释的说明

2)子解释计数

子解释计数方法旨在研究深度网络在部分证据基础上的决策行为。具体做法是,从MSEs中删除部分图块,然后计算这些子集上的预测条件概率与完整图像的置信度比值。通过这种方式,可以评估网络在仅有部分信息时的决策能力,从而了解网络在处理不完整信息时的表现。这种方法有助于揭示模型在面对部分信息时的可靠性和鲁棒性。

3)设计选择的影响

为了分析不同设计选择对模型解释数量的影响,本文研究了归一化方法和感受野大小的选择。具体来说,训练了使用不同归一化方法(如批归一化、层归一化和组归一化)和不同感受野大小的模型,然后比较这些模型在ImageNet上的性能。结果表明,归一化方法的选择对模型的组合性和不连续性有显著影响,这表明设计选择在深度学习模型的决策机制中起着重要作用。

4)交叉测试特征

交叉测试方法进一步分析了不同模型在使用视觉特征上的差异。具体步骤包括:首先,使用一个深度模型生成归因图;然后,基于该归因图对第二个深度模型的插入/删除指标进行评估;最后,根据原始图像和完全模糊图像的平均分类置信度进行归一化比较。通过这种方法,可以评估不同模型在特征使用上的相似性和差异性,从而更好地理解不同模型的决策机制。

3.实验结果

论文的实验设置主要使用ImageNet数据集来评估不同视觉识别模型的表现,包括经典CNN模型(如ResNet50和VGG19)、现代数据增强后的CNN模型(如ResNet50-C1、ResNet50-C2和ResNet50-D)、混合模型ConvNeXt-T,以及多种Transformer模型(如Swin-T、Nest-T、DeiT-S和PiT-S),评估指标主要是Top-1和Top-5分类准确率,并通过最小充分解释和子解释计数方法深入分析模型的决策机制,以揭示不同模型在处理全局信息和部分证据时的行为差异,得到了以下的实验结果:

表1 不同模型之间的MSEs数和子解释数

在表格1中,统计了不同模型之间的MSEs数和子解释数。大多数CNN、ConvNeXts和经蒸馏的Transformers具有较高的MSEs数和较小的MSEs大小。相反,Swin Transformers和其他未经蒸馏的Transformers具有较小的MSEs数和较大的MSEs大小。回顾MSEs的定义,更高的数量和较小的大小意味着模型需要更少的补丁组合来形成一个自信的分类。然而,如果某个重要特征不可见,模型可以使用不同的组合,因此它可能对遮挡或缺失的视觉特征具有鲁棒性。

表2 ConvNeXt和Swin-T变体的归一化与感受野实验结果

作者调整了ConvNeXt-T-3和Swin-T-4模型的核尺寸和窗口大小,并尝试了批量归一化和组归一化替代层归一化。结果意外地显示,批量归一化显著减少了子解释的数量,使ConvNeXt和Swin Transformer的表现接近CNN模型的水平。这突显了归一化选择在模型组合性中的关键作用,比感受野大小更为重要。

图2 交叉测试的定性结果

作者还进行了交叉测试研究探索了不同类型的神经网络在分类任务中使用相似特征的情况。使用iGOS++方法生成的归因图热图揭示了不同网络对于相同图像的分类依赖程度。通过Kernel PCA将插入分数投影到二维空间,图2展示了交叉测试的定性结果。

通过分析以上的实验结果可以得到以下结论:

·  经典CNN模型在交叉测试中得分较低,表明它们的特征使用单一,依赖于特定的视觉特征。

·  新模型(如ConvNeXt和Transformer)在交叉测试中得分较高,表明它们使用了更多样化的特征,具有更好的泛化能力。

5. 结论

论文通过实验和分析,探讨了CNNs和Transformer模型在视觉识别任务中的决策机制,发现这些模型在组合性和不连续性特征上存在显著差异。研究表明,经典的CNNs依赖特定图像区域进行分类,泛化能力较差;而新模型如ConvNeXt和Transformer能够更好地整合全局信息,具有更强的泛化能力和鲁棒性。归一化方法的选择对模型决策机制有重要影响,批归一化导致组合性较差,而组归一化和层归一化则提高了组合性。此外,新模型在部分证据上的表现优于经典模型,使用特征更加多样化。这些发现为未来视觉识别模型的设计和优化提供了新的视角和方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/41824.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算组的妙用!!页面权限控制

需求描述: 某些特殊的场景下,针对某页看板,需要进行数据权限卡控,但是又不能对全部的数据进行RLS处理,这种情况下可以利用计算组来解决这个需求。 实际场景 事实表包含产品维度和销售维度 两个维度属于同一公司下面的…

限幅滤波法

限幅滤波法 限幅滤波法:根据经验判断,确定两次采样允许的最大偏差值(设为A),每次检测到新值时判断:如果本次值与上次值之差<=A,则本次值有效,如果本次值与上次值之差>A,则本次值无效,放弃本次值,用上次值代替本次值。 优点: 能有效克服因偶然因素引起的脉冲…

【Python】已解决:FileNotFoundError: [Errno 2] No such file or directory: ‘./1.xml’

文章目录 一、分析问题背景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项 已解决&#xff1a;FileNotFoundError: [Errno 2] No such file or directory: ‘./1.xml’ 一、分析问题背景 在Python编程中&#xff0c;FileNotFoundError是一个常见的异常&…

ChatGPT对话:Python程序自动模拟操作网页,无法弹出下拉列表框

【编者按】需要编写Python程序自动模拟操作网页。编者有编程经验&#xff0c;但没有前端编程经验&#xff0c;完全不知道如何编写这种程序。通过与ChatGPT讨论&#xff0c;1天完成了任务。因为没有这类程序的编程经验&#xff0c;需要边学习&#xff0c;边编程&#xff0c;遇到…

贝尔曼方程(Bellman Equation)

贝尔曼方程(Bellman Equation) 贝尔曼方程(Bellman Equation)是动态规划和强化学习中的核心概念,用于描述最优决策问题中的价值函数的递归关系。它为状态值函数和动作值函数提供了一个重要的递推公式,帮助我们计算每个状态或状态-动作对的预期回报。 贝尔曼方程的原理 …

Python 自动化测试必会技能板块—unittest框架

说到 Python 的单元测试框架&#xff0c;想必接触过 Python 的朋友脑袋里第一个想到的就是 unittest。 的确&#xff0c;作为 Python 的标准库&#xff0c;它很优秀&#xff0c;并被广泛应用于各个项目。但其实在 Python 众多项目中&#xff0c;主流的单元测试框架远不止这一个…

西门子PLC1200--与电脑S7通讯

硬件构成 PLC为西门子1211DCDCDC 电脑上位机用PYTHON编写 二者通讯用网线&#xff0c;通讯协议用S7 PLC上的数据 PLC上的数据是2个uint&#xff0c;在DB1&#xff0c;地址偏移分别是0和2 需要注意的是DB块要关闭优化的块访问&#xff0c;否则是没有偏移地址的 PLC中的数据内…

elementui中日期/时间的禁用处理,使用传值的方式

项目中,经常会用到 在一个学年或者一个学期或者某一个时间段需要做的某件事情,则我们需要在创建这个事件的时候,需要设置一定的时间周期,那这个时间周期就需要给一定的限制处理,避免用户的误操作,优化用户体验 如下:需求为,在选择学年后,学期的设置需要在学年中,且结束时间大…

Spring Cloud Gateway如何匹配某路径并进行路由转发

本案例&#xff0c;将/helloworld-app/**的请求转发到helloworld微服务的/**路径&#xff08;既如lb://helloworld/**&#xff09; 配置如下&#xff08;见spring.cloud.gateway.routes配置&#xff09;&#xff1a; spring:application:name: SpringCloudGatewayDemocloud:n…

软件架构之计算机组成与体系结构

1.1计算机系统组成 计算机系统是一个硬件和软件的综合体&#xff0c;可以把它看成按功能划分的多级层次结构。 1.1.1 计算机硬件的组成 硬件通常是指一切看得见&#xff0c;摸得到的设备实体。原始的冯•诺依曼&#xff08;VonNeumann&#xff09;计算机在结构上是以运算器为…

2024年中国十大杰出起名大师排行榜,最厉害的易经姓名学改名字专家

在2024年揭晓的中国十大杰出易学泰斗评选中&#xff0c;一系列对姓名学与国学易经有深入研究的专家荣登榜单。其中&#xff0c;中国十大权威姓名学专家泰斗顶级杰出代表人物的师傅颜廷利大师以其在国际舞台上的卓越贡献和深邃学识&#xff0c;被公认为姓名学及易经起名领域的权…

C#程序调用Sql Server存储过程异常处理:调用存储过程后不返回、不抛异常的解决方案

目录 一、代码解析&#xff1a; 二、解决方案 1、增加日志记录 2、异步操作 注意事项 3、增加超时机制 4、使用线程池 5、使用信号量或事件 6、监控数据库连接状态 在C#程序操作Sql Server数据库的实际应用中&#xff0c;若异常就会抛出异常&#xff0c;我们还能找到异…

Leetcode 完美数

1.题目要求: 对于一个 正整数&#xff0c;如果它和除了它自身以外的所有 正因子 之和相等&#xff0c;我们称它为 「完美数」。给定一个 整数 n&#xff0c; 如果是完美数&#xff0c;返回 true&#xff1b;否则返回 false。示例 1&#xff1a;输入&#xff1a;num 28 输出&a…

2024年6月份找工作和面试总结

转眼间6月份已经过完了&#xff0c;2024年已经过了一半&#xff0c;希望大家都找到了合适的工作。 本人前段时间写了5月份找工作的情况&#xff0c;请查看2024年5月份面试总结-CSDN博客 但是后续写的总结被和谐了&#xff0c;不知道这篇文章能不能发出来。 1、6月份面试机会依…

网络爬虫基础

网络爬虫基础 网络爬虫&#xff0c;也被称为网络蜘蛛或爬虫&#xff0c;是一种用于自动浏览互联网并从网页中提取信息的软件程序。它们能够访问网站&#xff0c;解析页面内容&#xff0c;并收集所需数据。Python语言因其简洁的语法和强大的库支持&#xff0c;成为实现网络爬虫…

verilog读写文件注意事项

想要的16进制数是文本格式提供的文件&#xff0c;想将16进制数提取到变量内&#xff0c; 可以使用 f s c a n f ( f d 1 , " 也可以使用 fscanf(fd1,"%h",rd_byte);实现 也可以使用 fscanf(fd1,"也可以使用readmemh(“./FILE/1.txt”,mem);//fe放在mem[0…

运用Redis作为设备注册中心,解决20w+设备高并发读写,高性能读写异步把数据同步到mysql持久化。

使用 Redis 作为设备注册中心&#xff0c;并通过高并发读写将数据异步同步到 MySQL 数据库&#xff0c;可以采用以下策略&#xff1a; 1. **设备注册与发现**&#xff1a; - 使用 Redis 的字符串或哈希表存储设备信息&#xff0c;其中键可以是设备的唯一标识符。 2. **高并…

基于Android Studio零食工坊

目录 项目介绍 图片展示 运行环境 获取方式 项目介绍 用户 可以浏览商品 &#xff0c; 查询商品 &#xff0c; 加入购物车 &#xff0c; 结算商品 &#xff0c; 查看浏览记录 &#xff0c; 修改密码 &#xff0c; 修改个人信息 &#xff0c; 查询订单 管理员 能够实现商品的…

别再写一堆 if 判断了?分享 1 段优质 JS 代码片段!

本内容首发于工粽号&#xff1a;程序员大澈&#xff0c;每日分享一段优质代码片段&#xff0c;欢迎关注和投稿&#xff01; 大家好&#xff0c;我是大澈&#xff01; 本文约 700 字&#xff0c;整篇阅读约需 1 分钟。 今天分享一段优质 JS 代码片段&#xff0c;用条件数组来简…

huggingface笔记:gpt2

0 使用的tips GPT-2是一个具有绝对位置嵌入的模型&#xff0c;因此通常建议在输入的右侧而不是左侧填充GPT-2是通过因果语言建模&#xff08;CLM&#xff09;目标进行训练的&#xff0c;因此在预测序列中的下一个标记方面非常强大 利用这一特性&#xff0c;GPT-2可以生成语法连…