vit细粒度图像分类(一)CADF学习笔记

1.摘要:

目的 基于Transformer架构的网络在图像分类中表现出优异的性能。然而,注意力机制往往只关注图像中的显著性特征,而忽略了其他区域的次级显著信息,基于自注意力机制的Transformer也是如此。为了获取更多的有效信息,从有区别的潜在性特征中学习到更多的可判别特征,提出了一种互补注意多样性特征融合网络(comple⁃mentary attention diversity feature fusion network,CADF),通过关注次显特征和对通道与空间特征协同编码,以增强特征多样性的注意感知。
方法 CADF 由潜在性特征模块(potential feature module,PFM)和多样性特征融合模块
(diversity feature fusion module,DFFM)组成。PFM模块通过聚合空间与通道中感兴趣区域得到显著性特征,再对特征的显著性进行抑制,以强制网络挖掘潜在性特征,从而增强网络对微小判别特征的感知。DFFM模块探索特征间的相关性,对不同尺寸的特征交互建模,以得到更加丰富的互补信息,从而产生更强的细粒度特征。
结果 本文方法可以端到端地进行训练,不需要边界框和多阶段训练。在 CUB-200-2011(Caltech-UCSDBirds-200-2011)、Stanford Dogs、Stanford Cars以及FGVC-Aircraft (fine-grained visual classification of aircraft) 4个基准数据集上验证所提方法,准确率分别达到了 92. 6%、94. 5%、95. 3% 和 93. 5%。实验结果表明,本文方法的性能优于当前主流方法,并在多个数据集中表现出良好的性能。在消融研究中,验证了模型中各个模块的有效性。结论 本文方法具
有显著性能,通过注意互补有效提升了特征的多样性,以此尽可能地获取丰富的判别特征,使分类的结果更加精准。

2.问题

细粒度目的是对属于同一基础类别的图像进行更加细致的子类划分。例如区分野生鸟类、汽车等。
由于类别之间具有细微的类间差异以及较大的类内差异,难以捕获特定区域的细微差异进行分类。

2.1发现

AlexNet (Krizhevsk等,2012)首次利用卷积神经网络(convolutional neural network,CNN)对图像进行分类,在大规模数据集中取得了当时最好的结果,但是网络提取特征的能力相对较弱。随着深度学习发展,促进了目标检测(Ren等,2017)、场景分割(Long等,2015)和行人识别(郑鑫 等,2020)的研究,但在细粒度分类中的应用依旧难以尽如人意,这是由于网络难以提取判别特征而造成的。此外,基于CNN方法的准确性也遇到了瓶颈。

2.2发展

Transformer (Dosovitskiy等,2021)在分类任务中取得了巨大成功,表明具有先天注意机制的Trans⁃former直接应用于图像块序列就可以捕获图像中的重要区域。且在一系列针对下游任务的扩展工作中证实了其具有强大的捕获全局和局部特征的能力,在多个领域取得了很好的效果,但是其计算消耗过于庞大。
与基于CNN的方法相比,基于Transformer的方法可以编码更长的序列并通过计算不同补丁之间的
相关性来提取全局特征
。但是,应该注意的是,Transformer模块与所有其他注意机制一样,往往只注意目标中最显著的特征,忽略了其他区域的次级显著特征,而这些忽略的信息中也含有重要的可判别特征
在基于CNN的细粒度图像分类方法中,类似的注意力机制(Zhao 等,2021),例如 SE(squeezeand excitation)模 块(Hu 等 ,2018)、CAM(channelattention module)(Park 等,2018)和 CBAM(convolu⁃tional block attention module)(Woo等,2018),都具有相同的问题。为了增强注意力机制的特征表示,以获得更多的特征,MAMC(multi-attention multi-classconstraint)(Sun等,2018)提出了OSME (one squeezemulti-excitation)模块来提取目标中多个注意力区域特征,然后利用度量学习引导注意力学习具有语义信息的特征。但是优化这类度量学习有很大的困难,且涉及样本选择问题。FBSM(feature boosting,suppression, and diversification)(Song和Yang,2021)提升特征图中最显著区域以获得特定部分的表示,并对其抑制以学习其他潜在区域。然而,上述注意力机制是基于CNN的,不能直接应用于基于Trans⁃former 的 网 络 中 。 CAFM(complemental attentionmulti-feature fusion network)(Miao 等,2021)提出补充注意模块以提升网络的判别能力,但是只应用于深层网络,忽略了浅层网络中的潜在性特征,且没有考虑多尺度特征的判别能力

2.3创新

为了在基于 Transformer 的方法中从次显著区域提取更多的判别特征,通过抑制特征显著性的方法来使潜在性特征脱颖而出,同时利用不同层获取的特征图来挖掘判别区域。由于最后一个卷积层倾向于关注整个图像,但不同尺度之间存在高相似性,这导致捕获判别部分的能力降低。较早层的神经元的感受野相对较小,因此这些神经元可以内在地捕获部分区域。
基于这种思想,本文提出了一种互补注意多样性特征融 合 网 络(complementary attention diversity featurefusion network,CADF),在关注潜在性特征的同时,利用不同层感受野的差异来逐步学习多样性特征。在 CADF中,提出了一种潜在性特征模块(potentialfeature module,PFM),对特征的显著性进行抑制,并将显著性抑制后的特征传入网络,以此进一步挖掘特征中的类别信息。由于单独提取的特征难以表示图像的全部信息,为了实现特征多样性,提出了多样性 特 征 融 合 模 块(diversity feature fusion module,DFFM),采用多分支结构提取多个判别特征,并通过聚合其他部分的补充特征以丰富特征间的信息多样性。此外,使用组合损失进行协同优化,实现对网络中各个模块的精准反馈。

3.网络

CADF由潜在性特征模块(PFM)和多样性特征融合模块(DFFM)组成,架构如图1所示。骨干网络为Swin Transformer。首先将潜在性特征模块(PFM)分别插入到不同的stage中,以此尽可能学习到多个有区别的特定部分表示,再将不同阶段的多尺度特征输入到多样性特征融合模块(DFFM),通过对特征进行交互建模以增强每个特征特定表示,最终利用特征融合得到多样性特征。

3.1整体结构

 

3.2 潜在性特征模块(PFM)

输入一幅图像,网络提取图像中最重要的区域而忽略其他次要区域来对其信息进行编码,这对于
细粒度分类来说是次优的
。为了提取更多的可判别特征,提出了潜在性特征模块(PFM),通过抑制最显著的区域来迫使网络挖掘更多的潜在特征。PFM模块如图2(a)所示。

做了两次不同方向的广义池化,相当于做了两次卷积,对输入图像进行特征提取,也即fw和fh分别是通道和空间上的特征表示,之后接入特征抑制模块。观察发现从把输入接了过来,相当于是一种残差处理,然后将输入和特征抑制模块的结果叠加在一起。
没看代码,感觉为了网络能继续下去,这个地方应该是用的add方式,图像输入和特征抑制模块的尺度大小相同,这样的话改动就不大,不过这样看来这个特征抑制模块相当于注意力机制中的特征权重重标定。
而且进一步来说,stag2中含有次显特征,并且由于特征抑制模块的作用,在stag2中次显特征已经被拔高到显著层级上,很难保证会不会对后续提取次显造成困扰,如果是concat叠加应该影响不大,但如果是add加和的话影响就无法避免。

按照作者的思路,应该是在骨干网络的基础上,从每一个stag1横向引出一个PFM,得到结果后再与原来的stag融合,最后接入多样性网络。有点麻烦,但可以实现。

这里面感觉最重要的就是显著性抑制这个框,怎么实现显著性抑制的,是一个已经成熟的模块吗?

假定输入的特征表示为 X ∈ R C × W × H ,其中, C , W和 H 分别表示特征的通道、宽度和高度。首先对输入特征进行映射处理,借助CA(coordinate attention)(Hou等,2021)的思想,对特征分别沿空间两个方向进行聚合特征变换,产生一对方向感知特征图,这样保留了竖直和水平方向的空间信息,且在后续操作中不仅可以捕获跨通道信息,还考虑了方向与位置信息,使模型更准确地定位到并识别目标区域。使 用广义平均池化(generalized average pooling,GeM)
(Radenović等,2019) 进行处理,计算为

将获得的特征进行拼接得到聚合特征。为保证拼接维度对应,先对 f W 进行转置再进行拼接,然后使用卷积和激活函数对聚合后的特征进行处理,并使用批量归一化(batch normalization, BN)加速网络训练,具体为

为了获得潜在性信息,需要对得到的权重特征g h 和 g w 进行显著性抑制,迫使网络能够关注潜在性特征,以不断挖掘特征中的次显信息,提取更多的判别特征,如图2(b)所示。首先使用通道平均池化对特征进行压缩,得到权重参数 M ,再将其映射到与原

 将两次池化的图像特征进一步池化,比较标准的注意力机制结构,通过显著性抑制显著性特征来获取潜在性权重矩阵,通过调整权重的方法降低显著性特征的重要性,提高次显特征的贡献,属于特征提取增强操作。

3.3 多样性特征融合模块(DFFM)

特征多样性在细粒度图像分类中起着至关重要的作用,因此提出了一种多样性特征融合模块(DFFM)来增强特征的丰富性。DFFM由坐标特征交 互 模 块(coordinate feature interaction module,CFIM)和特征融合两个部分组成。CFIM对不同特征间的通道和空间信息进行交互建模以增强特征丰富性,再经过特征融合模块来增强特征特定部分的信息,得到多样性特征。CFIM模块如图3所示。

 广义平均池化可以理解为卷积,用于提取和聚合图像特征,先向量拼接,再向量分割,论文中没有提到这么做的作用,由于输入是两个不同层次的图像特征,个人感觉是想要将两个层次的特征进行交互,类似于ECA注意力机制,或真是ASFF中的不同尺度特征自适应融合。整个坐标特征交互模块的作用就是将输入的三个层次的图像特征进行相互的融合,起到特征融合增强的作用。

3.4 组合损失优化

在训练阶段,使用交叉熵损失函数来计算每个显著性特征 Y i 的分类损失,将特征通过全局平均池
化(global average pooling,GAP)和分类层(classifier)进行变换, f i = Cls i (GAP(Y i )), i = 1,2,3 ,Cls为分类层变换,GAP为全局平均池化。处理后再使用soft⁃max函数计算分类概率,具体为

4.实验

4.1实验设置

4.1.1 数据集

4.1.2 实验细节

本文网络在 NVIDIA 2080Ti GPU 上的 PyTorch中实现。使用在 ImageNet 分类数据集上预训练的
Swin Transformer预训练参数来初始化模型的权重参数。采用Adam W优化器进行优化,动量为0. 9,并使用余弦退火调度器。批量大小设置为6,主干层的学习率设置为0. 000 1,新增层设置为0. 000 01,使用0. 05的权重衰减。训练期间,输入图像的大小调整为550 × 550像素,并随机裁剪为448 × 448像素,且使用随机水平翻转来进行数据增强。在测试时,输入图像的尺寸调整为550 × 550像素,并从中心裁剪为448 × 448像素。设置超参数β = 0. 5, λ = 1。

4.2对比试验

4.3消融实验

5.结论

本文提出了一种互补注意多样性特征融合网络模型,通过将潜在性特征模块插入到Transformer不
同阶段中,可有效挖掘潜在性特征,同时多样性特征交互使得网络能够学习到更丰富的特征。

潜在性特征模块对特征显著性进行抑制,从而迫使网络关注次显信息,以此挖掘更多的可判别特征。
在此基础上,为了增强特征的多样性,提出了多样性特征融合模块。该模块由坐标特征交互模块和特征融合模块组成,其中,坐标特征交互模块对多尺度特征进行交互建模以增强特征丰富性,再经过特征融合模块来增强特征特定部分的信息,实现特征多样性。两个模块相互协同,极大提升了模型精度。
此外,对模型中各个模块进行了消融实验,结果证明了网络中各个模块的有效性。提出的网络可端对端的进行训练,不需要边界框的标注,在 4 个数据集上进行实验,本文方法均达到先进性能。

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/646505.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring基于AbstractRoutingDataSource实现MySQL多数据源

目录 多数据源实现 yml配置文件 配置类 业务代码 案例演示 多数据源实现 yml配置文件 spring:datasource:type: com.alibaba.druid.pool.DruidDataSourcedatasource1:url: jdbc:mysql://127.0.0.1:3306/datasource1?serverTimezoneUTC&useUnicodetrue&characte…

企业转型:虚拟化对云计算的影响

虚拟化被认为是IT行业最优秀的技术之一。虚拟化提供的灵活性和效率,有助于企业根据不断变化的需求扩展其IT基础设施。虚拟化是云基础设施的基础,允许按需动态分配和管理计算资源。这种适应性对于满足现代企业的多样化需求至关重要,因为现代企…

外汇天眼:美国证券交易委员会(SEC)采纳了一系列规定,以加强与特殊目的收购公司(SPACs)相关的投资者保护

美国证券交易委员会(SEC)今天通过了一系列新规和修订,以增强特殊目的收购公司(SPACs)的首次公开募股(IPOs)中的披露,并在SPACs与目标公司之间的后续业务合并交易(de-SPAC…

u盘可以分区吗?怎么分区?分区后不显示出来怎么办

随着科技的不断发展,U盘已经成为人们传输和存储数据的重要设备之一。而针对U盘的分区问题,很多人对此还不太了解。比如,U盘可以分区吗?U盘怎么分区?U盘分区后不显示出来怎么办?下面我们一起来针对这些问题进…

SpringCloud Aliba-Seata【下】-从入门到学废【8】

目录 1.数据库创建 1.seata_account库下建表 2.seata_order库下建表 3.seata_storage库下建表 4.在每个库下创建回滚日志 2.创建订单模块 2.1建工程 2.2加pom 2.3改yml 2.4file.conf 2.5registry.conf 2.6domain 2.7Dao 2.8Service 2.9controller 2.10confi…

对 MODNet 网络结构直接剪枝的探索

文章目录 1 写在前面2 遇到问题3 解决方案4 探索过程4.1 方案一4.2 方案二4.3 方案三 5 疑惑与思考5.1 Q15.2 Q2 1 写在前面 在前面的文章中,笔者与小伙伴们分享了对 MODNet 主干网络部分以及其余分支分别剪枝的探索历程,即先分解、再处理、后融合的手法…

C++:缺省参数函数重载

目录 C/C语言 函数调用的工作原理: 函数调用一般分为两个部分: 缺省参数: 缺省参数的分类: 全缺省参数 半缺省参数 注意事项: 缺省参数与C语言的调用参数对比: 函数重载: 函数重载…

pve8.1 安装、创建centos7虚拟机及配置

之前创建虚拟机centos7时,硬盘分配太大了,做成模板后无法进行修改了,安装完pve8.1后,强迫症犯了重新创建一下顺便记录一下配置过程。由于目前centos7还是生产用的比较多的版本所以本次还是安装centos7.9版本。 一、下载镜像 下载…

利用Redis List实现数据库分页快速查询的有效方法

目录 引言 传统数据库分页查询的挑战 Redis List的优势 利用Redis List实现分页查询 1. 数据准备 2. 分页查询 3. 分页缓存 4. 分页处理 结论 引言 随着Web应用程序的发展和用户数量的增加,数据库分页查询变得越来越常见。分页查询允许用户在大型数据集中…

JVM/GC复习

JVM/GC JVM(java虚拟机)MATjstack(将正在运行的JVM的线程进行快照并且打印出来)死锁VisualVM工具(监控线程内存使用情况)JMX GC垃圾回收算法1.引用计数法2.标记清除发3.标记压缩算法4.复制算法5.分代算法 收集器1.串行垃圾收集器2.并行垃圾收集器2.CMS垃圾收集器 3.G1垃圾收集器…

营销一体化平台如何助力企业增长?3个案例深度解析

无论大家怎么想,反对和批评的声音有多大,还是有很多企业从组织层面为CMO下了很多需要及时转化的KPI要求。 原因无外乎是增长乏力。再加上外部环境处在产业升级换代、科技革命在即的当口,企业比以往任何时候都意识到营销变革的重要性。 然而…

两相步进电机驱动原理

两相步进电机驱动 前言什么是步进电机驱动器细分控制电机内部结构图片步进电机驱动原理(重要)步进电机参数1、步距角:收到一个脉冲转动的角度2、细分数 :1/2&#xff0c…

清华大学对港澳台华侨生新增额外招生项目来啦

导读 众所周知的是,港澳台和华侨生录取清华大学和北京大学,除了港澳台联考,DSE申请等形式之外,那只有和普通内地高中生混在一起的录取方式。但是其实近些年来,清华大学也为尖子生开辟了新的录取方式,我们一…

Qt Quick程序的发布|Qt5中QML和Qt Quick 的更改

# Quick程序的发布旧版做法 # Qt5中QML和Qt Quick 的更改 1.QML语言的更改(Qt4->Qt5) 在QML语言中,只有少量更改会影响QML代码的迁移:无法直接导入单独的文件(例如:import"MyType.qml”),需要导人该文件所在的目录; JavaScript文件中的相对路径被解析…

线性代数:矩阵的定义

目录 一、定义 二、方阵 三、对角阵 四、单位阵 五、数量阵 六、行(列)矩阵 七、同型矩阵 八、矩阵相等 九、零矩阵 十、方阵的行列式 一、定义 二、方阵 三、对角阵 四、单位阵 五、数量阵 六、行(列)矩阵 七、同型矩…

手写一个图形验证码

文章目录 需求分析 需求 使用 JS 写一个验证码&#xff0c;并在前端进行校验 分析 新建文件 VueImageVerify.vue <template><div class"img-verify"><canvas ref"verify" :width"state.width" :height"state.height&qu…

河南嘉家购商贸有限公司获绿色积分信用认证

“实现绿色产业、打造完善的绿色产业链、走可持续发展共创共赢”。近日&#xff0c;河南嘉家购商贸有限公司获得绿色积分认证&#xff0c;确认了该企业在绿色消费积分领域的领先地位。 据了解&#xff0c;河南嘉家购商贸有限公司始终将绿色积分视为企业发展的核心要素。全面优化…

如何实现无公网ip远程访问本地websocket服务端【内网穿透】

文章目录 1. Java 服务端demo环境2. 在pom文件引入第三包封装的netty框架maven坐标3. 创建服务端,以接口模式调用,方便外部调用4. 启动服务,出现以下信息表示启动成功,暴露端口默认99995. 创建隧道映射内网端口6. 查看状态->在线隧道,复制所创建隧道的公网地址加端口号7. 以…

G1与ZGC

G1垃圾收集器(-XX:UseG1GC)详解 G1(Garbage-First)是一款面向服务器的垃圾收集器&#xff0c;主要针对配备多颗处理器及大容量内存的机器。以极高概率满足GC停顿时间要求的同时&#xff0c;还具备高吞吐量性能特性。 G1把内存区域划分为小格子(Region)&#xff0c;最多可以有2…

java常见的面试问题

目录 一、异常 1、 throw 和 throws 的区别&#xff1f; 2、 final、finally、finalize 有什么区别&#xff1f; 3、try-catch-finally 中哪个部分可以省略&#xff1f; 4、try-catch-finally 中&#xff0c;如果 catch 中 return 了&#xff0c;finally 还会执行吗&#…