[2021-CVPR] Fine-grained Angular Contrastive Learning with Coarse Labels 论文简析

[2021-CVPR] Fine-grained Angular Contrastive Learning with Coarse Labels 论文简析

论文地址:https://arxiv.org/abs/2012.03515

代码地址:https://github.com/guybuk/ANCOR

首先通俗地介绍一下细粒度(fine-grained),细粒度分类是指在原来粗分类的基础上再对子类进行更细致的分类。举个例子,图中有一只狗,粗(coarse)分类的分类结果即是一只狗,而细粒度的分类结果则会细致到这只狗是什么品种,是比格,柯利还是哈巴狗。

在这里插入图片描述

本文提出了一个新任务C2FS(Coarse-to-Fine Few-Shot),即由粗粒度转向细粒度的小样本的分类任务,在训练阶段使用粗类样本进行训练,在测试阶段经过细粒度子类小样本数据集的微调之后测试细粒度子类的分类准确度。

并提出了一个针对该任务的网络架构,使用有监督学习对样本进行粗分类,使用自监督对比学习(文中用的是MoCo V2)进行细粒度分类,并针对两种分类训练时损失函数会冲突的问题提出了Angular Normalization模块,将自监督的infoNCE损失转移到角度空间,从而提升两个分类任务之间损失函数的协同性。

整体网络结构如下:

在这里插入图片描述

其中针对粗分类的任务,根据粗类标签进行有监督学习,来将粗类之间分开,损失函数就是我们熟悉的交叉熵。而针对粗类的子类进行细粒度分类时,作者使用了最近大火的自监督对比学习,具体使用的是何恺明团队的MoCo V2,使得属于同一个粗类内的每个不同的实例分开有一定距离,损失函数是最近对比学习最常用的infoNCE,但针对两损失的冲突问题,对infoNCE的输入进行了一些改动。

具体流程是:一张图片(实际上训练是在batch内进行的,这点对于对比学习来说很关键,上图简明起见用一张图片表示)输入进来以后,经过两种不同的数据扩增方法(Aug. 1,2)得到同一张原图的两张图片 xqx_qxqxkx_kxk,然后其中 xqx_qxq 经过backbone B\mathcal{B}B (就是MoCo中的encoder_q)和MLP E\mathcal{E}E 得到 xqx_qxq 的特征表示 qqq ,这个 qqq 会经过一个分类器(全连接+Softmax)得到粗类的预测概率,而粗类分类的训练是有标签的,可以直接做交叉熵损失,这一部分是有监督的粗类分类训练。

再说两种数据扩增得到另一张图片 xkx_kxk ,它会经过动量更新的(详见MoCo)Bk\mathcal{B}_kBkEk\mathcal{E}_kEk ,得到特征表示 k+k_+k+k+k_+k+ 会在对比学习中与 qqq 组成正对(positive pair),而从MoCo维护的队列中拿到的与输入图片属于同一粗类(比如图中的狗类)的不同图片样本 k−k_-k 会和 qqq 组成负对(negative pair),从而根据 qqqk+k_+k+k−k_-k 计算infoNCE损失进行对比学习,来使得同一粗类内的不同样本也有一定的距离,方便后面测试时进行小样本的细粒度分类学习。

至此看起来一切顺其自然,十分合理。但是作者敏锐地发现了一个重要问题:如下图上半部分所示,粗类分类的有监督CE损失会使得同一粗类的每个样本都尽量靠到一起,而对比学习infoNCE损失又会使得粗类中的每个样本有一定的距离,也就是说这两个损失会有冲突存在。

在这里插入图片描述

针对这个问题,作者提出了Angular Normalization(AN)模块,来增强两个损失之间的协同性(synergy)。

首先说明一些符号:输入图片 III ,它的特征表示 qqq ,它所属的粗类 yyy ,分类器 CCC 的参数 WWW 的第 yyyWyW_yWy ,分类器 CCCyyy 类的logit WyqW_yqWyq

这样,要想使CE损失 LCE=(C(q),y)\mathcal{L}_{CE}=(C(q),y)LCE=(C(q),y) 最小,要 WyqW_yqWyq 最大且 Wi≠yqW_{i\neq y}qWi=yq 最小,也就是 qqq (单位向量,embedder E\mathcal{E}E 的最后再经过L2 norm)转到 WyW_yWy 的方向,这对所有的 yyy 类的图片都是相同的,会使他们倒向(collapse to)最接近 WyW_yWy 的单位向量Wy∣∣Wy∣∣\frac{W_y}{||W_y||}WyWy 。但是这种倒向(collapse)与 y 类特定的 InfoNCE 对比损失 Lcont(q,k−,k+)\mathcal{L}_cont(q,k_-,k_+)Lcont(q,k,k+) 存在冲突,后者试图将 yyy 类的样本彼此之间推开。

作者提出的解决方法即是AN,定义 yyy 类的angular normalzation:
A(x,W,y)=∠x=x∣∣x∣∣−Wy∣∣Wy∣∣∣∣x∣∣x∣∣−Wy∣∣Wy∣∣∣∣\mathcal{A}(x,W,y)=\angle x = \frac{\frac{x}{||x||}-\frac{W_y}{||W_y||}}{||\frac{x}{||x||}-\frac{W_y}{||W_y||}||} A(x,W,y)=x=xxWyWyxxWyWy
这就将单位向量 x∣∣x∣∣\frac{x}{||x||}xx 转换为了表示其与 Wy∣∣Wy∣∣\frac{W_y}{||W_y||}WyWy 的角度的单位向量。

根据以上定义,我们将 Lcont\mathcal{L}_{cont}Lcont 中的 q,k−,k+q,k_-,k_+q,k,k+ 分别替换为它们的 yyy 类angular normalization的形式:
∠q=A(q,W,y)\angle{q}=\mathcal{A}(q,W,y) q=A(q,W,y)
∠k−=A(k−,W,y)\angle{k_-}=\mathcal{A}(k_-,W,y) k=A(k,W,y)
∠k+=A(k+,W,y)\angle{k_+}=\mathcal{A}(k_+,W,y) k+=A(k+,W,y)

从而我们损失函数的最终形式就是:
L=LCE(C(y),y)+Lcont(∠q,∠k+,∠k−)\mathcal{L}=\mathcal{L}_{CE}(C(y),y)+\mathcal{L}_{cont}(\angle{q},\angle{k_+},\angle{k_-}) L=LCE(C(y),y)+Lcont(q,k+,k)
如上图下方所示,改进后的AN形式的 Lcont\mathcal{L}_{cont}Lcont 运作在角度空间中围绕着 Wy∣∣Wy∣∣\frac{W_y}{||W_y||}WyWy 的“轨道"(orbit)上。这样就不会干扰到 LCE\mathcal{L}_{CE}LCE 损失使倒向(collapse)Wy∣∣Wy∣∣\frac{W_y}{||W_y||}WyWy,即不会与CE损失产生冲突,从而提升了两损失的协同性。

AN一个额外的好处是它忽视了(在normalize之后)到权重向量的距离,这样可以保护 Lcont\mathcal{L}_{cont}Lcont 不会收到不同子类间“松紧”程度的影响。

实验部分有兴趣可以去查看原文。

作为2021 CVPR的 oral,本文的质量还是很足的,一个颇有意思的新任务C2FS,并结合了一些最新的方法提出了一个比较合理的解决方案,还针对这个框架存在的一个关键问题有一个不错的解决方案。

有理解不对的地方欢迎指正。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/532872.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

orcle mysql 查询_Oracle与Mysql的高级查询与难点sql

一、连接查询 1. 内连接 内连接用于返回满足连接条件的所有记录。默认情况下,在执行连接查询时如果没有指定任何连接操作符,那么这些连接查询都属于内连接。 Sql 代码 1. SELECT a.dname,b.ename from depta,empb where a.deptnob.deptno and a.deptno10…

[2020-AAAI] Revisiting Image Aesthetic Assessment via Self-Supervised Feature Learning 论文简析

[2020-AAAI] Revisiting Image Aesthetic Assessment via Self-Supervised Feature Learning 论文简析 论文链接:https://arxiv.org/abs/1911.11419 本文探索从自监督的角度进行美学评估。基于一个基本的动机:一个好的美学特征表示应该能够辨别出不同的…

java9 堆外内存_java堆外内存泄漏排查

当考虑Java中的内存泄漏时,我们通常会考虑Java堆泄漏,即在堆中分配的对象没有被垃圾收集。这是我在处理一台服务器内存泄漏时的想法,但我即将经历的远超出我的想象。症状:运行Vertx应用程序(没有交换分区)的生产服务器被Linux内存…

[2020-CVPR] Dynamic Region-Aware Convolution 论文简析

[2020-CVPR] Dynamic Region-Aware Convolution 论文简析 论文地址:https://arxiv.org/abs/2003.12243 参考代码地址(非官方):https://github.com/shallowtoil/DRConv-PyTorch 代码笔者自己试了一下,应该是可以的&…

java activity模式_Activity的启动模式

Android系统采用任务栈的方式来管理Activity实例。栈是后进先出的数据结构。通常一个应用程序对应一个任务栈,默认情况下,每启动一个Activity都会入栈,处于栈顶位置。用户操作的永远都是栈顶的Activity。Activity可以层叠摆放,每启…

Python 中的可执行对象 eval,exec 和 compile与其在深度学习训练中的应用实例

Python 中的可执行对象 eval,exec 和 compile 与其在深度学习训练中的应用实例 eval 计算指定表达式的值。也就是说它要执行的python代码只能是单个表达式(注意eval不支持任何形式的赋值操作),而不能是复杂的代码逻辑。 eval(s…

php写简单接口_php写接口的日常

php写接口的日常/*评论列表*/public function commentListW(){$base new Base();$info $base->getUserByToken();$shop_id $info[shop_id];$page $this->data[page]?:1;$pagesize $this->data[pagesize]?:C(ROLLPAGE);$search $this->data[search];$and &…

mmdetection 使用笔记 01: 安装与简单的推理demo

mmdetection 使用笔记 01: 安装与简单的推理demo mmdetection是来自商汤和港中文联合实验室openmmlab推出的目标检测工具包,与其同系列的还有基础视觉包mmcv,图像分类mmclassification,还有mmaction,mmaction2等等。 今天第一次…

php无限评论回复_php实现无限级评论功能_后端开发

php去除数组的键名的方法_后端开发在php中可以使用“array_values()”函数去除数组的键名,该函数返回包含数组中所有的值的数组,其语法是“array_values(array)”,其参数“array”表示规定的数组,返回值是包含数组中所有的值的数组…

错误类型、混淆矩阵及目标检测常用评价指标

目标检测常用评价指标 本文主要参考陈恺大佬在B站商汤账号的介绍mmdetection的视频。 检测结果的正确/错误类型 真阳性(Ture Positive):算法检测到了某类物体(Positive),而实际图中也确实有这个物体&…

php显示json,PHP解决JSON中文显示问题

PHP如何解决JSON中文显示问题&#xff1f;本文主要介绍了PHP JSON格式的中文显示问题解决方法&#xff0c;本文总结了3种解决中文显示\u开头字符问题的方法。希望对大家有所帮助。返回json数据中文显示的问题解决方法一&#xff1a;<?php function Notice(){include ./incl…

使用yolov5训练自己的目标检测数据集

使用yolov5训练自己的目标检测数据集 yolov4出来后不久&#xff0c;又出现了yolov5&#xff0c;没有论文。虽然作者没有放上和yolov4的直接测试对比&#xff0c;但在COCO数据集的测试效果还是很可观的。很多人考虑到YOLOv5的创新性不足&#xff0c;对算法是否能够进化&#xf…

php的integer,PHP整型 integer

整数是一个没有小数的数字。整数规则:整数必须至少有一个数字 (0-9)整数不能包含逗号或空格整数是没有小数点的整数可以是正数或负数整型可以用三种格式来指定&#xff1a;十进制&#xff0c; 十六进制( 以 0x 为前缀)或八进制(前缀为 0)。在以下实例中我们将测试不同的数字。 …

einops和einsum:直接操作张量的利器

einops和einsum&#xff1a;直接操作张量的利器 einops和einsum是Vision Transformer的代码实现里出现的两个操作tensor维度和指定tensor计算的神器&#xff0c;在卷积神经网络里不多见&#xff0c;本文将介绍简单介绍一下这两样工具&#xff0c;方便大家更好地理解Vision Tra…

php的filter input,php中filter_input函数用法分析

本文实例分析了php中filter_input函数用法。分享给大家供大家参考。具体分析如下&#xff1a;在 php5.2 中,内置了filter 模块,用于变量的验证和过滤,过滤变量等操作&#xff0c;这里我们看下如何直接过滤用户输入的内容.fliter 模块对应的 filter_input 函数使用起来非常的简单…

COCO 数据集格式及mmdetection中的转换方法

COCO 数据集格式及mmdetection中的转换方法 COCO格式 CV中的目标检测任务不同于分类&#xff0c;其标签的形式稍为复杂&#xff0c;有几种常用检测数据集格式&#xff0c;本文将简要介绍最为常见的COCO数据集的格式。 完整的官方样例可自行查阅&#xff0c;以下是几项关键的…

php获取h1,jQuery获取h1-h6标题元素值方法实例

本文主要介绍了jQuery实现获取h1-h6标题元素值的方法,涉及$(":header")选择器操作h1-h6元素及事件响应相关技巧,需要的朋友可以参考下&#xff0c;希望能帮助到大家。1、问题背景&#xff1a;查找到h1-h6&#xff0c;并遍历它们&#xff0c;打印出内容2、实现代码&am…

在导入NVIDIA的apex库时报错 ImportError cannot import name ‘UnencryptedCookieSessionFactoryConfig‘ from

在导入NVIDIA的apex库时报错 ImportError: cannot import name ‘UnencryptedCookieSessionFactoryConfig’ from ‘pyramid.session’ (unknown location) 报错 在使用NVIDIA的apex库时报错 ImportError: cannot import name ‘UnencryptedCookieSessionFactoryConfig’ fro…

php怎么取request,PHP-如何在Guzzle中获取Request对象?

我需要使用Guzzle检查数据库中的很多项目.例如,项目数量为2000-5000.将其全部加载到单个数组中太多了,因此我想将其分成多个块&#xff1a;SELECT * FROM items LIMIT100.当最后一个项目发送到Guzzle时,则请求下一个100个项目.在“已满”处理程序中,我应该知道哪个项目得到了响…

[2021-CVPR] Jigsaw Clustering for Unsupervised Visual Representation Learning 论文简析及关键代码简析

[2021-CVPR] Jigsaw Clustering for Unsupervised Visual Representation Learning 论文简析及关键代码简析 论文&#xff1a;https://arxiv.org/abs/2104.00323 代码&#xff1a;https://github.com/dvlab-research/JigsawClustering 总结 本文提出了一种单批次&#xff0…