干货 | 带你理解对比学习损失函数的性质以及温度系数的作用

0569d67cc822880ee2f19a59d57c45d3.png

文 | Feng
源 | 对白的算法屋

很多小伙伴都了解对比学习,但要说温度系数的作用可能就不太清楚了。

卷友们好,我是对白。

对比学习中的温度系数是一个神秘的参数,大部分论文都默认采用小的温度系数来进行自监督对比学习(例如0.07,0.2)。

然而并没有对采用小温度系数的解释,以及温度系数是如何影响学习过程的,即温度系数这个角色的意义。

今天给大家介绍一篇CVPR2021中研究对比损失(Contrastive Loss)温度系数的论文,由我校出品,解释了温度系数的具体作用,还借此探索了对比学习的学习机制,相信大伙看完以后,在内卷的道路上又可以领先别人一步了(真是太卷了QAQ)。

3b24495ebd2305f88bd40b888f71e294.png

首先总结下本文的发现:

  1. 对比损失函数是一个具备困难负样本自发现性质的损失函数,这一性质对于学习高质量的自监督表示是至关重要的,不具备这个性质的损失函数会大大恶化自监督学习的性能。关注困难样本的作用就是:对于那些已经远离的样本,不需要继续让其远离,而主要聚焦在如何使没有远离的那些的样本远离,从而使得到的表示空间更均匀(uniformity)。

  2. 温度系数的作用是调节对困难样本的关注程度:越小的温度系数越关注于将本样本和最相似的其他样本分开)。作者对温度系数进行了深入的分析和实验,并利用温度系数来解释对比学习是如何学到有用表征的。

  3. 对比损失存在一个均匀性-容忍性Dilemma(Uniformity-Tolerance Dilemma)。小温度系数更关注于将与本样本相似的困难样本分开,因此往往可以得到更均匀的表示。然而困难样本往往是与本样本相似程度较高的,例如同一个类别的不同实例,即有很多困难负样本其实是潜在的正样本。过分强迫与困难样本分开会破坏学到的潜在语义结构。

论文对温度系数的作用进行了理论的分析和实验的验证。

一、对比损失更关注困难样本的特性

首先给出自监督学习广泛使用的对比损失(InfoNCE loss)的形式:

9b83e92657ab9cc122f6639cf6490d81.png

其中是温度系数。直观来说,该损失函数要求第i个样本和它的另一个augmentation的副本(即正样本)之间的相似度尽可能大,而与其他的实例(负样本)之间的相似度尽可能小。然而,很多的损失可以达到这个要求,例如下面的最简单的形式:

6df142488f251364701de77b08646478.png

然而实际训练过程,采用作为损失函数效果非常不好,论文给出了使用contrastive loss(Eq1)和简单损失(Eq2)的性能对比,温度系数采用0.07:

be71620f55c894f60b8433d3f090205f.png

上面的结果显示,在所有数据集上Contrastive Loss要远远好于Simple Loss。作者通过探究发现,不同于Simple Loss,Contrastive Loss是一个困难样本自发现的损失函数。我们可以通过公式(2)看到,Simple Loss对所有的负样本相似度给予了相同权重的惩罚(损失函数对所有的负样本相似度的梯度都是相同的)。而Contrastive Loss则更会自动的给距离更近相似度更高的负样本更多的惩罚。这一点可以通过对比损失(Eq1 中)对不同负样本的相似度的惩罚梯度的简单计算来观察:

对正样本的梯度

1e534b376c21918854aac63074f9f205.png

对负样本的梯度

454504d6be257efc76cfb6fc085677f5.png

其中:

068ee1b67529fd864807caf23f63f854.png

对于所有的负样本比较来说,的分母项都是相同的。那么越大,则的分子项越大,梯度项也越大。也就是说,对比损失给予了更相似(困难)的负样本更大的远离该样本的梯度。可以把不同的负样本想像成同极点电荷在不同距离处的受力情况,距离越近的点电荷受到的库伦斥力更大,而距离越远的点电荷受到的斥力越小。对比损失也是这样的。这种性质更有利于形成在超球面均匀分布的特征。

为了验证上面表格中对比损失和简单损失的差距确实是因为对比损失具有困难样本自发现的特性,作者还用了一种显式的困难样本挖掘算法用于简单损失上。即选取最相似的4096个样本作为负样本,并用Eq2的简单损失作为损失函数,采用显式困难样本挖掘算法的简单损失函数效果大大提升,远远超过了温度系数取0.07时的对比损失。结果如下表所示:

13c9c5071affcafd8f1cb895a4cc12ae.png

二、温度系数的作用

除了上面介绍的困难样本自发现的性质之外,观察Eq3和Eq4,我们可以容易地发现,损失函数对正样本的梯度绝对值等于所有对负样本的梯度值绝对值的和,即

fb0328c8672a04083515d50138e61052.png

给予这个观察,作者定义了对第j个负样本的一个相对惩罚强度:

e0f332864293e256d8a32a5c8b8eddcf.png

则对于所有的,上式形成了一个玻尔兹曼概率分布,该分布的熵随着温度系数的增大严格增大。至此作者们发现,温度系数决定了此分布的熵。如果我们将由大到小排序,形成一个顺序统计量,那么熵的大小将决定了分布的陡峭程度,如下图所示,下图是作者演示的负样本惩罚梯度在不同温度系数下与相似度的关系。当温度系数很小时,例如蓝色线0.07,随着的增大将惩罚梯度剧烈的增大。而当温度系数逐渐增大,相对梯度的熵逐渐也增大,概率分布逐渐接近均匀分布,例如途中的绿色线。那么对相似度大的负样本的关注度逐渐减小。

cdd53b72a2b19bb826e3a4cc3bb413d2.png

上面论证了温度系数的作用,即温度系数决定了对比损失对困难负样本的关注程度,越大的温度系数,往往一视同仁,不会太过关注更困难的负样本;而温度系数越小,则越关注与该样本相似度非常大的困难负样本,给予困难负样本更大的梯度与正样本分离。

作者为了更具体的解释温度系数的作用,计算了两种极端情况,即温度系数趋向于0和无穷大。

当温度系数趋向于0时:

b3ae8497866afa522c0679cd8e39df0e.png

可以看出,此时对比损失退化为只关注最困难的负样本的损失函数。而当温度系数趋向于无穷大时:

278f7fe7121c0ac67b54a091829e4451.png

此时对比损失对所有负样本的权重都相同,即对比损失失去了困难样本关注的特性。有趣的是,当温度系数趋向于无穷时,该损失便变成了之前介绍的简单损失。

作者通过上面的两个极限情况也分析出了对比损失随着温度系数的增大而倾向于“一视同仁”,随着温度系数的减少而只关注最困难的负样本,这样的一种调节负样本关注度的作用

三、均匀性-容忍性困境

基于对温度系数作用的探索,作者进而指出了对比学习存在的潜在问题,即均匀性-容忍性的困境

对于温度系数来说,更小的温度系数更加关注困难样本,因此更容易形成均匀的表示空间,均匀的特征对于表示学习是十分重要的,具体可以见ICML2020的论文 Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hypersphere 。但是另一方面,由于无监督学习中没有真正的类别标签,对比学习普遍将除本样本以外的所有其他样本作为负样本。

在这种情况下,与正样本相似度极高的负样本往往很可能是潜在的正样本。例如,与当前的苹果图片相似度最高的图片往往是另一个苹果,此时如果太注重困难负样本则会破坏网络经过一定训练后已经学到的语义信息,这种情况在训练后期尤其明显。随着训练的进行,网络获取到的信息越来越接近真实语义特性,那么此时的负样本更有可能是潜在的正样本,因此一个启示是可以随着迭代的次数增多而增大温度系数,这可能是作者以后的工作。于是作者认为,一个好的温度系数,应该是均匀性和容忍性的折衷。

fd1b10793cacd4afe986ce9c3fe41d8d.png

作者对不同温度系数下的均匀性-容忍性进行了量化并可视化如上图。

四、实验验证

下图是实验对温度系数的验证,红色的box是正样本的相似度,而横坐标往右依次是与相似度最大的10个样本的相似度分布。可以发现,温度系数越小,正样本和最困难的负样本之间的相似度gap越大,这说明了越小的温度系数越倾向于把最困难的负样本分开。该实验支撑了之前的理论分析。

1000c7b70903a5f0396965bdb3c0dddb.png

另一方面,作者也对不同的数据集的最优温度系数进行了验证,下图绿色的柱子为对比损失随着温度系数的性能表现。此外,作者也验证了采取显式困难样本发现的对比损失,采取了显示的困难样本挖掘算法后,性能表现与温度系数的关联弱化,当温度系数高于一个合适的值时,该损失产生的模型性能基本保持稳定。

293d70f41db332ebc4c0d7be1e2e68a8.png

五、总结

在本文中,作者试图了解无监督对比损失的一些具体的性质和行为。作者们首先分析出了对比损失是一种困难样本感知的损失函数。并且验证了困难样本感知的性质是对比损失的不可或缺的性质。不具备这种性质的损失函数,即使负样本非常多,性能还是会退化严重。此外作者们也深入研究了温度系数的作用,发现温度系数控制着对负样本感知程度。并接着提出了Uniformity-Tolerance Dilemma。总体来说,论文揭示了一些对比学习有用的性质和现象,相信本文会启发更多的研究者设计更好的损失以及算法。

08401493555094c8c4a6673cf1f51a84.png后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

b71ca446410c01a997e1a65f92341a6f.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478005.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论文浅尝 | Data Intelligence第4期正式上线啦

本文转载自公众号:数据智能英文刊各位关注DI期刊的专家学者和业界同仁:Data Intelligence第4期正式上线啦!本期共出版2篇研究性论文,5篇数据论文,1篇实践类论文。点击每篇文章标题下方的二维码可直达论文全文页面。敬请…

细说ReactiveCocoa的冷信号与热信号(三):怎么处理冷信号与热信号

第一篇文章中我们介绍了冷信号与热信号的概念,前一篇文章我们也讨论了为什么要区分冷信号与热信号,下面我会先为大家揭晓热信号的本质,再给出冷信号转换成热信号的方法。 揭示热信号的本质 在ReactiveCocoa中,究竟什么才是热信号呢…

LeetCode 1260. 二维网格迁移(二维转一维)

1. 题目 给你一个 n 行 m 列的二维网格 grid 和一个整数 k。你需要将 grid 迁移 k 次。 每次「迁移」操作将会引发下述活动: 位于 grid[i][j] 的元素将会移动到 grid[i][j 1]。 位于 grid[i][m - 1] 的元素将会移动到 grid[i 1][0]。 位于 grid[n - 1][m - 1] …

困惑度、主题一致性,lda模型找出主题相关词

困惑度perplexity:句子的概率的倒数。如果句子的概率越大,说明这句话越符合人话的规律,即p(句子),pp困惑度越小。模型对该句子就越不困惑。 通俗一点解释下就是,困惑度表示的对于一篇文章来说…

patch成为了ALL You Need?挑战ViT、MLP-Mixer的简单模型来了

文 | 机器之心编辑部源 | 机器之心ViT(Vision Transformer)等视觉模型的强大性能,是来自于 Transformer,还是被忽略的 patch?有研究者提出了简单 ConvMixer 模型进行证明,直接将 patch 作为输入&#xff0c…

OpenKG开源系列 | 轻量级知识图谱抽取开源工具OpenUE

OpenKG地址:http://openkg.cn/tool/openueGitHub地址:https://github.com/openkg-org/openueGitee地址:https://gitee.com/openkg/openueOpenUE网站:http://openue.openkg.cn论文地址:https://aclanthology.org/2020.e…

通俗理解kaggle比赛大杀器xgboost

原文链接 通俗理解kaggle比赛大杀器xgboost 说明:若出现部分图片无法正常显示而影响阅读,请以此处的文章为准:xgboost 题库版。 时间:二零一九年三月二十五日。 0 前言 xgboost一直在竞赛江湖里被传为神器,比如时不时某…

LeetCode 690. 员工的重要性(图的DFSBFS)

文章目录1. 题目2. 解题2.1 DFS2.2 BFS1. 题目 给定一个保存员工信息的数据结构,它包含了员工唯一的id,重要度 和 直系下属的id。 比如,员工1是员工2的领导,员工2是员工3的领导。他们相应的重要度为15, 10, 5。那么员工1的数据结…

论文浅尝 | LGESQL: 结合线性有向图以及普通有向图的自然语言转换SQL语句模型...

LGESQL: Line Graph Enhanced Text-to-SQL Model with Mixed Local and Non-Local Relations笔记整理:郭心南来源:ACL2021链接:https://arxiv.org/abs/2106.01093Github地址:https://github.com/rhythmcao/text2sql-lgesql概述本文…

召回粗排精排-级联漏斗(上)

文 | 水哥源 | 知乎saying1. 把点击多的item曝光提升是推荐模型的基本能力,也是基本要求。后验不好的曝光提高也可能是好模型,后验好的曝光不提高,可以开除推荐模型了2. 在起量阶段,各路item需要争宠,谁能最快博取精排…

美团Android资源混淆保护实践

前言 Android应用中的APK安全性一直遭人诟病,市面上充斥着各种被破解或者汉化的应用,破解者可以非常简单的通过破解工具就能对一个APK进行反编译、破解、汉化等等,这样就可以修改原有代码的逻辑、添加新代码、添加或修改资源、或者更有甚者植…

搞不懂,为啥现在什么公司都在考算法???

昨天在知乎上刷到一个热门问题:程序员需要达到什么水平才能顺利拿到 20k 无压力?其中一个最热门的回答是:“其实,无论你是前端还是后端、想进大厂还是拿高薪,算法都一定很重要。”为什么,算法会如此重要?不…

OpenKG开源系列 | 中文高中地理知识图谱CKGG(南京大学)

OpenKG地址:http://openkg.cn/dataset/ckggGitHub地址:https://github.com/nju-websoft/CKGG数据地址:https://doi.org/10.5281/zenodo.4668711论文地址:https://doi.org/10.1007/978-3-030-88361-4_25开放许可协议:CC…

LeetCode 892. 三维形体的表面积(数学)

1. 题目 在 N * N 的网格上,我们放置一些 1 * 1 * 1 的立方体。 每个值 v grid[i][j] 表示 v 个正方体叠放在对应单元格 (i, j) 上。 请你返回最终形体的表面积。 示例 1: 输入:[[2]] 输出:10示例 2: 输入&#x…

淘宝数据,数据处理,时间序列分析,获客分析,购买路径分析

-- 创建数据库 create database taobao; use taobao; desc use_behaviour;-- 创建表格 create table use_behaviour( user_id int(9), item_id int(9), category_id int(9), behaviour_type varchar(5), timestamps int(14));-- 查询已导入多少条 select count(*) from use_…

谁说发 paper 一定要追快打新?2021年,研究 word2vec 也能中顶会!

文 | jxyxiangyu前言“小夕,小夕,你关注的任务sota又被刷新了!”“什么?!”还在跑实验的小夕默默流下了辛酸泪不得不说nlp领域的发展真的太快了,炼丹师们不光要时刻关注前沿热点,还要快速做出实…

论文浅尝 | Multilingual LAMA: 探索多语言预训练语言模型中的知识

笔记整理:谭亦鸣,东南大学博士生来源:EACL‘21链接:https://aclanthology.org/2021.eacl-main.284.pdf概述本文关注将语言模型(LM)视作一个知识库,然后用于解决例如句子填空这样的NLP任务&#…

LeetCode 860. 柠檬水找零(贪心)

1. 题目 在柠檬水摊上,每一杯柠檬水的售价为 5 美元。 顾客排队购买你的产品,(按账单 bills 支付的顺序)一次购买一杯。 每位顾客只买一杯柠檬水,然后向你付 5 美元、10 美元或 20 美元。你必须给每个顾客正确找零&…

召回粗排精排-级联漏斗(下)

文 | 水哥源 | 知乎saying召回区分主路和旁路,主路的作用是个性化向上管理,而旁路的作用是查缺补漏。推荐系统的前几个操作可能就决定了整个系统的走向,在初期一定要三思而后行。做自媒体,打广告,漏斗的入口有多大很重…

学术联赛 | 运用知识图谱技术,赋能多领域应用 ——“未来杯”AI学术联赛总决赛暨颁奖典礼圆满落幕...

本文转载自公众号:AI学习社。由北京大学软件工程国家工程研究中心主办,华为终端有限公司及中软国际教育科技集团全程战略支持,STEER TECH科技平台、北京乐智元素科技有限公司、艾肯文化传媒(北京)有限公司、AI TIME承办…