论文解读:FREE LUNCH FOR FEW-SHOT LEARNING: DISTRIBUTION CALIBRATION

文章汇总

问题

学习到的模型很容易因为只有少数训练样本形成的有偏分布而变得过拟合。

动机

我们假设特征表示中的每个维度都遵循高斯分布,因此分布的均值和方差可以借鉴类似类的均值和方差,这些类的统计量可以通过足够数量的样本得到更好的估计。

(方法)别人的总结

详见参考文章中的评论区

首先利用backbone提取训练集所有类(基类)的特征,计算mean和var之后用在测试集(新类)中;利用的是基类中部分图像与新类中的部分图像语义相似时,mean和var也十分相似。然后利用基类的mean和var矫正测试集中support set图像的mean 和var。相当于是扩充了support set的数据量。

(方法)我的总结

首先正常对基类提特征,之后计算每个基类的mean和var;

对应每个新类,作者通过计算每个新类的特征空间与每个基类的特征均值之间的欧几里德距离,从支持集中选择与样本\tilde x的特征距离最近的前k个基类,拿他们的mean和var来标准化测试集中support set的图像。

摘要

从有限数量的样本中学习是具有挑战性的,因为学习到的模型很容易因为只有少数训练样本形成的有偏分布而变得过拟合。在本文中,我们通过从具有足够样本的类中转移统计量来校准这些少数样本类的分布。然后可以从校准分布中抽取足够数量的样本来扩展分类器的输入。我们假设特征表示中的每个维度都遵循高斯分布,因此分布的均值和方差可以借鉴类似类的均值和方差,这些类的统计量可以通过足够数量的样本得到更好的估计。我们的方法可以建立在现成的预训练特征提取器和分类模型之上,而不需要额外的参数。我们表明,使用从校准分布中采样的特征训练的简单逻辑回归分类器可以在三个数据集上优于最先进的精度(与次优相比,miniImageNet提高了5%)。这些生成的特征的可视化表明,我们的校准分布是一个准确的估计。该代码可在https://github.com/ShuoYang-1998/Few_Shot_Distribution_Calibration获得

介绍

由于收集和标注大量数据的成本很高,从有限的训练样本中学习越来越受到关注。研究人员已经开发出算法来提高用很少数据训练的模型的性能。Finn et al (2017);Snell等人(2017)以元学习的方式训练模型,这样模型就可以在只有少量训练样本的情况下快速适应任务。Hariharan & Girshick (2017);Wang等人(2018)尝试通过学习生成模型来综合数据或特征,以缓解数据不足的问题。Ren等人(2018)提出利用未标记数据并预测伪标签来提高少射学习的性能。

虽然大多数先前的工作都集中在开发更强大的模型上,但很少关注数据本身的属性。当数据数量增加时,自然可以更准确地揭示真实分布。经过广泛数据覆盖训练的模型在评估过程中可以很好地泛化。另一方面,当训练一个只有少量训练数据的模型时,通过最小化这些样本上的训练损失,模型倾向于在这些少数样本上过拟合。这些现象如图1所示。这种基于少数例子的偏差分布可能会损害模型的泛化能力,因为它远远不能反映在评估过程中对测试用例进行采样的真实分布

表1:北极狐与不同类别的类平均相似度(“mean sim”)和类方差相似度(“var sim”)。

在这里,我们考虑将这个偏置分布校准为更准确的真实分布近似值。通过这种方式,使用从校准分布中采样的输入训练的模型可以从更精确的分布中推广到更广泛的数据范围,而不仅仅是将自己拟合到那些少数样本中。我们没有校准原始数据空间的分布,而是尝试校准特征空间中的分布,特征空间的维数要低得多,并且更容易校准(Xian et al(2018))。我们假设特征向量的每个维度都服从高斯分布,并观察到相似的类通常具有相似的特征表示的均值和方差,如表1所示。因此,高斯分布的均值和方差可以在相似的类之间传递(Salakhutdinov等人(2012))。同时,当该类有足够的样本时,可以更准确地估计统计量。基于这些观察,我们重用来自超过1-shot类的统计数据,并根据它们的类相似性将它们转移到更好地估计少样本类的分布。根据估计的分布可以生成更多的样本,为训练分类模型提供了足够的监督

在实验中,我们证明了用我们的策略训练的简单逻辑回归分类器可以在三个数据集上达到最先进的精度。我们的分布校准策略可以与任何分类器和特征提取器配对,不需要额外的可学习参数。与仅使用5way1shot任务中给出的少量样本进行训练的基线相比,从校准分布中选择样本进行训练可以获得12%的精度增益。我们还可视化了校准分布,并表明它是可以更好地覆盖测试用例的基本事实的精确近似值。

2相关工作

3 主要方法

在本节中,我们将在3.1节中介绍少样本分类问题的定义,并在3.2节中详细介绍我们提出的方法。

3.1问题定义

3.2分布校准

正如3.1节所介绍的,基类有足够的数据量,而从新类中抽样的评估任务只有有限数量的标记样本。相对于基于少量样本的估计,基类的分布统计量可以得到更精确的估计,这是一个不适定问题。如表1所示,我们观察到,如果我们假设特征分布为高斯分布,则每个类的均值和方差与每个类的语义相似度相关。考虑到这一点,如果我们知道这两个类有多相似,就可以将统计信息从基类转移到新类。在接下来的章节中,我们将讨论如何在基类(3.2.1)的统计数据的帮助下,仅使用少量样本(3.2.2节)来校准类的分布估计。我们还将详细说明如何利用校准分布来提高少射学习的性能(第3.2.3节)。

请注意,我们的分布校准策略是在特征级别之上的,对任何特征提取器都是不可知的。因此,它可以构建在任何预训练的特征提取器之上,而无需进一步进行昂贵的微调。在我们的实验中,我们在之前的工作(Mangla et al .(2020))之后使用了预训练的WideResNet Zagoruyko & Komodakis(2016)。WideResNet被训练来对基类进行分类,以及一个自我监督的借口任务来学习适合图像理解任务的通用表示。关于训练特征提取器的更多细节,请参考他们的论文。

3.2.1基类统计信息

我们假设基类的特征分布是高斯分布。基类i的特征向量的均值被计算为s所有向量中每个维度的均值:

其中x_j是基类i中第j个样本的特征向量,n_i是基类i中样本的总数。由于特征向量x_j是多维的,我们使用协方差来更好地表示特征向量中任意一对元素之间的方差。第i类特征的协方差矩阵\sum_i计算为:

3.2.2校正新类的统计量

在这里,我们考虑一个从新类中抽样的N-way K-shot任务。

Tukey’s Ladder of Powers Transformation

为了使特征分布更接近高斯分布,我们首先使用Tukey's Ladder of Powers变换(Tukey(1977))对目标任务中的支持集和查询集的特征进行变换。Tukey's Ladder of Powers变换是一种幂变换,它可以减少分布的偏度,使分布更像高斯分布。Tukey的权力阶梯变换公式为:

其中λ是调节如何校正分布的超参数。通过设置λ为1,可以恢复原始特征。减小λ使分布减小正偏斜,反之亦然。

通过统计数据转移进行校准

使用第3.2.1节中介绍的基类的统计信息,我们将基类的统计信息转移到新类中,这些统计信息在足够的数据上得到了更准确的估计。迁移基于新类的特征空间与基类的特征均值之间的欧几里德距离,如式1所示。具体来说,我们从支持集中选择与样本\tilde x的特征距离最近的前k个基类:

其中,topk(·)是从输入距离集S_d中选择top元素的运算符。S_N存储相对于特征向量\tilde x最接近的k个基类。然后,通过最近基类的统计量校准分布的均值和协方差:

其中\alpha是一个超参数,它决定了从校准分布中采样的特征的分散程度。

对于超过1-shot的少样本学习,上述的分布校准过程需要进行多次,每次使用一个来自支持集的特征向量。这避免了由一个特定样本提供的偏差,并可能实现更多样化和更准确的分布估计。因此,为简单起见,我们将校准后的分布表示为一组统计量。对于一类y \in C_n,我们将统计量集记为
S_y=\{(u_1^{'},\sum\limits_1'),...,(u_K^{'},\sum\limits_K')\},其中u_i^{'},\sum\limits_i'分别是基于y类支持集中的第i个特征计算的校准均值和协方差。这里,集合的大小是N-way-K-shot任务的K值。

3.2.3如何利用校准后的分布?

使用目标任务中y类的一组校准统计量S_y,我们通过从校准的高斯分布中采样来生成一组标记为y的特征向量:

这里,每个类生成的特征总数被设置为一个超参数,并且它们在S_y中的每个校准分布中均匀分布。然后,生成的特征与原始支持集特征一起作为特定于任务的分类器的训练数据。

我们通过最小化其支持集S的特征和生成的特征D_y上的交叉熵损失来训练任务的分类器:

其中,\gamma^T是任务T的类集合。\tilde S表示由土耳其幂阶变换变换的特征组成的支持集,分类器模型用θ参数化。

4实验

在本节中,我们将回答以下问题:

与最先进的方法相比,我们的分布校准策略如何执行?

校准后的分布是什么样的?它是这门课的准确近似值吗?•

tukey的权力阶梯转换如何与功能代交互?

每一项对性能有多重要?

4.1实验设置

4.4.1数据集

我们在miniImageNet (Ravi & Larochelle(2017))、tieredImageNet (Ren等人(2018))和CUB (Welinder等人(2010))上评估了我们的分布校准策略。miniImageNet和tieredImageNet有一系列的类,包括各种动物和对象,而CUB是一个更细粒度的数据集,包括各种鸟类。具有不同粒度级别的数据集可能具有不同的特征空间分布。我们希望在所有三个数据集上展示我们策略的有效性和通用性。

miniImageNet来源于ILSVRC-12数据集(Russakovsky et al, 2014)。它包含100个不同的类,每个类有600个样本。图像大小为84 × 84 × 3。我们遵循先前作品中使用的拆分(Ravi & Larochelle, 2017),将数据集拆分为64个基本类,16个验证类和20个新类。

tieredImageNet是ILSVRC-12数据集(Russakovsky et al ., 2014)的更大子集,该数据集包含608个从分层类别结构中采样的类。每个类都属于从ImageNet的高级节点中采样的34个高级类别中的一个。每个类的平均图像数为1281。我们分别使用351,97和160个类进行训练、验证和测试。

CUB是一个细粒度的少量分类基准。它包含200种不同种类的鸟类,总共11,788张大小为84 × 84 × 3的图像。根据之前的工作(Chen等人,2019a),我们将数据集分为100个基本类,50个验证类和50个新类。

4.1.2评价指标

我们使用top-1精度作为评估指标来衡量我们的方法的性能。我们报告了miniImageNet, tieredImageNet和CUB的5way1shot和5way5shot设置的准确性。报告的结果是超过10,000个任务的平均分类精度。

4.1.3实现细节

对于特征提取器,我们使用WideResNet (Zagoruyko & Komodakis, 2016)在之前的工作(Mangla et al .(2020))之后进行训练。对于每个数据集,我们使用基类训练特征提取器,并使用新类测试性能。注意,特征表示是从特征提取器的倒数第二层(带有ReLU激活函数)提取的,因此这些值都是非负的,因此公式3中的Tukey 's Ladder of Powers变换的输入是有效的。在分布校准阶段,我们计算基类统计信息,并将其传递给每个数据集来校准新类分布。我们在默认设置下使用scikit-learn的LR和SVM实现(Pedregosa等人(2011))。我们对除α以外的所有数据集使用相同的超参数值。具体来说,是生成的特征的数量是750;K = 2 λ = 0:5。miniImageNet、tieredImageNet和CUB的α值分别为0.21、0.21和0.3。

4.2与最先进的比较

表2: 5way 1shot和5way 5shot在miniImageNet和CUB上的分类准确率(%),置信区间为95%。加粗的数字用最精确的方法有相交的置信区间。

表3:tieredImageNet上5way1shot和5way5shot的分类准确率(%)(Ren et al ., 2018)。加粗的数字用最精确的方法有相交的置信区间。

4.3生成样品的可视化

我们通过可视化从分布中采样的生成特征来显示校准分布的样子。在图2中,我们展示了t-SNE表示(van der Maaten & Hinton(2008))、生成的特征(b,c)以及查询集(d)。在校准分布的基础上,采样的特征形成高斯分布,更多的样本(c)可以更全面地表示分布。由于支持集中的示例数量有限,在本例中只有1个,因此来自查询集的示例通常覆盖更大的区域,并且与支持集不匹配。这种不匹配可以通过生成的特征在一定程度上修复,即(c)中生成的特征可以重叠查询集的区域。因此,使用这些生成的特征进行训练可以缓解仅从少量样本估计的分布与地面真值分布之间的不匹配

图2:分布估计的t-SNE可视化。不同的颜色代表不同的阶级。F表示支持集特征,图(d)中的x表示查询集特征,图(b)和图(c)中的N表示生成特征。

4.4分布校准的适用性

在不同主干网上应用分布校准

我们的分布校准策略对主干/特征提取器是不可知的。表5显示了在不同的特征提取器上应用分布校准时的一致性能提升,即四个卷积层(conv4),六个卷积层(conv6), resnet18, WRN28和WRN28用旋转损失训练。与使用不同基线训练的主干相比,分布校准的精度提高了约10%。

在其他基线上应用分布校准

各种各样的作品都可以从我们的分布校准策略生成的特征训练中受益。我们将分布校准策略应用于两种简单的少镜头分类算法,Baseline (Chen et al ., 2019a)和Baseline++ (Chen et al ., 2019a)。表6显示,我们的分布校准使两者的精度都提高了10%以上。

5结论与未来工作

提出了一种简单有效的少样本分类分布标定策略。没有复杂的生成模型、训练损失和额外的参数来学习,用我们的策略生成的特征训练的简单逻辑回归在miniImageNet上的性能比目前最先进的方法高出约5%。校正后的分布是可视化的,并证明了特征分布的准确估计。未来的工作将探索分布校准在更多问题设置上的适用性,例如多域少镜头分类,以及更多方法,例如基于度量的元学习算法。

参考资料

论文下载(ICLR 2021)

https://openreview.net/pdf?id=JWOiYxMG92s

代码地址

GitHub - ShuoYang-1998/Few_Shot_Distribution_Calibration: [ICLR2021 Oral] Free Lunch for Few-Shot Learning: Distribution Calibration

参考文章

ICLR Oral & T-PAMI 2021 |Free Lunch for Few-shot Learning: Distribution Calibration - 知乎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/820215.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

11.盛最多水的容器(Java,双指针)

目录 题目描述:输入:输出:代码实现: 题目描述: 给定一个长度为 n 的整数数组 height 。有 n 条垂线,第 i 条线的两个端点是 (i, 0) 和 (i, height[i]) 。 找出其中的两条线,使得它们与 x 轴共同…

Vue - 5( 16000 字 Vue2 入门级教程)

一:Vue 初阶 1.1 组件自定义事件 在 Vue 中,组件间通过自定义事件进行通信是一种常见的模式。自定义事件允许子组件向父组件发送消息,也可以在组件内部进行事件的绑定、触发和解绑。让我们详细讲解这些知识点。 1.1.1 组件自定义事件 在 …

季节更迭 关爱不变 | 鲁南制药四季守护您的健康生活

春天,万物复苏的季节,一切都充满了生机和活力。在春日的阳光下,鲜花盛开,绿叶茂盛,鸟儿欢歌,蝴蝶翩翩起舞。我们的身体也需要特别的关爱和养护,保持健康和活力,更好地迎接每一次季节…

知识跟踪模型GraphKT

1 知识跟踪Knowledge Tracing的概念 知识跟踪可以用来解决自适应学习问题。如何通过与教学材料的在线互动来有效地跟踪学生的学习进展?知识跟踪可用于量化学生的知识状态,即对教材所涉及的技能掌握水平。用于评估和模拟学生随着时间推移对技能的认知掌握…

前端CSS讲义1

什么是 CSS? CSS 指层叠样式表 样式定义如何显示 HTML 元素 样式通常存储在样式表中 把样式添加到 HTML 4.0 中,是为了解决内容与表现分离的问题 外部样式表可以极大提高工作效率 外部样式表通常存储在 CSS 文件中 多个样式定义可层叠为一 样式对网页中元素…

AI数字人对话之RealChar框架源码解读

零.功能介绍 与虚拟角色(非形象)进行文本或语音会话 体验地址:RealChar. 代码库:GitHub - Shaunwei/RealChar: 🎙️🤖Create, Customize and Talk to your AI Character/Companion in Realtime (All in One Codebase!). Have a natural seamless conversation with AI…

姿态估计-人脸识别mesh-3d手势识别-3d目标检测-背景分割-人脸关键点

往期热门博客项目回顾:点击前往 计算机视觉项目大集合 改进的yolo目标检测-测距测速 路径规划算法 图像去雨去雾目标检测测距项目 交通标志识别项目 yolo系列-重磅yolov9界面-最新的yolo 姿态识别-3d姿态识别 深度学习小白学习路线 AI健身教练-引体向上…

字节8年经验之谈 —— 聊一聊自动化测试为什么很难落地!

聊一聊自动化测试为什么很难落地 在软件开发和质量保障的领域,测试是确保软件质量的关键环节。自动化测试是一种利用脚本和工具自动执行测试用例的方法,可以提高测试效率、减少人工错误,并支持持续集成和交付。自动化测试作为提高测试效率和…

企业图纸管理软件,企业图纸管理软件有哪些推荐?

企业图纸管理软件是一种专门用于组织、存储、管理和共享企业图纸及相关文档的工具。这类软件可以帮助企业实现图纸的集中化、规范化管理,提高工作效率,降低管理成本。 企业图纸管理软件的核心功能通常包括以下几个方面: 集中化管理&#xff1…

bestvike --bvframe学习

ref title fetch后台api 分页属性,pagination 要差几条?pagelimit 在api中写一个饭方法,vue中用用他 vue.cinfig.js中配置别名 nacos微服务 实体类要继承basedata(封装了公共数据) 控制器autowired,getm…

lua 环境安装

下载地址: https://luabinaries.sourceforge.net/download.html 安装环境变量 检查一下是否安装成功,有版本号,打印一句话,如下表示成功 idea 安装插件,方便编写lua脚本 配置一下idea 运行测试 local function m…

Linux的重要命令(二)+了解Linux目录结构

目录 一.Linux的目录结构 二.查看文件内容命令 1.cat 命令 2.more 命令 3.less 命令 4.head 命令 5.tail 命令 6.拓展 head 和 tail 的其他用法 ​编辑 三.统计文件内容的命令-wc ​编辑 四.检索和过滤文件内容的命令-grep ​编辑 ​编辑 五.压缩命令 gzip 和 bz…

【SpringBoot】返回参数

返回参数 返回页面返回数据返回 html 代码返回 json 数据两数相加用户登录 返回页面 首先在 static 文件夹中创建 index.html 文件&#xff1a; 代码&#xff1a; <html> <body><h1>hello word!!!</h1><p>this is a html page</p> <…

JS-29-Promise对象

一、JavaScript的异步操作 在JavaScript的世界中&#xff0c;所有代码都是单线程执行的。 由于这个“缺陷”&#xff0c;导致JavaScript的所有网络操作&#xff0c;浏览器事件&#xff0c;都必须是异步执行。异步执行可以用回调函数实现&#xff1a; function callback() {c…

temux安装debian自用记录

http://ip:9001/ user/123 http://ip:5705/index admin/drpy 一、安装Ubuntu1804 1&#xff0e;首先安装termux.app 2&#xff0e;启动该app&#xff0c;输入命令 curl -Lo l l.tmoe.me; sh l 3&#xff0e;运行过程中连续选“Y”&…

ip数据报

IP数据报格式详解 在 TCP/IP 协议中&#xff0c;使用 IP 协议传输数据的包被称为 IP 数据包&#xff0c;每个数据包都包含 IP 协议规定的内容。IP 协议规定的这些内容被称为 IP 数据报文&#xff08;IP Datagram&#xff09;或者 IP 数据报。 IP 数据报文由首部&#xff08;称…

Linux学习-数据库

数据库软件: 关系型数据库: Mysql Oracle SqlServer Sqlite 非关系型数据库&#xff1a; Redis NoSQL 1.数组、链表、文件、数据库 数组、链表: 内存存放数据的方式(代码运行结束、关机数据丢失) 文件、…

GitHub repository - Branch - SSH clone URL - Clone in Desktop - Download ZIP

GitHub repository - Branch - SSH clone URL - Clone in Desktop - Download ZIP 1. Branch2. SSH clone URL3. Clone in Desktop4. Download ZIPReferences 1. Branch 显示当前分支的名称。从这里可以切换仓库内分支&#xff0c;查看其他分支的文件。 2. SSH clone U…

每日汇评:黄金会在鲍威尔讲话之前重回 2,400 美元吗?

在避险情绪的影响下&#xff0c;金价在 2400 美元下方巩固反弹&#xff1b; 尽管中东紧张局势有所缓和&#xff0c;美元仍因美国零售销售数据强劲而上涨&#xff1b; 由于有利的四小时技术结构&#xff0c;金价的看涨潜力仍然完好无损&#xff1b; 周二亚洲交易中&#xff0c;金…

智能装箱机:打造高效物流新时代的革命性工具

在快节奏的现代生活中&#xff0c;物流行业的效率与智能化水平直接关系到消费者的购物体验和企业的市场竞争力。装箱机作为物流包装中重要的一个环节&#xff0c;其智能化升级已成为行业发展的必然趋势。星派将与大家探讨装箱机为什么说是智能化装箱解决方案? 一、装箱机的智能…