如何判断样本标注的靠谱程度?置信度学习(CL)简述


一只小狐狸带你解锁NLP/DL/ML秘籍

来源:AI科技评论

前言

使用ImageNet、CIFAR、MNIST 或 IMDB 这些数据集时,你是不是会潜意识中假设,这些数据集中的类标签都是正确的?

然而,你可能不知道:ImageNet数据集中至少有十万个标签是存在问题的。

尽管大量的研究都在使用ImageNet,但却没有发现数据集存在如此多的标签错误。原因在于,想从海量数据中寻找并描述标签错误很难;即使有相关的方法,应用范围也极其有限。

如何去识别标签错误,并表征标签噪声,是一项重要的、但却鲜少研究的工作。

在这篇文章中,我将讨论一种新兴的基本框架,它可用于识别标签错误、表征标签噪声,并使用称作置信学习(Confident Learning ,CL)的噪声标签进行学习。

这个框架可以识别 ImageNet 和 CIFAR 中的许多标签问题,并通过在干净的数据集上进行训练来提高标准 ResNet 的性能。

该框架作为 cleanlab Python 包进行了开源,相关链接为(Github 地址为):

https://github.com/cgnorthcutt/cleanlab

与深度学习框架  PyTorch相类似,CLEANLAB 是一种带有误差标签的机器学习和深度学习的框架。更多关于CLEANLAB的信息可在如下CLEANLAB的文档链接中查看:

https://l7.curtisnorthcutt.com/cleanlab-python-package

使用 cleanlab 加上 confidentlearning-reproduce repo 就可以重现 CL 论文中的结果。

https://github.com/cgnorthcutt/confidentlearning-reproduce

图为2012 ILSVRC ImageNet训练集中使用信心学习确定的前32个标签问题。其中红色方框表示标签误差,绿色方框表示本体问题,蓝色方框表示多标签图像。

上图显示了在2012 ILSVRC ImageNet训练集中使用置信学习发现的前32个标签问题。为便于解释,我们将把使用 CL 在 ImageNet 中发现的标签问题分为以下三类:

  • 多标签图像(蓝色):图像中有多个标签;

  • 本体论问题(绿色):包括“是”(比如:将浴缸标记为桶)或 “有”(比如:示波器标记为CRT屏幕)两种关系,在这些情况下,数据集应该包含其中一类;

  • 标签错误(红色):当数据集别的类的标签比给定的类标签更适合于某个示例时,就会显示标签错误

使用置信学习,我们可以在任何适当模型的任何数据集中发现标签错误。以下是常见的数据集中另外三个真实存在的示例:

Amazon Reviews、MNIST和QuickDraw数据集中当前存在的标签错误示例,由面向不同数据形式和模型的置信学习确定。

什么是置信学习?

置信学习(CL)已经成为监督学习和弱监督的一个子领域,可应用于以下几点:

  • 描述噪声标签

  • 寻找标签误差

  • 采用噪声标签学习

  • 寻找本体论问题

CL 基于噪声数据剪枝的原理(与修复标签错误或修改损失函数相反),以计数的方式对噪声进行评估,并对示例进行排序以进行置信训练(而不是通过精确的概率加权)。

在这里,我们在 Angluin 和 Laird 分类噪声的假设基础上,将 CL 泛化到直接估计噪声标签(给定的)和无损标签(未知的)之间的联合分布。

有噪声的(给定的)标签和未损坏的(未知的)标签之间的置信联合分布和估计联合分布的置信学习过程和样本。y~表示观察到的有噪声标签,y*表示潜在的无损标签。

从上图可以看出,CL 需要两个输入:

  • 样本外预测概率(矩阵大小:#类的#样本数)。

  • 噪声标签(矢量长度:样本数量)。

出于弱监督目的,CL包括三个步骤:

1、估计有噪声的(给定的)标签和潜在的(未知)无损标签的联合分布,以充分描述类别条件下的标签噪声。

2、查找并修剪带有标签错误的噪声样本。

3、在去除标签错误的样本后进行训练,根据估计的潜在先验对样本重新加权。

置信学习的好处

与大多数机器学习方法不同,置信学习不需要超参数。我们使用交叉验证来获得样本外的预测概率。置信学习还有很多其他的好处,它有以下几点优势:

  • 可直接估计噪声与真实标签的联合分布

  • 适用于多类别的数据集

  • 查找标签错误(错误按最有可能到最不可能的顺序排列)

  • 无需迭代(在ImageNet中查找训练集的标签错误需要3分钟)

  • 具有理论合理性(在真实条件下可以准确地找到标签错误和一致的联合分布估算)

  • 不需要做随机均匀的标签噪声的假设(在实践中通常不现实)

  • 只需要预测概率和噪声标签(可以使用任何模型)

  • 无需任何真实(保证无损)的标签

  • 可以自然扩展到多标签数据集

  • 可用于描述、查找和学习标签错误,CLEANLAB  Python包是免费且开源的。

置信学习的原则

CL建立在处理噪声标签文献制定的原则之上:

1、通过修剪来搜索错误的标签,例如:遵循Natarajan等(2013);van Rooyen等(2015);帕特里尼等(2017)的工作示例,通过损失重加权来进行软剪枝,以避免迭代重标记的收敛陷阱。相关工作链接依次如下:

https://papers.nips.cc/paper/5073-learning-with-noisy-labels.pdf

https://arxiv.org/abs/1505.07634

https://arxiv.org/abs/1609.03683

2、对干净的数据进行训练统计,避免由于不完全预测概率的情况下重新加权损失(Natarajan et al.,2017)而导致的学习模型权重的错误传播,并泛化到一些开创性的工作上,如Forman (2005, 2008); Lipton et al. (2018)),相关工作链接依次如下:

http://www.jmlr.org/papers/volume18/15-226/15-226.pdf

https://dl.acm.org/citation.cfm?id=1403849

https://arxiv.org/abs/1802.03916

3、根据PageRank(Page et al.,1997)著名的鲁棒性研究成果(http://ilpubs.stanford.edu:8090/422/1/1999-66.pdf)和MentorNet (Jiang et al.,2018)的课程学习理念(https://arxiv.org/abs/1712.05055),对训练期间使用的样本进行排序,以允许使用不规范概率或SVM决策边界距离进行学习。

置信学习中的理论发现

更多关于CL算法、理论和证明的内容,请参阅我们的原论文。在本文中,我主要总结一下论文中的主要观点。

原论文链接:https://arxiv.org/abs/1911.00068

从理论上看,我们给出了CL(定理2:一般的逐例鲁棒性)准确发现标签误差并一致地估计出噪声与真实标签联合分布的现实条件。在我们设定的条件中,允许每个样本和每个类的预测概率存在误差。

置信学习是如何实现的?

为了解CL是如何工作的,让我们假设现在有一个包含狗、狐狸和牛的图像的数据集。CL通过估计噪声标签和真实标签的联合分布(下图右侧的Q矩阵)来进行工作。

左图:置信计数示例。这是一个不正常的联合估计。右图:拥有三类数据集的噪声标签和真实标签的联合分布示例。

我们来继续看这个示例,CL统计了 100 个标记为狗的图像,这些图像很可能属于类别狗,如上图左侧的C矩阵所示;同样的,CL还统计了 56 个很可能属于类别狗但标记为狐狸的图像和 32 幅很可能属于类别狗但标记为牛的图像。

对上述数学原理的过程好奇的人来说,该计数过程可以采取以下形式进行理解:

我们也鼓励通过阅读我们的原论文来理解符号的含义,这里面的中心思想可以理解成:当一个样本的预测概率大于每个类的阈值时,我们有信心将该样本记为实际上属于该阈值的类别。每个类别的阈值是该类中所有样本的平均预测概率。这种阈值形式将PU学习( Elkan & amp; Noto,2008,http://cseweb.ucsd.edu/~elkan/posonly.pdf)中众所周知的鲁棒性结果,泛化到多类别的弱监督。

使用标签噪声的联合分布查找标签问题:

从上图右侧的矩阵中,估计标签问题:

1、将联合分布矩阵乘以样本数。假设我们的数据集中有100个样本。所以,在上图中(右边的Q矩阵)有10个标记为狗但实际上是狐狸的图像。

2、将上述10张实际上很可能属于类别狐狸但标记为狗的图片标记为存在标签错误。

3、对矩阵中所有非对角项重复此操作。

注:这里简化了原论文中使用的方法,但抓住了本质。

置信学习的实践应用

在高噪声标签的情况下,CL相对于其他方法提高了超出10%的学习水平;在高噪声以及高稀疏的情况下,CL相对于其他方法提高了超出30%的学习水平。

上表显示了 CL 与最新的通过噪声标签的多类别学习方法 CIFAR-10 的比较。在高稀疏(见下一段)和 40% 和 70% 的标签噪声下,CL 的表现比谷歌开发的表现最好的 MentorNet,Co-Teaching 和 Facebook 研究团队开发的 Mix-up 方法提高了超过 30% 的学习水平。在信心学习之前,相关的方法对这一基准的改进要小得多(大约只提高了几个百分点)。

稀疏性(矩阵 Q 中零的分数)概括了这样一个概念,即现实世界中如 ImageNet 的数据集中有一些类别不太可能被错误地标记为其他类别,例如 p(老虎,示波器)可以看作矩阵 Q 中的 0。

如上表中突出显示的单元格所示,与 Mixup、MentorNet、SCE-loss 以及 Co-teaching 等最新方法相比,CL 较为显著地增强了对稀疏性的鲁棒性。这种鲁棒性来源于对模型 Q 直接建模,即噪声与真实标签的联合分布。

在使用 CL 清洗过的 ImageNet 上训练数据提高了 ResNet 测试准确度。

上图中,直线上的每个点(从左到右)分别描绘了每种方法在去除20%,40%…,100%估计标签错误后训练的准确性。图中黑色虚线部分描述了使用所有样本训练时的准确性。

使用CL在清洗后的 ImageNet 训练集上训练(不添加合成噪声),当移除小于十万个训练样本时,观察到使用ResNet时验证精度得到提高;当大于十万个训练样本被移除时,观察使用CL清洗后的数据与随机移除样本的结果相比相对有所改善(如图红色虚线所示)。

添加标签噪声的CIFAR数据集中标签噪声的良好表征

上图显示了CIFAR中使用CL估计标签噪声的联合分布,标签噪声增加了40%。观察图(b)中CL估计与图(a)中的真实分布有多接近以及(c)矩阵中每一项绝对差的低误差。这里概率被放大了100倍。


在ImageNet中自动发现本体(类命名)问题

CL 通过直接估计标签噪声的联合分布,自动发现数据集中类的本体问题。在上表中,我们展示了在 ImageNet 单类数据集的估计标签噪声联合分布时的最大偏离对角线。每行列出了噪声标签、真实标签、图像 id、统计数量和联合概率。因为这些是偏离了对角,所以噪声的类别和真实类别应该会是不同的,但实际上是在第 7 行中,我们看到 ImageNet 有两个不同的类,它们都被标记为“maillot”。

我们也观察到误用词语的情况:在第 一行中的标记抛射物和导弹为“是”的关系,即抛射物其实就是导弹,同样的还有第二排中的标记的浴缸即为桶;还观察到由一个词的多个定义引起的问题,比如第九行中的玉米和耳朵。

最后的想法

我们的理论和实验结果强调了置信学习的实用性,例如识别ImageNet和CIFAR中的许多标签问题,并通过在干净的数据集上进行训练来提高标准 ResNet 的性能。

置信学习促使人们认识到需要对数据集标签中的不确定性估计、清理训练集和测试集的方法以及数据集中本体和标签问题的识别方法做进一步的了解。

via https://l7.curtisnorthcutt.com/confident-learning

  • 模型总是发生“灾难性遗忘”?持续学习(continual learning)简述

  • 拒绝随缘炼丹!一文带你详尽了解机器学习系统的可解释性

  • 2019 年,智能问答(Question Answering)的主要研究方向有哪些?

  • 搜索引擎词项词典与倒排索引优化

夕小瑶的卖萌屋

_

关注&星标小夕,带你解锁AI秘籍

内容过于专业,胆小者慎入

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480858.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论文浅尝 | Open world Knowledge Graph Completion

来源:AAAI2018论文链接:https://arxiv.org/pdf/1711.03438.pdf代码链接:https://github.com/bxshi/ConMask本文解决知识库补全的问题,但和传统的 KGC 任务的场景有所不同。以往知识库补全的前提是实体和关系都已经在 KG 中存在&am…

NLP十大研究方向Highlights!

前言 DeepMind 科学家 Sebastian Ruder总结整理了机器学习和自然语言处理领域 10 个影响巨大的有趣研究方向,本文将介绍该10个方向所取得的主要进展,简要说明我认为这个方向重要的原因,最后对未来的工作进行简短的展望。 这 10 个方向分别是…

图解Transformer

原文标题:The Illustrated Transformer 原文链接:https://jalammar.github.io/illustrated-transformer/ 论文地址:https://arxiv.org/abs/1706.03762 前言 Transformer在Goole的一篇论文Attention is All You Need被提出,为了方…

知识工场 | 让机器认知中文实体 —复旦大学知识工场发布中文实体识别与链接服务

本文转载自公众号:知识工场。一、什么是实体识别与链接近年来,如何通过知识图谱让机器实现自然语言理解受到越来越多的关注。其中,识别文本中的实体,并将它们链接到知识库中,是让机器理解自然语言的第一步,…

mikechen谈技术人成长的三大原则

“ 我自己是工程师出身,一路就像游戏打怪一样,不断去突破自己的职能舒适区,技术这条路我用了整整10年去把它全部打通,这些经验看似平淡,作为一个过来人,在你每一次新的选择的时候,你就会发现它…

最新进展 | 深度学习在天气预测中的应用

谷歌研究员提出使用机器学习方法预测未来短时间内的天气。此方法虽然处于早期发展阶段,但效果已经优于传统模型。 前言 天气总是会或轻或重地影响人们的日常生活,而天气预报的准确性会极大影响人们应对天气的方式。天气预报可以告知人们是否应当选取一条…

快速上手笔记,PyTorch模型训练实用教程(附代码)

前言自 2017 年 1 月 PyTorch 推出以来,其热度持续上升,一度有赶超 TensorFlow 的趋势。PyTorch 能在短时间内被众多研究人员和工程师接受并推崇是因为其有着诸多优点,如采用 Python 语言、动态图机制、网络构建灵活以及拥有强大的社群等。因…

领域应用 | 中医临床术语系统V2.0在线发布啦!

本文转载自公众号:中医药知识组织与标准。中医临床术语系统V2.0在线发布中医临床术语系统(Traditional Chinese Medicine Clinical Terminological Systems, TCMCTS)是由中国中医科学院中医药信息研究所研制的,用来描述健康状况和…

NLP Subword三大算法原理:BPE、WordPiece、ULM

Subword算法如今已经成为了一个重要的NLP模型性能提升方法。自从2018年BERT横空出世横扫NLP界各大排行榜之后,各路预训练语言模型如同雨后春笋般涌现,其中Subword算法在其中已经成为标配。且与传统空格分隔tokenization技术的对比有很大的优势~~ E.g. 模…

【小程序】微信小程序开发实践

版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 https://blog.csdn.net/diandianxiyu/article/details/53068012 </div><link rel"stylesheet" href"https://csdnimg.cn/release/phoenix/template/css/ck…

技术人如何提升自己的核心竞争力

互联网行业是一个发展非常快&#xff0c;变化也快的行业&#xff0c;在这个行业&#xff0c;总是让人感觉既兴奋又不安。 兴奋的是你总能看到无数新奇的事物&#xff0c;甚至亲身参与到一场变革中去&#xff0c;而不安的则是&#xff0c;任凭你如何NB&#xff0c;你也无法保证哪…

AAAI 2018经典论文获奖者演讲:本体论的昨天和今天

本文转自公众号&#xff1a;AI科技评论。AI 科技评论按&#xff1a;正在美国新奥尔良召开的 AAAI 2018 的经典论文奖颁给了《Algorithm and Tool for Automated Ontology Merging and Alignment》。这篇论文发表在 2000 年的第 17 届 AAAI 大会上。这次颁奖是为了表彰这篇论文在…

ICLR2020 | 如何判断两个神经网络学到的知识是否一致

人工智能顶会 ICLR 2020 将于 4 月 26 日于埃塞俄比亚首都亚的斯亚贝巴举行。在最终提交的 2594 篇论文中&#xff0c;有 687 篇被接收&#xff0c;接收率为 26.5%。本文介绍了上海交通大学张拳石团队的一篇接收论文——《Knowledge Consistency between Neural Networks and B…

7张图学会SQL

第1周&#xff1a;SQL入门 学习SQL语句的书写语法和规则从零学会SQL&#xff1a;入门​www.zhihu.com 第2周&#xff1a;查询基础 Select查询语句是SQL中最基础也是最重要的语句&#xff0c;这周我们就来利用Select来对表中的数据进行查询。从零学会SQL&#xff1a;简单查询​w…

大公司稳定工作和创业之间如何选择?

“ 是留在大公司&#xff0c;还是加入小型创业公司&#xff0c;还是自己创业&#xff0c;面对房价每年高涨的趋势&#xff0c;面对未来的不确定&#xff0c;应该怎样选择。 作为一个亲历者&#xff0c;希望你看完后能有所启发。 本文作者&#xff0c;陈睿 优知学院创始人 优知…

论文浅尝 |「知识表示学习」专题论文推荐

本文转载自公众号&#xff1a;PaperWeekly。本期论文清单来自清华大学博士生韩旭和北师大本科生曹书林&#xff0c;涵盖了近年知识表示学习方向的重要论文。[ 综述类 ]■ 论文 | Representation Learning: A Review and New Perspectives■ 链接 | https://www.paperweekly.sit…

如何选择一家公司

不管是刚毕业的大学生还是工作几年的职场朋友&#xff0c;每个人都会面临选择公司和行业的困扰&#xff0c;我也相信每个人都还记忆犹新你的第一份工作以及让你无比难忘的一家公司。有时候我们也盲目的所求&#xff0c;其实&#xff0c;偶尔停下来思考下你真想去的地方&#xf…

LightGBM最强解析,从算法原理到代码实现~

1 LightGBM简介 GBDT (Gradient Boosting Decision Tree) 是机器学习中一个长盛不衰的模型&#xff0c;其主要思想是利用弱分类器&#xff08;决策树&#xff09;迭代训练以得到最优模型&#xff0c;该模型具有训练效果好、不易过拟合等优点。GBDT不仅在工业界应用广泛&#xf…

数据分析师基本技能——SQL

我们做数据分析工作时&#xff0c;多数数据来源于数据库&#xff0c;SQL非常方便我们访问和查询数据库。 SQL 作为数据分析师的基本技能&#xff0c;那么需要掌握哪些SQL核心技能 理解数据库SQL基础重点知识&#xff1a;查询&#xff0c;更新&#xff0c;提取&#xff0c;插入&…

论文浅尝 | 基于置信度的知识图谱表示学习框架

本文转载自公众号&#xff1a;PaperWeekly。作者丨谢若冰单位丨腾讯微信搜索应用部研究方向丨知识表示学习知识图谱被广泛地用来描述世界上的实体和实体之间的关系&#xff0c;一般使用三元组&#xff08;h,r,t&#xff09;&#xff08;head entity, relation, trail entity&am…