重要的,是那些训练中被多次遗忘的样本

 文 | kid丶

源 | 知乎

 编 | 兔子酱


今天跟大家分享一篇很有意思的文章,是一篇探讨深度学习模型记忆&遗忘机制的文章,是一篇角度很新颖的题材,同时又有一定启发作用。

这篇文章发表在深度学习顶会ICLR19,标题是《An empirical study of example forgetting during deep neural network learning》。

这篇文章是我最近看到的最有意思的文章之一了,同时我跑了这篇文章的代码并做了很深入的研究和分析。很有意思,值得一读!希望这篇博客能对您目前的工作有所启发!

首先,我们来看一个机器学习里的基本概念“learnt”与“forget”。

learnt与forget

如果一个样本被模型"learnt":代表该样本能够被模型正确分类。接着,本文定义了一个十分有意思的概念,叫做"forgetting event":即样本在某个时间点 t 被"learnt",然后在之后的一个时间点 t' 被错误分类了,其中 t' > t,这样的一个事件称之为 "forgetting event" 。相反,如果一些样本,它一旦被 "learnt" 之后,再也没有被忘记过,那么我们称该样本为 "unforgettable examples"

举个例子,它就像小孩在学习记单词一样,对于单词 "apple",如果这个小孩能认出它是"苹果",这说明这个单词被 "learnt";小孩又陆陆续续的记了很多其它的单词,当他再一次遇到单词"apple"的时候,如果此时小孩觉得该单词的意思是"梨子",那么说明,这个单词被小孩遗忘了,这个事件称之为 "forgetting event"。对于一些简单的单词例如"car",被小孩学会后再也没有被遗忘过,那么这些单词我们称之为 "unforgettable examples"

那么,对于神经网络,在学习样本的时候,哪些样本会被容易 "learnt",哪些样本容易被模型遗忘,哪些样本又会是 "unforgettable examples" 呢?

文章给出了三个非常重要且有指导性的结论:

  • CIFAR10、CIFAR100这类的数据集中存在着大量的 "unforgettable examples"。即这些样本一旦被模型学会将不再遗忘,并且这一现象与随机种子的设置以及不同模型结构的选择无关。

  • 具有噪声标记的样本往往是"most forgettable examples",这一点有利于我们去识别噪声样本。

  • 如果把很大一部分"least forgettable examples"丢掉,用剩下的样本进行训练,在测试集上仍然具有极具竞争力的性能。

首先来看第一个结论,上图分别代表在三个不同数据集上的结果。可以看出,"forgetting event" 为 0 的样本数占绝大多数,也就是说,绝大部分样本一旦被模型学会了,就不会再被遗忘

第二个结论,如上图所示,代表 "forgetting event" 在两种样本上的分布。左边的图红色是噪声样本,绿色是干净样本。右边的图代表同一批样本在加噪声前(蓝色)和在加噪声后(红色)的分布情况。其实两者是从两个不同的方面来刻画噪声样本和干净样本对 "forgetting event" 的分布差异。可以明显看出,噪声样本的分布(红色)比较靠右,也就是说,噪声样本容易被模型忘记,当然这一结论也很符合认知。

第三个结论更有意思!首先两个图的纵坐标都是测试集上的准确率。左边的图的横坐标为训练集被移除的百分比,右边图的横坐标为被移除样本的 "forgetting event" 的平均数。

首先来看左边这个图,红、绿、蓝线分别代表不移除、有选择性的移除以及随机移除样本,其中有选择性的移除是指优先移除掉 "forgetting event" 小的样本。换句话来说,首先把那些 "unforgettable examples" 的简单样本从训练集中拿掉,然后再慢慢拿掉一些遗忘次数较少的样本,可以看出在有选择性的拿掉 20%-30% 的样本时,模型的性能竟丝毫没有下降,后续就算性能下降了也会比随机的拿掉要好。右边这个图也有类似的结果和结论。

这个实验主要想说明一个问题,那就是重要的样本,往往是那些被遗忘次数多的样本。换句话说,对于学习一个有效的分类模型,我们只需要关注那些遗忘次数多的样本就够了

接着,我们来看看 "unforgettable and forgettable examples" 有怎样的区别。很显然也很容易想到,就是不容易被遗忘的那些样本往往是一些简单样本,其目标清楚、明显且背景简单单一;而那些容易被忘记的样本往往是一些难样本,其背景复杂且目标不清楚、不完整等等。

总结

首先,难样本和噪声样本都容易被模型忘记。再看结论3,把绝大部分"unforgettable"样本丢掉,发现性能基本没掉。说明 "unforgettable"的样本其实对训练模型没啥帮助,有就行了,多没用!换句话说,只需要难样本就行了,但是呢,噪声样本也往往是 "most forgettabel"的,然后我又不想要噪声样本,这就有矛盾了,也能带来很多思考了。欢迎大家在评论区分享你的想法!


文末福利
后台回复关键词【入群
加入卖萌屋NLP/IR/Rec与求职讨论群
有顶会审稿人、大厂研究员、知乎大V和妹纸
等你来撩哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479933.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

直通BAT必考题系列:7种JVM垃圾收集器特点,优劣势、及使用场景

直通BAT之JVM系列 直通BAT必考题系列:JVM的4种垃圾回收算法、垃圾回收机制与总结 直通BAT必考题系列:深入详解JVM内存模型与JVM参数详细配置 今天继续JVM的垃圾回收器详解,如果说垃圾收集算法是JVM内存回收的方法论,那么垃圾收集…

模拟嫁接技术

模拟嫁接技术:定义嫁接算子及策略剪接算子及策略GPOGA算法总结定义 收益和代价 对一棵生成树 T1,若将某结点的一条分枝移至另一结点作为其一条分枝后产生的生成树为 T2,考察分枝移动前后生成树的边长和的变化,则定义收益(gain)和…

HuggingFace又出炼丹神器!稀疏矩阵运算进入平民化时代!

文 | rumor酱编 | YY一提到模型加速,大家首先想到的就是蒸馏、(结构性)剪枝、量化(FP16),然而稀疏矩阵(sparse matrix)运算一直不被大家青睐。原因也很简单,一是手边没有…

章乐焱 | 用“科技”监管“科技”,知识图谱能做什么?

本文转载自公众号:恒生技术之眼。人工智能、大数据等前沿科技的爆发,推动金融科技进入了一个崭新的时代,也成为监管科技发展的重要推动力。在这个Fintech的黄金时代,前沿科技正在如何赋能监管?这方面,恒生公…

LeetCode 23. 合并K个排序链表(优先队列)

文章目录1. 题目信息2. 思路3. 代码1. 题目信息 合并 k 个排序链表,返回合并后的排序链表。请分析和描述算法的复杂度。 示例:输入: [1->4->5,1->3->4,2->6 ] 输出: 1->1->2->3->4->4->5->6来源:力扣(…

直通BAT必考题系列:JVM性能调优的6大步骤,及关键调优参数详解

JVM系列 直通BAT必考题系列:7种JVM垃圾收集器特点,优劣势、及使用场景 直通BAT必考题系列:JVM的4种垃圾回收算法、垃圾回收机制与总结 直通BAT必考题系列:深入详解JVM内存模型与JVM参数详细配置 JVM内存调优 对JVM内存的系统级…

论文浅尝 | 知识图谱三元组置信度的度量

论文笔记整理:叶橄强,浙江大学计算机学院,知识图谱和知识推理方向。https://arxiv.org/pdf/1809.09414.pdf动机在构建知识图谱的过程中,不可避免地会产生噪声和冲突。基于知识图谱的任务或应用一般默认假定知识图谱中的知识是完全…

跟小伙伴们做了个高效刷论文的小站

好久木有在知乎冒泡了,不知道还能不能出现在大家的timeline上哇QAQ正文开始之前还是先习惯性的碎碎念一下。前段时间换了研究方向,重新pick了问答和检索,为了追上相关问题的最新进展,就顾不上写文的刷了一堆paper,加上…

模拟进化与遗传算法

遗传算法是目前研究得最为广泛的一类模拟进化算法。 假定考虑全局优化问题(P)。遗传算法基于以下两条基本策略求解问题: 对于给定的目标函数F,它使用F的任一适应性函数(换言之,一个值域非负、…

消息中间件系列(六):什么是流量削峰?如何解决秒杀业务的削峰场景

流量削峰的由来 主要是还是来自于互联网的业务场景,例如,马上即将开始的春节火车票抢购,大量的用户需要同一时间去抢购;以及大家熟知的阿里双11秒杀, 短时间上亿的用户涌入,瞬间流量巨大(高并发…

论文浅尝 | 基于深度序列模型的知识图谱补全

本文转载自公众号:DI数据智能。 Learning to Complete Knowledge Graphs with Deep Sequential Models作者:郭凌冰、张清恒、胡伟、孙泽群、瞿裕忠单位:南京大学供稿:胡伟引用L. Guo, Q. Zhang, W. Hu, Z. Sun, & Y. Qu. …

拨开算力的迷雾:聊聊不同 GPU 计算能力的上限

文 | 卜居知乎编 | 兔子酱通过深入了解自己手头 GPU 的计算能力上限,能够在买新卡时做出更理性判断。本文深入GPU架构,重点介绍了其中的ampere架构。另外,作者还对比了不同GPU之间的峰值计算能力,增加读者对硬件资源的了解。前言2…

LeetCode 20. 有效的括号(栈)

文章目录1. 题目信息2. 解题1. 题目信息 给定一个只包括 ‘(’,’)’,’{’,’}’,’[’,’]’ 的字符串,判断字符串是否有效。 有效字符串需满足: 左括号必须用相同类型的右括号闭合。 左括…

消息中间件系列(八):Kafka、RocketMQ、RabbitMQ等的优劣势比较

在高并发业务场景下,典型的阿里双11秒杀等业务,消息队列中间件在流量削峰、解耦上有不可替代的作用。 之前介绍了MQ消息队列的12点核心原理总结,以及如何从0到1设计一个MQ消息队列,以及RPC远程调用和消息队列MQ的区别 今天我们一…

论文浅尝 | 一种用于多关系问答的可解释推理网络

论文笔记整理:谭亦鸣,东南大学博士生,研究方向为跨语言知识图谱问答。来源:COLING 2018链接:https://www.aclweb.org/anthology/C18-1171问题背景与动机多关系问答(multi-relationquestion answering&#…

蚁群优化算法 ACO

群体智能(swarm intelligence) 定义: 由单个复杂个体完成的任务可由大量简单个体组成的群体合作完成,而后者往往更具有健壮性、灵活性等优势。在没有集中控制,不提供全局模型的前提下,为寻找复杂问题解决…

量化投资交易 vn.py

前言:当初接触到vnpy,一开始当然是按照该项目在GitHub上的指南,开始安装,配置,阅读Wiki,但是作为一个python新手,并不能马上利用vnpy来写策略回测甚至实盘。所以我决定还是从源码看起&#xff0…

掌握神经网络,我应该学习哪些至关重要的知识点?

人工智能作为计算机科学领域的一个分支,在互联网和大数据的时代浪潮中显现出其巨大的潜力和蓬勃的活力,类似电子医生、无人驾驶等新名词纷纷涌现。人工智能凭借着它无与伦比的发展优势,推动了各大产业和技术的革命与创新,使得生产…

LeetCode 32. 最长有效括号(栈DP)

文章目录1. 题目信息2. 栈 解题3. 动态规划 解题1. 题目信息 给定一个只包含 ‘(’ 和 ‘)’ 的字符串,找出最长的包含有效括号的子串的长度。 示例 1:输入: "(()" 输出: 2 解释: 最长有效括号子串为 "()" 示例 2:输入: ")()())" 输…

消息中间件系列(四):消息队列MQ的特点、选型、及应用场景详解

前面集中谈了分布式缓存Redis系列: 高并发架构系列:分布式锁的由来、特点、及Redis分布式锁的实现详解 高并发架构系列:Redis并发竞争key的解决方案详解 高并发架构系列:Redis缓存和MySQL数据一致性方案详解 Redis的高可用详解…