重要的，是那些训练中被多次遗忘的样本

文 | kid丶

源 | 知乎

编 | 兔子酱

今天跟大家分享一篇很有意思的文章，是一篇探讨深度学习模型记忆&遗忘机制的文章，是一篇角度很新颖的题材，同时又有一定启发作用。

这篇文章发表在深度学习顶会ICLR19，标题是《An empirical study of example forgetting during deep neural network learning》。

这篇文章是我最近看到的最有意思的文章之一了，同时我跑了这篇文章的代码并做了很深入的研究和分析。很有意思，值得一读！希望这篇博客能对您目前的工作有所启发！

首先，我们来看一个机器学习里的基本概念“learnt”与“forget”。

learnt与forget

如果一个样本被模型"learnt"：代表该样本能够被模型正确分类。接着，本文定义了一个十分有意思的概念，叫做"forgetting event"：即样本在某个时间点 t 被"learnt"，然后在之后的一个时间点 t' 被错误分类了，其中 t' > t，这样的一个事件称之为 "forgetting event" 。相反，如果一些样本，它一旦被 "learnt" 之后，再也没有被忘记过，那么我们称该样本为 "unforgettable examples"。

举个例子，它就像小孩在学习记单词一样，对于单词 "apple"，如果这个小孩能认出它是"苹果"，这说明这个单词被 "learnt"；小孩又陆陆续续的记了很多其它的单词，当他再一次遇到单词"apple"的时候，如果此时小孩觉得该单词的意思是"梨子"，那么说明，这个单词被小孩遗忘了，这个事件称之为 "forgetting event"。对于一些简单的单词例如"car"，被小孩学会后再也没有被遗忘过，那么这些单词我们称之为 "unforgettable examples"。

那么，对于神经网络，在学习样本的时候，哪些样本会被容易 "learnt"，哪些样本容易被模型遗忘，哪些样本又会是 "unforgettable examples" 呢？

文章给出了三个非常重要且有指导性的结论：

CIFAR10、CIFAR100这类的数据集中存在着大量的 "unforgettable examples"。即这些样本一旦被模型学会将不再遗忘，并且这一现象与随机种子的设置以及不同模型结构的选择无关。
具有噪声标记的样本往往是"most forgettable examples"，这一点有利于我们去识别噪声样本。
如果把很大一部分"least forgettable examples"丢掉，用剩下的样本进行训练，在测试集上仍然具有极具竞争力的性能。

首先来看第一个结论，上图分别代表在三个不同数据集上的结果。可以看出，"forgetting event" 为 0 的样本数占绝大多数，也就是说，绝大部分样本一旦被模型学会了，就不会再被遗忘。

第二个结论，如上图所示，代表 "forgetting event" 在两种样本上的分布。左边的图红色是噪声样本，绿色是干净样本。右边的图代表同一批样本在加噪声前(蓝色)和在加噪声后(红色)的分布情况。其实两者是从两个不同的方面来刻画噪声样本和干净样本对 "forgetting event" 的分布差异。可以明显看出，噪声样本的分布(红色)比较靠右，也就是说，噪声样本容易被模型忘记，当然这一结论也很符合认知。

第三个结论更有意思！首先两个图的纵坐标都是测试集上的准确率。左边的图的横坐标为训练集被移除的百分比，右边图的横坐标为被移除样本的 "forgetting event" 的平均数。

首先来看左边这个图，红、绿、蓝线分别代表不移除、有选择性的移除以及随机移除样本，其中有选择性的移除是指优先移除掉 "forgetting event" 小的样本。换句话来说，首先把那些 "unforgettable examples" 的简单样本从训练集中拿掉，然后再慢慢拿掉一些遗忘次数较少的样本，可以看出在有选择性的拿掉 20%-30% 的样本时，模型的性能竟丝毫没有下降，后续就算性能下降了也会比随机的拿掉要好。右边这个图也有类似的结果和结论。

这个实验主要想说明一个问题，那就是重要的样本，往往是那些被遗忘次数多的样本。换句话说，对于学习一个有效的分类模型，我们只需要关注那些遗忘次数多的样本就够了。

接着，我们来看看 "unforgettable and forgettable examples" 有怎样的区别。很显然也很容易想到，就是不容易被遗忘的那些样本往往是一些简单样本，其目标清楚、明显且背景简单单一；而那些容易被忘记的样本往往是一些难样本，其背景复杂且目标不清楚、不完整等等。

总结

首先，难样本和噪声样本都容易被模型忘记。再看结论3，把绝大部分"unforgettable"样本丢掉，发现性能基本没掉。说明 "unforgettable"的样本其实对训练模型没啥帮助，有就行了，多没用！换句话说，只需要难样本就行了，但是呢，噪声样本也往往是 "most forgettabel"的，然后我又不想要噪声样本，这就有矛盾了，也能带来很多思考了。欢迎大家在评论区分享你的想法！

文末福利
后台回复关键词【入群】
加入卖萌屋NLP/IR/Rec与求职讨论群
有顶会审稿人、大厂研究员、知乎大V和妹纸
等你来撩哦~