SELFIE: Refurbishing Unclean Samples for Robust Deep Learning
摘要:
由于深度神经网络具有极高的表达能力,其副作用是即使在标签噪声极高的情况下也能完全记住训练数据。为了克服对噪声标签的过度拟合,我们提出了一种名为 SELFIE 的新型鲁棒训练方法。我们的主要想法是有选择地翻新和利用可以高精度修正的不干净样本,从而逐步增加可用训练样本的数量。利用这一设计优势,SELFIE 有效地防止了错误修正带来的噪声积累风险,并充分利用了训练数据。为了验证 SELFIE 的优越性,我们使用四个真实世界或合成数据集进行了大量实验。结果表明,与两种最先进的方法相比,SELFIE 显著改善了绝对测试误差。
介绍:
随着可用数据集规模的快速增长,深度神经网络在图像分类(Krizhevsky 等人,2012 年)和物体检测(Redmon 等人,2016 年)等众多机器学习任务中取得了不俗的表现。然而,由于神经网络具有很强的适应任何噪声标签的能力,众所周知,训练数据中的一小部分错误标签样本会严重影响模型的性能。特别是,Zhang 等人(2017)的研究表明,标准卷积神经网络可以以任意比例的噪声标签拟合整个训练数据,并最终导致测试数据的泛化效果不佳。因此,问题的关键在于如何在训练数据中存在错误标签样本的情况下仍能稳健地训练深度神经网络。
一种典型的方法是使用 "loss修正",根据估计的噪声修正训练样本的loss过渡矩阵(Zhang 等人,2017;Goldberger & BenReuven,2017;Patrini 等人,2017;Chang 等人,2017)。如图 1(a)所示,每个迷你批次中所有样本的前向或后向损失都会被修正,随后反向传播以更新网络。然而,由于噪声转换矩阵难以估计,网络不可避免地会积累因错误校正而产生的误差,尤其是在类数或误标样本数较多时(Jiang 等,2018;Han 等,2018)。
为了摆脱错误修正,最近的许多研究都采用了 "样本选择",即从训练数据中过滤出真实标签样本(Kumar 等,2010;Jiang 等,2018;Han 等,2018)。他们根据前向损失从迷你批次中识别出干净样本,并用它们来更新网络,如图 1(b) 所示。在实践中,Han 等人(2018 年)的研究表明,在极高噪声数据上,对干净样本进行训练比校正整个样本的性能要好得多。然而,专注于选定的干净样本会偏向于容易样本,从而忽略大量有用的硬样本,而这些样本会使网络更加准确和鲁棒(Shrivastava 等人,2016 年;Chang 等人,2017 年;Lin 等人,2018 年)。因此,为了在有噪声的标签上进行更稳健的训练,我们建议翻新不干净的样本ÿ