文:维建
编:白鹡鸰
背景
正常情况下,我们可以用一个带标签的数据集来测试分类器的表现(称之为测试集)。然而,现实中,因为种种因素的制约(标注成本高、标注难度大等 Google:穷人不配搞机器学习),很多场景下难以求得一个规模大、标注正确率高、采样无偏的测试集。而采用人工评估的方式,往往耗时耗力,且方差极大,结果对机器学习模型的迭代速度产生了很大的制约。
由此,本文提出了 自动模型评估(AutoEval) ——目标是在给定了有标签的训练集的前提下,估计出分类器在 无标签 的测试数据集上的准确性。
乍一听似乎脑洞很大,测试集没标签还能叫测试集吗?没标签的情况下还能算出准确率,那岂不是可以疯狂刷爆(过拟合)那些给了样本却没给标签的榜单了?
显然,自动模型评估这一任务价值很大,但难度也大。今天想和大家分享下我们近期在这一任务上提出的解决方案——衡量数据分布的差异。方法的出发点是:测试集和训练集数据分布差异越大,分类器在测试集上的准确率就会越低。我们采用了回归模型来估计分类器的性能。给定一个无标签的测试集,我们可以算出其和训练集的特征分布差异。将该差异输入给回归器,我们会得到分类器准确率的预测值。我们发现回归器可以较为准确地预测分类器在不同测试集合上的表现,进而帮助我们了解分类器在不同测试场景下的性能。
论文题目:
Are Labels Necessary for Classifier Accuracy Evaluation?
论文链接:
https://arxiv.org/abs/2011.03395
Arxiv访问慢的小伙伴也可以在【夕小瑶的卖萌屋】订阅号后台回复关键词【1215】下载论文PDF~
方法
出发点
机器学习领域有一个重要的研究任务叫“域适应(domain adaption)”,它的核心研究目标是让模型在来源于不同数据分布的测试样本上有较好的性能表现 [1]。该任务有一个很重要的出发点,就是 数据分布的偏移会影响分类器的准确性 。因此我们可以从数据分布差异出发,来推测模型的性能表现。具体来说,我们研究了分类器在不同数据分布下的准确率,发现两者(数据分布和准确率)在统计上是负相关的。下面将介绍如何构建一个元数据集合来得到这一负相关观测结论,并展示具体的相关性结果。
元数据集
为了观测一个分类器在不同数据分布场景下的表现,我们需要很多各不相同的测试数据集合。为此,我们构造一个 元数据集合 (meta dataset, 多个数据集组成的数据集)。元数据集包含很多样本数据集(sample set),每一个样本集具备不同的数据分布且有很多的图像。因为很难收集大量样本集(例如1000个),我们采用旋转、调整对比度、平移、背景更改等方法生成不同的样本集。
如图1,给定一个种子集,我们可以变幻出15个各不相同的样本集。值得注意的是,每一个样本集和种子集(seed set)共享相同的前景对象,即图像的语义目标没有被修改,依然具备原来的标签。也就是说,每一个生成的样本集合都是带图像标记的。 在实验中,我们通过图像变换的方式得到了500多个样本集。
图1 通过图像变换生成的特征分布不同的样本集
相关性分析
给定一个分类器(在训练集上训练)和一个元数据集(基于种子集生成),我们可以通过Frechet distance (FD) 衡量训练集和每一个样本集的数据分布差异 [2];又因为样本数据集都是有标签的,可以得到分类器在各个样本数据集上的准确率。
Frechet distance衡量两个数据集合分布差异。其基于两个数据集合的一阶和二阶统计量来计算差异。
图2是FD与分类器准确率关系的可视化结果。值得注意的是,图中的每一个点代表一个样本集。我们观察到分类器准确性与分布偏移之间存在很强的负线性相关性。
图2 分类器准确率和分布偏移的线性拟合结果
回归模型
有了上述相关性,我们可以根据测试集与训练集之间的分布偏移来预测分类器的准确性。在本文中,我们提出了两种回归方案:
线性回归:对于来自元数据集的每个样本集,我们计算分类器准确性及其在训练集之间的分布偏移。根据结果拟合一个简单的线性回归。
网络回归:直接从样本集回归分类器的性能。具体来说,一个数据集合对应一个性能,直接学习一个映射网络。网络的输入是一个数据集合的统计特征,输出是该数据集上的统计特征,此处我们选取了与分布相关的一阶统计量(均值)和二阶统计量(协方差)。
自问:为什么能用一个特征代表一个数据集合?
自答:根据相关性分析知道数据分布差异和准确率有强相关,因此可以用与数据分布差异有关的统计特征来刻画一个数据集合。
然后建立一个小型的全连接网络以学习映射功能:该网络使用样本集的均值矢量和协方差矩阵作为输入并输出分类器的准确性。
两个回归方法很直接很简单,因为它们都是基于统计上的相关性分析来提出的。两者有很直接相关的统计特性,因此简单有效,不需要太多复杂的东西。
实验结果
实验方面,我们首先基于COCO的训练集上训练得到一个分类器,而后基于COCO交叉验证集合生成一个元数据集合,就可以训练出两个回归模型。我们将回归模型运用到其他的三个真实世界测试集(Caltech,Pascal和ImageNet),来估计COCO分类器在这三个无标签数据集合上的表现/准确率。由于自动模型评估问题还没有相应的工作来进行探究,因此对比的方法较少。
实验结果表明,我们的方法做出了比较不错且合理预测(RMSE小于4%)。这是因为元数据集包含许多不同的样本集,因此回归方法可以“看到”各种数据分布情况,知道分类器在不同测试情形下的准确率表现。论文中,我们还详细验证了回归模型的鲁棒性并且讨论了如何构建一个较好的元数据集,感兴趣的朋友们来看呀~
图3 预测器的效果,第一行是模型实际准确率,最后两行是通过我们方法预测的模型准确率,可以看出网络回归对模型准确率的预测已经很接近真相了
总结
越来越多的工作都在关注模型在实际测试场景下对噪声的鲁棒性、抗对抗样本能力以及对异常样本的处理能力 [5]。自动模型评估直接预测分类器在无标签测试场景下的性能,进而直观地帮助我们理解分类器的可靠性与泛化性。希望能够看到自动模型评估和现有工作的结合。此外,如何将自动模型评估问题推广到其他视觉任务(如目标检测与图像分割)和自然语言处理任务也是一个比较有趣的研究方向。
后台回复关键词【入群】
加入卖萌屋NLP/IR/Rec与求职讨论群
后台回复关键词【顶会】
获取ACL、CIKM等各大顶会论文集!
[1] Ganin, Yaroslav, and Victor Lempitsky. "Unsupervised domain adaptation by backpropagation." International conference on machine learning. PMLR, 2015.
[2] Dowson, D. C., and B. V. Landau. "The Fréchet distance between multivariate normal distributions." Journal of multivariate analysis 12.3 (1982): 450-455.
[3] Hendrycks, Dan, and Thomas Dietterich. "Benchmarking neural network robustness to common corruptions and perturbations." arXiv preprint arXiv:1903.12261 (2019).
[4] Papernot, Nicolas, et al. "Practical black-box attacks against machine learning." Proceedings of the 2017 ACM on Asia conference on computer and communications security. 2017.
[5] Taori, Rohan, et al. "Measuring robustness to natural distribution shifts in image classification." Advances in Neural Information Processing Systems 33 (2020).