测试集没标签,可以拿来测模型吗?

文:维建
编:白鹡鸰

背景

正常情况下,我们可以用一个带标签的数据集来测试分类器的表现(称之为测试集)。然而,现实中,因为种种因素的制约(标注成本高、标注难度大等 Google:穷人不配搞机器学习),很多场景下难以求得一个规模大、标注正确率高、采样无偏的测试集。而采用人工评估的方式,往往耗时耗力,且方差极大,结果对机器学习模型的迭代速度产生了很大的制约。

由此,本文提出了 自动模型评估(AutoEval)  ——目标是在给定了有标签的训练集的前提下,估计出分类器在 无标签 的测试数据集上的准确性。

乍一听似乎脑洞很大,测试集没标签还能叫测试集吗?没标签的情况下还能算出准确率,那岂不是可以疯狂刷爆(过拟合)那些给了样本却没给标签的榜单了?

显然,自动模型评估这一任务价值很大,但难度也大。今天想和大家分享下我们近期在这一任务上提出的解决方案——衡量数据分布的差异。方法的出发点是:测试集和训练集数据分布差异越大,分类器在测试集上的准确率就会越低。我们采用了回归模型来估计分类器的性能。给定一个无标签的测试集,我们可以算出其和训练集的特征分布差异。将该差异输入给回归器,我们会得到分类器准确率的预测值。我们发现回归器可以较为准确地预测分类器在不同测试集合上的表现,进而帮助我们了解分类器在不同测试场景下的性能。

论文题目
Are Labels Necessary for Classifier Accuracy Evaluation?

论文链接:
https://arxiv.org/abs/2011.03395

Arxiv访问慢的小伙伴也可以在【夕小瑶的卖萌屋】订阅号后台回复关键词【1215】下载论文PDF~

方法

出发点

机器学习领域有一个重要的研究任务叫“域适应(domain adaption)”,它的核心研究目标是让模型在来源于不同数据分布的测试样本上有较好的性能表现 [1]。该任务有一个很重要的出发点,就是 数据分布的偏移会影响分类器的准确性 。因此我们可以从数据分布差异出发,来推测模型的性能表现。具体来说,我们研究了分类器在不同数据分布下的准确率,发现两者(数据分布和准确率)在统计上是负相关的。下面将介绍如何构建一个元数据集合来得到这一负相关观测结论,并展示具体的相关性结果。

元数据集

为了观测一个分类器在不同数据分布场景下的表现,我们需要很多各不相同的测试数据集合。为此,我们构造一个 元数据集合 (meta dataset, 多个数据集组成的数据集)。元数据集包含很多样本数据集(sample set),每一个样本集具备不同的数据分布且有很多的图像。因为很难收集大量样本集(例如1000个),我们采用旋转、调整对比度、平移、背景更改等方法生成不同的样本集。

如图1,给定一个种子集,我们可以变幻出15个各不相同的样本集。值得注意的是,每一个样本集和种子集(seed set)共享相同的前景对象,即图像的语义目标没有被修改,依然具备原来的标签。也就是说,每一个生成的样本集合都是带图像标记的。 在实验中,我们通过图像变换的方式得到了500多个样本集。

图1 通过图像变换生成的特征分布不同的样本集

相关性分析

给定一个分类器(在训练集上训练)和一个元数据集(基于种子集生成),我们可以通过Frechet distance (FD) 衡量训练集和每一个样本集的数据分布差异 [2];又因为样本数据集都是有标签的,可以得到分类器在各个样本数据集上的准确率。

Frechet distance衡量两个数据集合分布差异。其基于两个数据集合的一阶和二阶统计量来计算差异。

图2是FD与分类器准确率关系的可视化结果。值得注意的是,图中的每一个点代表一个样本集。我们观察到分类器准确性与分布偏移之间存在很强的负线性相关性。

图2 分类器准确率和分布偏移的线性拟合结果

回归模型

有了上述相关性,我们可以根据测试集与训练集之间的分布偏移来预测分类器的准确性。在本文中,我们提出了两种回归方案:

  1. 线性回归:对于来自元数据集的每个样本集,我们计算分类器准确性及其在训练集之间的分布偏移。根据结果拟合一个简单的线性回归。

  2. 网络回归:直接从样本集回归分类器的性能。具体来说,一个数据集合对应一个性能,直接学习一个映射网络。网络的输入是一个数据集合的统计特征,输出是该数据集上的统计特征,此处我们选取了与分布相关的一阶统计量(均值)和二阶统计量(协方差)。

    自问:为什么能用一个特征代表一个数据集合?
    自答:根据相关性分析知道数据分布差异和准确率有强相关,因此可以用与数据分布差异有关的统计特征来刻画一个数据集合。

然后建立一个小型的全连接网络以学习映射功能:该网络使用样本集的均值矢量和协方差矩阵作为输入并输出分类器的准确性。

两个回归方法很直接很简单,因为它们都是基于统计上的相关性分析来提出的。两者有很直接相关的统计特性,因此简单有效,不需要太多复杂的东西。

实验结果

实验方面,我们首先基于COCO的训练集上训练得到一个分类器,而后基于COCO交叉验证集合生成一个元数据集合,就可以训练出两个回归模型。我们将回归模型运用到其他的三个真实世界测试集(Caltech,Pascal和ImageNet),来估计COCO分类器在这三个无标签数据集合上的表现/准确率。由于自动模型评估问题还没有相应的工作来进行探究,因此对比的方法较少。

实验结果表明,我们的方法做出了比较不错且合理预测(RMSE小于4%)。这是因为元数据集包含许多不同的样本集,因此回归方法可以“看到”各种数据分布情况,知道分类器在不同测试情形下的准确率表现。论文中,我们还详细验证了回归模型的鲁棒性并且讨论了如何构建一个较好的元数据集,感兴趣的朋友们来看呀~

图3 预测器的效果,第一行是模型实际准确率,最后两行是通过我们方法预测的模型准确率,可以看出网络回归对模型准确率的预测已经很接近真相了

总结

越来越多的工作都在关注模型在实际测试场景下对噪声的鲁棒性、抗对抗样本能力以及对异常样本的处理能力 [5]。自动模型评估直接预测分类器在无标签测试场景下的性能,进而直观地帮助我们理解分类器的可靠性与泛化性。希望能够看到自动模型评估和现有工作的结合。此外,如何将自动模型评估问题推广到其他视觉任务(如目标检测与图像分割)和自然语言处理任务也是一个比较有趣的研究方向。

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

 

[1] Ganin, Yaroslav, and Victor Lempitsky. "Unsupervised domain adaptation by backpropagation." International conference on machine learning. PMLR, 2015.

[2] Dowson, D. C., and B. V. Landau. "The Fréchet distance between multivariate normal distributions." Journal of multivariate analysis 12.3 (1982): 450-455.

[3] Hendrycks, Dan, and Thomas Dietterich. "Benchmarking neural network robustness to common corruptions and perturbations." arXiv preprint arXiv:1903.12261 (2019).

[4] Papernot, Nicolas, et al. "Practical black-box attacks against machine learning." Proceedings of the 2017 ACM on Asia conference on computer and communications security. 2017.

[5] Taori, Rohan, et al. "Measuring robustness to natural distribution shifts in image classification." Advances in Neural Information Processing Systems 33 (2020).

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479547.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从0到1 | 手把手教你如何使用哈工大NLP工具——PyLTP!

原文链接:https://flashgene.com/archives/46041.html 本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢. 作者 | 杨秀璋 来源 | CSDN 博客(CSDN id:Eastmount) 【导语】此文是作者基于 Python 构…

美团智能配送系统的运筹优化实战

深入各个产业已经成为互联网目前的主攻方向,线上和线下存在大量复杂的业务约束和多种多样的决策变量,为运筹优化技术提供了用武之地。作为美团智能配送系统最核心的技术之一,运筹优化是如何在美团各种业务场景中进行落地的呢?本文…

Android如何给无法更改继承关系的Activity更换ActionBar(setContentView方法实战)

前言: 通常我们有时候会直接使用ADT工具直接新建一个Activity页,而这个Activity我们又无法更改它的父类,那遇到这种情况该如何处理呢?其实很简单,好,看如何来解决这个问题: 先来看看这个问题出…

论文浅尝 | 基于属性embeddings的跨图谱实体对齐

论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识库问答。来源:AAAI 2019链接:https://aaai.org/ojs/index.php/AAAI/article/view/3798跨图谱实体对齐任务的目标是从两个不同知识图谱中找出同一 real-world 实体&a…

LeetCode 771. 宝石与石头(哈希)

文章目录1. 题目信息2. 解题1. 题目信息 给定字符串J 代表石头中宝石的类型,和字符串 S代表你拥有的石头。 S 中每个字符代表了一种你拥有的石头的类型,你想知道你拥有的石头中有多少是宝石。 J 中的字母不重复,J 和 S中的所有字符都是字母…

开启NLP新时代的BERT模型,真的好上手吗?

都说BERT模型开启了NLP的新时代,更有“BERT在手,天下我有”的传说,它解决了很多NLP的难题:1、BERT让低成本地训练超大规模语料成为可能;2、BERT能够联合神经网络所有层中的上下文来进行训练,实现更精准的文…

YOLO系列:YOLOv1,YOLOv2,YOLOv3,YOLOv4,YOLOv5简介

原文链接: https://zhuanlan.zhihu.com/p/136382095 YOLO系列:YOLOv1,YOLOv2,YOLOv3,YOLOv4,YOLOv5简介YOLO系列是基于深度学习的回归方法。RCNN, Fast-RCNN,Faster-RCNN是基于深度学习的分类方法。YOLO官网:https://g…

一站式机器学习平台建设实践

本文根据美团配送资深技术专家郑艳伟在2019 SACC(中国系统架构师大会)上的演讲内容整理而成,主要介绍了美团配送技术团队在建设一站式机器学习平台过程中的经验总结和探索,希望对从事此领域的同学有所帮助。 0. 写在前面 AI是目前…

LeetCode 535. TinyURL 的加密与解密(哈希)

文章目录1. 题目信息2. 哈希解题1. 题目信息 TinyURL是一种URL简化服务, 比如:当你输入一个URL https://leetcode.com/problems/design-tinyurl 时,它将返回一个简化的URL http://tinyurl.com/4e9iAk. 要求:设计一个 TinyURL 的…

论文浅尝 | Doc2EDAG:一种针对中文金融事件抽取的端到端文档级框架

论文笔记整理:叶宏彬,浙江大学博士生,研究方向为知识图谱、自然语言处理。链接:https://arxiv.org/pdf/1904.07535.pdf背景大多数现有的事件提取(EE)方法仅提取句子范围内的事件参数。但是,此类…

NeurIPS'20 | 通过文本压缩,让BERT支持长文本

作者 | wangThr来源 | 知乎这是今年清华大学及阿里巴巴发表在NIPS 2020上的一篇论文《CogLTX: Applying BERT to Long Texts》,介绍了如何优雅地使用bert处理长文本。作者同时开源了不同NLP任务下使用COGLTX的代码:论文题目:CogLTX: Applying…

福利!Android官方网站出现中文版本!

这两天在Android开发者网站上查东西的时候发现有中文的搜索结果,点开结果全是中文的,以后可以畅通无阻的看文档了,快来围观。

自然场景人脸检测技术实践

一、 背景 人脸检测技术是通过人工智能分析的方法自动返回图片中的人脸坐标位置和尺寸大小,是人脸智能分析应用的核心组成部分,具有广泛的学术研究价值和业务应用价值,比如人脸识别、人脸属性分析(年龄估计、性别识别、颜值打分和…

LeetCode 257. 二叉树的所有路径(DFS)

文章目录1. 题目2. DFS解题1. 题目 给定一个二叉树,返回所有从根节点到叶子节点的路径。 说明: 叶子节点是指没有子节点的节点。 示例:输入:1/ \ 2 3\5输出: ["1->2->5", "1->3"]解释: 所有根节点到叶子节点的路径为: 1->…

JAVA BIO

JAVA BIO深入剖析1. Java BIO 基本介绍2. Java BIO 工作机制3. 传统BIO编程4. BIO模式下的多发和多收消息5. BIO模式下接收多个客户端6. 伪异步I/O编程7. 基于BIO的文件上传8. Java BIO模式下的端口转发9. 基于BIO模式下的即时通信功能清单简单说明项目启动与演示1. Java BIO 基…

速览EMNLP 2020上录取的知识图谱相关论文

文 | 泽宇源 | 知乎前不久,自然语言处理领域三大顶会之一的 EMNLP 2020 发布了论文录取的结果。在EMNLP 2020论文正式出版之前,泽宇搜集了目前Arxiv上已经发布出来的录取在EMNLP 2020上所有和知识图谱相关的论文,下面我们就一起来一睹为快。1…

技术动态 | 数据库研究者视角下的知识图谱研究

本文转载自公众号:图谱学苑 。本次讲解的是数据库领域的三大会(SIGMOD、VLDB、ICDE)近两年关于图数据的研究进展,特别是知识图谱的最新研究。知识图谱是2012年Google为改进其搜索引擎而提出的概念,其本质是一个描述事物…

MultiDex

原文转自:http://coolpers.github.io/multidex/2015/04/13/multidex.html 1.MultiDex的产生背景 当Android系统安装一个应用的时候,有一步是对Dex进行优化,这个过程有一个专门的工具来处理,叫DexOpt。DexOpt的执行过程是在第一次加…

PYTHON得到pdf页数、遍历当前文件夹

#第一步安装PyPDF2 pip install PyPDF2#第二步导入相应的模块 from PyPDF2 import PdfFileReader#第三步:定义相对应的函数 def get_num_pages(file_path):"""获取文件总页码:param file_path: 文件路径:return:"""reader PdfFileRe…

LeetCode 814. 二叉树剪枝(递归)

文章目录1. 题目2. 递归解题1. 题目 给定二叉树根结点 root ,此外树的每个结点的值要么是 0,要么是 1。 返回移除了所有不包含 1 的子树的原二叉树。 把只包含0的子树删除(断开) 来源:力扣(LeetCode&…