ACL20 Best Paper揭晓!NLP模型评价体系或将迎来重大转折

星标/置顶小屋,带你解锁

最萌最前沿的NLP、搜索与推荐技术

文 | 北大小才女小轶


昨晚ACL2020的Main Conference落下帷幕,今年的最佳论文颁给了这篇《Beyond Accuracy: Behavioral Testing of NLP Models with CHECKLIST》。在ACL录用的778篇论文中,这篇的标题并不起眼,属于看到就想直接跳过的类型。今天细读了一下,发现确实是很有意义的工作。在此与大家分享。

背景介绍

这篇paper解决的是NLP领域的模型评测问题。目前最主流的评测方法是从已有数据中划分出一部分作为测试集,然后测试模型准确率。但这并不能全面地评估一个模型的好坏,还有很多意想不到的情况:

  • 测试集有部分数据和训练集相似度很高,模型如果overfit了也无法发现

  • 测试集存在bias,与真实场景分布不一致

  • 模型采用了某种shortcut才在数据集上表现良好

所以,模型的评估环节存在着不少风险,很难做出一个完美的benchmark。

近年来也涌现了大量关注NLP评测的工作。但之前的这些工作往往还是只能检测模型某种单方面的能力(例如,对噪音的鲁棒性),或者只是提出了针对某种特定任务的评测指标(例如针对NLG任务,测试生成文本前后逻辑一致性)。而且,这些新提出的测试方法往往实际操作起来并不容易。所以尽管传统方法诟病已久,却仍然大行其道。

本文提出的CHECKLIST是一种全新的、颠覆性的评测方式。作者认为:应当全方位对模型多项“能力”进行评估,每一项能力都应通过三项不同类别的检测。借助作者提供的[开源工具],(https://github.com/marcotcr/checklist),只需基本NLP经验即可快速生成大规模的测试样例。并且整个过程适用于几乎所有NLP任务(task-agnostic)。实践证明,与不采用CHECKLIST时相比,志愿者借助CheckList进行测试后,在极短的时间内就生成了多出一倍的测试样例,并从中发现了三倍未知的bug。

论文作者视频解析

https://slideslive.com/38929272/beyond-accuracy-behavioral-testing-of-nlp-models-with-checklist

Github:

https://github.com/marcotcr/checklist

论文链接:

https://arxiv.org/abs/2005.04118

公众号「夕小瑶的卖萌屋」 后台回复关键词【0710】下载论文PDF

CHECKLIST

CHECKLIST的思想借鉴了软件工程中的“黑盒测试”方法。它试图给出一套清晰完整的方法论,告诉你What to Test以及How to Test

What to Test

对于一个软件,需要测试的是每一个function是否可以正确运行,但在NLP中并没有明确划分的function。CHECKLIST提出,我们应该测试model的各种“能力”。论文中列举了10种所有模型都应该具备的“基本功”,包括但不限于:

  • Vocabulary+POS:是否熟练掌握任务相关的词汇

  • Taxonomy:是否理解同义词、反义词

  • NER:是否正确理解了named entity

  • Logic:是否前后连贯一致

当然,根据具体任务,还要添加其他的特定能力。

How to Test

那么如何对各种能力进行测试呢?CHECKILIST提出对于每种能力都要尽可能地进行三种不同类型测试,分别是最小功能测试不变性测试定向期望测试。这里以情感分析任务为例,为大家具体说明这三种测试方式:

1. 最小功能测试(MFT, minimum functionality test): 类似软工中的“单元测试”,用大量简单但具有极强针对性的样例进行测试。例如下图,用模板生成带有否定词的句子,来测试模型NEGATION的能力。

2. 不变性测试(INT, invariance test): 对原有数据做一些不影响结果的轻微变化。例如下图,当我们把句子中的一些named entity替换,模型应该不改变其输出结果。如果改变,则说明其鲁棒性存在问题。

3. 定向期望测试(DIR, directional expectation test): 也是对原有数据做少许改动。改动后,模型的结果应该朝一个期望的方向变化。例如下图,对于负面情绪的句子,如果我们在其末尾继续添加负面的话语,模型不应该变得比原来“乐观”。

到这里,我们已经清楚了:CHECKLIST要测试的是模型的各项“能力”,每种能力要经过三种测试。那么如下图所示,以“能力”为行,以测试类型为列,就得到了一张完整的CHECKLIST。而测试过程就是填满这个矩阵。

接下来的问题就是,有那么多测试要进行,如何针对每一项测试大规模生成测试样例呢?根据原文的说法,测试样例可以完全“无中生有”,也可以通过改动已有数据得到。而作者们已经给出了强大的开源工具,帮助你快速生成测试样例。整个工具完全可视化,操作性极强。下图就展示了它友好的操作界面。为了证明CHECKLIST有多好用,作者直接找到了Microsoft开发情感分析API的团队。CHECKLIST帮助他们在5个小时内找出了许多从未察觉的bug。又找了18个志愿者,在仅接受简单辅导的情况下,志愿者全部在2小时内测试出了SOTA模型的许多问题。

用CHECKLIST测试SOTA模型

作者在实验部分用CHECKLIST的方法在三个任务上进行了测试。抛弃传统的评测方式,在CHECKLIST面前那些所谓SOTA模型暴露出了各种各样的问题。即使面对最最简单的模板生成样例,也表现堪忧。

以情感分析任务为例,他们测试了Microsoft, Google, Amazon提供的情感分析付费API,以及Bert、RoBerta。在Negation这一项能力上,我们可以看到无论是工业界的成熟API、还是学术界的SOTA模型,都出奇的糟糕。比如第二行双重否定这一项上,只是用模板生成的简单双重否定,Bert和RoBerta的错误率高达98.4%、95.4%。而对于先抑后扬的情况,三个API的错误率高达100%、90.4%、100%。

再比如,在SQuad数据集上,如今的SOTA模型声称已超越了human performance。然而果真如此吗?作者对数据集中最简单的一类问题,也就是那些只对basic property提问的那些问题,进行反义词替换。Bert的回答就一下子牛头不对马嘴,错误率高达82.4%。

另外,CHECKLIST还发现了Bert存在种族歧视、性别歧视、性取向歧视......在做情感分析时,对于提到特定群体的句子,Bert会直接给出negative的标签。

在原文和github中,作者给出了各个模型极其详尽的CHECKLIST测试结果和典型错误样例。看着这些密密麻麻的数据,确实能感受到CHECKLIST更为全面地评估了模型的各方面能力。

小结

本文借鉴了软件工程的思想,提出了一套完整的NLP模型评测方法论,并提供了强大的开源工具,使整个测试过程得以快速实现。实验证明,CHECKLIST方式确实能够对NLP模型进行更为全面细致的评估。相比于原来仅用accuracy得到的评测结果,CHECKLIST给出了更多的insight,也让我们看到了在这些NLP任务上,我们真的还有很长很长的路要走...


论文作者视频解析

https://slideslive.com/38929272/beyond-accuracy-behavioral-testing-of-nlp-models-with-checklist

Github:

https://github.com/marcotcr/checklist

论文链接:

https://arxiv.org/abs/2005.04118

公众号「夕小瑶的卖萌屋」 后台回复关键词【0710】下载论文PDF

夕小瑶的卖萌屋

_

关注&星标小夕,带你解锁AI秘籍

订阅号主页下方「撩一下」有惊喜

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480260.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论文浅尝 | 基于多模态关联数据嵌入的知识库补全

链接&#xff1a;https://arxiv.org/pdf/1809.01341.pdf动机&#xff08;摘要&#xff09;当前的知识库补全的方法主要是将实体和关系嵌入到一个低维的向量空间&#xff0c;但是却只利用了知识库中的三元组结构 (<s,r,o>) 数据&#xff0c;而忽略了知识库中大量存在的文本…

智能投顾原理与主流产品分析

原作者 王希&#xff0c;CFA&#xff0c;中国光大银行。核心观点&#xff1a;1、智能投顾的模式是通过技术实现财富管理的流程自动化&#xff0c;为客户定制FOF产品来投资并赚取管理费。目前尚未看出大数据分析、人工智能等技术在其中发挥出关键作用。2、智能投顾在美国的快速…

POJ 1442 Black Box(大小堆,求第K小的元素)

文章目录1. 题目链接2. 题目解读3. 代码3.1 Runtime Error 代码1. 题目链接 http://poj.org/problem?id1442 2. 题目解读 可以利用大小堆&#xff0c;大堆长度从1开始&#xff0c;每次1 大堆元素都比小堆的小&#xff0c;那么大堆顶的元素就是第k小的元素 3. 代码 3.1 Run…

阿里java架构师面试128题含答案:分布式架构+Dubbo+多线程+Redis

一、Java基础和高级 1.String类为什么是final的。 2.HashMap的源码&#xff0c;实现原理&#xff0c;底层结构。 3.反射中&#xff0c;Class.forName和classloader的区别 4.session和cookie的区别和联系&#xff0c;session的生命周期&#xff0c;多个服务部署时session管理…

LightGBM——提升机器算法(图解+理论+安装方法+python代码)

原文地址&#xff1a;https://blog.csdn.net/huacha__/article/details/81057150 前言 LightGBM是个快速的&#xff0c;分布式的&#xff0c;高性能的基于决策树算法的梯度提升框架。可用于排序&#xff0c;分类&#xff0c;回归以及很多其他的机器学习任务中。 在竞赛题中&am…

这个NLP工具,玩得根本停不下来

今天推荐一个有趣的自然语言处理公众号AINLP&#xff0c;关注后玩得根本停不下来&#xff01;AINLP的维护者是我爱自然语言处理&#xff08;52nlp&#xff09;博主&#xff0c;他之前在腾讯从事NLP相关的研发工作&#xff0c;目前在一家创业公司带技术团队。AINLP公众号的定位是…

论文浅尝 | 基于Universal Schema与Memory Network的知识+文本问答

来源&#xff1a;ACL 2017链接&#xff1a;http://aclweb.org/anthology/P17-2057本文提出将 Universal schema 用于自然语言问答中&#xff0c;通过引入记忆网络&#xff0c;将知识库与文本中大量的事实信息结合起来&#xff0c;构建出一个由问答对&#xff08;question-answe…

数据结构--图 Graph

文章目录1. 概念2. 存储方法2.1 邻接矩阵 Adjacency Matrix2.2 邻接表 Adjacency List3. 图的遍历3.1 广度优先搜索BFS&#xff08;Breadth First Search&#xff09;3.2 BFS代码&#xff08;基于邻接表&#xff09;3.3 深度优先搜索DFS&#xff08;Depth First Search&#xf…

2019最新拼多多Java面试题:幻影读+分段锁+死锁+Spring Cloud+秒杀

拼多多Java一面 简短自我介绍 事务的ACID&#xff0c;其中把事务的隔离性详细解释一遍 脏读、幻影读、不可重复读 红黑树、二叉树的算法 平常用到哪些集合类&#xff1f;ArrayList和LinkedList区别&#xff1f;HashMap内部数据结构&#xff1f;ConcurrentHashMap分段锁&…

视频问答兴起,多跳问答热度衰退,92篇论文看智能问答的发展趋势

星标/置顶小屋&#xff0c;带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 舒意恒&#xff08;南京大学硕士生&#xff0c;知识图谱方向&#xff09;编 | 北大小才女小轶2019年的时候&#xff0c;舒意恒Y.Shu整理了一份《2019年&#xff0c;智能问答有哪些研究方向&#xff1f;…

论文浅尝 | 知识图谱相关实体搜索

本文转载自公众号&#xff1a;南大Websoft。相关搜索&#xff08;Relevance Search&#xff09;是信息检索中的一个经典问题&#xff0c;相关搜索是指给定一个查询实体&#xff0c;返回与其相关度最高的实体&#xff08;一个类似的问题Similarity Search&#xff0c;一般来说指…

最新美团Java面试题目(共3面)

一面 线程池用过哪些&#xff0c;线程池有哪些参数&#xff0c;然后问我几个常用线程池的用法和实际场景问题。 集合框架的知识&#xff0c;hashmap&#xff0c;ArrayList&#xff0c;LinkedList源码相关知识&#xff0c;基本整个介绍了一遍&#xff0c;与hastable&#xff0c…

PersonGraphDataSet近十万的开放人物关系图谱项目

PersonGraphDataSet PersonGraphDataSet, nearly 10 thousand person2person relationship facts that build from extraction method, which can be applied to person kg search and inference applications。 人物图谱数据集&#xff0c;近十万的人物关系图谱事实数据库&am…

图Graph--寻找二度好友(BFS应用)

社交网络可以用图来表示&#xff08;查阅图的概念&#xff09;。 寻找二度好友&#xff0c;这个问题就非常适合用图的广度优先搜索BFS算法来解决&#xff0c;因为广度优先搜索是层层往外推进的。 首先&#xff0c;遍历与起始顶点最近的一层顶点&#xff0c;也就是用户的一度好…

技术动态 | TechKG:一个面向中文学术领域的大型知识图谱

作者&#xff1a;东北大学-知识图谱研究组 任飞亮TechKG 是一个面向中文、面向学术、多领域的大型知识图谱知识库&#xff0c;知识库由“东北大学-知识图谱研究组”开发完成。和已有知识图谱如 Freebase 或 YAGO 相比&#xff0c;TechKG 具有如下主要特点&#xff1a;1、是一个…

技术总结:图算法、开源工具及其在工业界的应用场景概述

知识图谱本质上是一种图结构&#xff0c;在图内部数据规模大且质量高、外部算力足够的情况下&#xff0c;充分利用好图算法&#xff0c;能够最大程度地发挥出其数据价值。实际上&#xff0c;图&#xff08;Graph&#xff09;是一个常见的数据结构&#xff0c;现实世界中有很多很…

SIGIR2020 | 淘宝提出结合知识图谱与大规模推荐的新框架ATBRG

星标/置顶小屋&#xff0c;带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 江城编 | 夕小瑶今天分享一篇淘宝发表在 SIGIR2020 上的关于知识图谱应用于大规模推荐的论文《ATBRG: Adaptive Target-Behavior Relational Graph Network for Effective Recommendation》&#xff0c…

图Graph--农夫过河问题(BFS/DFS应用)

农夫过河问题&#xff1a; /*** description: 农夫过河问题&#xff08;羊&#xff0c;白菜&#xff0c;狼&#xff09;&#xff0c;一次最多带一个东西过河&#xff0c;* 农夫不在的情况下羊会吃白菜&#xff0c;狼会吃羊&#xff0c;如何平安过河* author…

机器学习之「二分类算法」-----银行营销案例分析

原文地址&#xff1a; <di&#xff1a;https://blog.csdn.net/weixin_44696674/article/details/88231922iv id“article_content” class“article_content clearfix” data-track-view"{“mod”:“popu_307”,“con”:",https://blog.csdn.net/weixin_44696674/…

论文浅尝 | 直译优于翻译?混合语言的知识库问答方法研究

动机作者思考&#xff0c;如果一个人懂多个语言&#xff0c;那么只要他知道某一语言的某个事实&#xff0c;就能以它作为另一语言问题的答案&#xff0c;同时希望证明计算机是否也能做到这一点&#xff0c;并完成混合语言的简单问题知识问答任务&#xff08;Code-Mix Simple Qu…