bert 多义词_BERT之后,GLUE基准升级为SuperGLUE:难度更大

选自Medium

作者:Alex Wang等

机器之心编译

参与:Panda

BERT 等模型的进展已让 GLUE 基准在新模型的评估方面日渐乏力,为推动 NLP 技术的进一步发展,有必要对 GLUE 指标进行更新。为此,纽约大学、Facebook 人工智能研究所、华盛顿大学和剑桥大学的多名研究者联合整理发布了 SuperGLUE 基准,其中保留了两项 GLUE 任务,另外又加入了其它五项新任务。相关工具包和数据集将于五月初发布。

  • GLUE 基准与 SuperGLUE 发布地址:https://gluebenchmark.com

  • 论文:https://w4ngatang.github.io/static/papers/superglue.pdf

过去一年来,机器学习模型在 NLP 领域很多语言理解任务上的表现都获得了极大提升。Elmo、BERT、ALICE、之前被称为 BigBird 的模型(现在叫做 MT-DNN)都取得了显著进展,OpenAI GPT 也有一种非常有效的方案,即将用简单的多任务在大量文本数据集上预训练的语言建模方法与将所得模型适应到下游应用的迁移学习技术结合起来。

一年前发布的 GLUE 是用于评估这些方案的一套基准和工具包。GLUE 是九种(英语)语言理解任务的集合,包括文本蕴涵、情感分析和语法判断等。其设计目的是覆盖足够大的 NLP 领域,以使得只有开发出足够通用的工具,才能在这一基准上表现良好;这样也有助于解决未来可能新遇到的语言理解问题。

基于 GLUE 基准的进展

在 GLUE 基准上表现最佳的模型已经非常接近人类在这些任务上的水平:

b63df915546ffe2b03f5089f4db9f5c5.png

不同模型相对于人类水平的 GLUE 进展。Y 轴是相对于人类水平的表现。

随着 GPT 和 BERT 的出现,模型水平大幅提升;而且随着研究者持续开发更好的算法以将 BERT 用于其它任务,模型的表现正在稳步追赶人类水平。在三个 GLUE 任务(QNLI、 MRPC 和 QQP)上,最佳的模型已经超过了人类基准,但这并不意味着机器已掌握英语。比如,WNLI 任务涉及到确定一个句子「John couldn』t fit the trophy in the suitcase because it was too big.(约翰没法把奖杯放进箱子,因为它太大了。)」究竟是指「奖杯太大」还是「箱子太大」。人类可以完美地解决这一任务,而机器的表现还和随机乱猜差不多。

在创造能够理解自然语言的机器之路上,我们显然还有很大的进步空间,但 GLUE 在进一步发展的道路上已不适合作为评估基准了。

进入 SuperGLUE 时代

21a60564cbcd9bc123dfc81b84b12848.png

吉祥物的诞生,来自 Nikita Nangia

SuperGLUE 与 GLUE 类似,是一个用于评估通用 NLP 模型的基准,同样也基于在多种不同语言理解任务集上的评估。

为了发现新的挑战性任务集,SuperGLUE 提出者向更广泛的 NLP 社区发起了任务提议征集,得到了一个包含约 30 种不同 NLP 任务的列表。在选择 SuperGLUE 的任务时,提出者考虑了多项设计原则,包括必须涉及到语言理解、这些任务还无法通过已有的方法解决、存在公开的训练数据、任务格式以及证书。经过验证,最终得到了一个包含七个任务的集合。

革新之处

SuperGLUE 遵照了 GLUE 的基本设计:包含一个围绕这七个语言理解任务构建的公开排行榜、基于已有数据的抽取、一个单个数值的表现指标和一套分析工具包。

SuperGLUE 与 GLUE 也有很多差异:

  • SuperGLUE 仅保留了 GLUE 九项任务中的两项(其中一项还经过修改),还引入了五个难度更大的新任务。这些任务的选择标准包括为了实现难度和多样性的最大化。

  • 初始的 SuperGLUE 基准版本即包含了人类水平估计结果。在 SuperGLUE 中这些被选中的任务上,基于 BERT 的强基线与人类水平之间还存在显著的差距。

  • 任务格式(API)的集合在 GLUE 中的句子和句子对分类上进行了扩展,SuperGLUE 另外还包含共指消解、句子完成和问答。

  • 为了促使研究者针对这种多样性的任务集合开发统一的新方法,与 SuperGLUE 一起发布的还有一套用于操作 NLP 的预训练、多任务学习和迁移学习的模块化建模工具包。这套工具包基于 PyTorch 和 AllenNLP。

  • 管理 SuperGLUE 排行榜的规则有多个地方不同于 GLUE 排行榜的管理规则,这些变化都是为了确保该排行榜竞争公平、信息丰富,并能充分体现数据和任务创建者的贡献。

SuperGLUE 与 GLUE 的两项共同任务是:识别文本蕴涵(RTE)和 Winograd 模式挑战赛(WSC)。此外,SuperGLUE 还添加了测试模型问答、执行共指消解和执行常识推理能力的任务。下表给出了 SuperGLUE 包含的任务:

8bee60743b36a34551e892cc9bba6a53.png

SuperGLUE 包含的任务。WSD 是词义消岐、NLI 是自然语言推理、coref. 是共指消解、SC 是句子完成、QA 是问答。其中,MultiRC 列出了 456/83/166 个 train/dev/test 问题的总答案数。

下面对这些任务进行更详细的说明和示例介绍:

CB:CommitmentBank(De Marneffe et al., 2019)是一个短文本语料库,其中至少有一个句子包含一个嵌入从句。其中每个嵌入从句都标注了该从句的预期的真实性程度。所得到的任务框架是三类文本蕴涵(three-class textual entailment),其样本来自《华尔街日报(Wall Street Journal)》、英国国家语料库(British National Corpus)的小说、Switchboard。每个样本都包含一个含有一个嵌入从句的前提(premise),对应的假设(hypothesis)则是该从句的提取。SuperCLUE 使用了该数据集的一个子集,该子集中注释之间的一致程度超过 0.85。这些数据不很平衡(中性样本相对较少),所以评估指标是准确度和 F1 分数,其中多类 F1 分数是每类 F1 分数的不加权的平均值。

09c835f9008506fa8c09a3f334cceac2.png

COPA:Choice Of Plausible Alternatives(Roemmele et al., 2011)数据集代表了一项因果推理任务,其会向系统提供一个前提句子和两个可能的可选项。系统必须选择与前提句子有更可信因果关系的可选项。用于构建可选项的方法要确保需要因果推理才能解决该任务。样本要么针对前提句子的可能原因,要么则是可能结果,再加上模型的两个实例类型之间的简单问题消岐。所有的样本都是人工设计的,关注的主题有网络博客和与摄影相关的百科内容。根据 COPA 作者的建议,SuperCLUE 使用准确度作为评估指标。

77cfbc9c5cd7592831f3989382b65c5f.png

GAP:Gendered Ambiguous Pronoun Coreference(Webster et al., 2018)是一个性别方面平衡的语料库,其测试的是识别有歧义代词的指代目标的能力。给定一个句子、该句子中的一个特定代词以及该句子中的两个名词短语,任务目标是预测哪个名词短语(或两者同时)与那个代词共指。SuperCLUE 将其中公开可用的开发集用于训练,公开可用的测试集用于验证,另外 GAP 作者还提供了一个私有的测试集。评估指标为 F1 分数和偏见(bias),即在测试样本的男性代词和女性代词子集上的 F1 分数的比值。

2cd03a21e1d3242a8ec23fad34225cc5.png

MultiRC:Multi-Sentence Reading Comprehension 数据集(Khashabi et al., 2018)代表了一项真假问答任务。每个样本都包含一个上下文段落、一个有关该段落的问题和一个该问题的可能答案的列表,这些答案必须标注了「真(true)」或「假(false)」。问答是很常见的问题,有很多数据集。这里选择 MultiRC 的原因包括:(1)每个问题都可以有多个可能的正确答案,所以每个问答对都必须独立于其它问答对进行评估;(2)问题的设计方式使得每个问题的解答都需要从多个上下文句子中提取事实;(3)相比于基于范围的抽取型问答,这个数据集的问答对格式更匹配其它 SuperGLUE 任务的 API。这些段落取自七个领域,包括新闻、小说和历史文本。评估指标是每个问题的正确答案集的 macro-average F1 分数(F1m)和在所有答案选项上的 binary F1 分数(F1a)。

c9407a56767609d2378624c9b78be207.png

RTE:Recognizing Textual Entailment 数据集来自一系列文本蕴涵方面的年度竞赛。文本蕴涵任务是要预测给定的前提句子是否蕴涵给定的假设句子(也称为自然语言推理/NLI)。GLUE 之前就已包含 RTE。SuperGLUE 使用了一样的数据和格式:融合了来自 RTE1 (Dagan et al., 2006)、 RTE2 (Bar Haim et al., 2006)、RTE3 (Giampiccolo et al., 2007) 和 RTE5 (Bentivogli et al., 2009) 的数据。所有数据集经过组合,并被转换成了两类分类问题:entailment 和 not_entailment。相比于其它 GLUE 任务,RTE 是从迁移学习获益最多的任务,准确度表现水平从 GLUE 发布时的接近随机(约 56%)提升至了目前的 85%,但这一表现与人类水平仍有 8 个百分点的差距,所以还值得进一步研究探索。

e6317e6ce1dcfdf5c0b98ecccad6ca05.png 

WiC:Word-in-Context(Pilehvar and Camacho-Collados, 2019)数据集针对的是词义消岐任务,该任务被设定成了在句子对上的二元分类问题。给定两个句子和一个出现在这两个句子中的多义词(歧义词),任务目标是决定该词在这两个句子中是否含义相同。数据集中句子取自 WordNet (Miller, 1995)、VerbNet (Schuler, 2005) 和维基百科。这项任务的评估指标是准确度。

97cca31cf68f3c70fe04bdf3423394ad.png

WSC:Winograd Schema Challenge(Levesque et al., 2012)是一个阅读理解任务,其中系统必须阅读一个带有一个代词的句子,并从一个选项列表中选择该代词所代指的目标。GLUE 中就已包含 WSC 任务,这个任务难度颇大,仍有很大的进步空间。SuperGLUE 中的 WSC 数据集被重新设定成了其共指形式,任务则被设定成了一个二元分类问题,而不再是 N 项多选题;这样做的目的是单独验证模型理解句子中共指链接的能力,而不会涉及到多选题环境中可能用到的其它策略。

9a635d7240ad69ff64130b11014cf22b.png

综合以上各项任务,SuperGLUE 基准也设置了一个总体评估指标:SuperGLUE 分数。该分数即是在以上所有任务上所得分数的平均。对于 Commitment Bank 和 MultiRC,会首先先取该任务在各项指标上的平均,比如对于 MultiRC,会首先先平均 F1m 和 F1a,之后在整体平均时将所得结果作为单个数值纳入计算。另外,GAP 的偏见(bias)分数不会纳入 SuperGLUE 分数的计算;原因是在性别平衡的 GAP 上训练的大多数系统在偏见分数上都表现良好。

模型基准与人类水平

SuperGLUE 提出者已经提供了在其中七项任务上的基准结果,这些结果是使用基于 BERT 的方法得到的,因为 BERT 在 GLUE 上是当前最成功的方法。具体而言,基准结果来自 BERT-LARGE-CASED variant.11,遵照了 Devlin et al. (2019) 的标准实践方法。对于每个任务,所选择的架构都是基于 BERT 的尽可能最简单的架构。下表给出了得到的基准结果:

f13cfe68bce81dd7d5dbd371e92b458e.png

在 SuperGLUE 各项任务的测试集上得到的初步基准结果,加粗数值是机器在该任务上的当前最佳水平;最后一行是估计的人类水平。

可以看到,最佳的预训练基准结果仍大幅落后于人类水平。平均而言,BERT++ 的结果与人类水平相差 16.8;其中在 WSC 上差距最大,为 27.5,而人类在这一任务上表现完美。期待未来的新思路和新方法进一步减小这些差距,甚至解决这些任务。

原文链接:https://medium.com/@wang.alex.c/introducing-superglue-a-new-hope-against-muppetkind-2779fd9dcdd5

本文为机器之心编译,转载请联系本公众号获得授权

✄------------------------------------------------

加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com

投稿或寻求报道:content@jiqizhixin.com

广告 & 商务合作:bd@jiqizhixin.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/489336.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

thread.sleep是让哪个线程休眠_Java多线程:多线程基础知识

点击上方☝SpringForAll社区 轻松关注!及时获取有趣有料的技术文章本文来源:https://www.cnblogs.com/ITtangtang/p/7602363.html一、线程安全性定义:多个线程之间的操作无论采用何种执行时序或交替方式,都要保证不变性条件不被破…

整个领域没了!学术界有史以来最大的丑闻

来源:中大科技处10月15日,学术界发生了一件大事。哈佛终身教授学术造假,31篇文献被撤,无数研究化为泡影……哈佛一次性从各类顶尖期刊上撤稿了31篇论文,整个心肌干细胞相关的研究被认定为“从一开始就基于欺诈性数据”…

thinkPHP-空操作

空操作 当访问的方法不存在时&#xff0c;可以定义一个empty方法来避免空操作 function _empty(){echo "网页不存在&#xff0c;请检查地址信息";} 这样当访问不存在的方法时就会显示以上信息 当访问的控制器不存在时&#xff0c;可以定义一个空操作器 <?php nam…

python3 面向对象_Python3 面向对象

Python和C都是一门面向对象的语言&#xff0c; 面向对象技术简介 类(Class):用来描述具有相同的属性和方法的对象的集合。它定义了该集合中每个对象所共有的属性和方法。对象是类的实例。比如 f file()##创建了一个类(file())的对象f 类变量&#xff1a;类变量在整个实例的对象…

口腔ct重建服务器原理,牙科CT是什么?牙科CT的原理及优势介绍

原标题&#xff1a;牙科CT是什么&#xff1f;牙科CT的原理及优势介绍牙科CT是什么&#xff1f;牙科CT&#xff0c;又称口腔CT&#xff0c;是一种新型牙科类仪器&#xff0c;它可以从三维角度对口腔部组织情况进行扫描检查。牙科CT在业界被誉为神奇的“慧眼”&#xff0c;它犹如…

机器学习奠基人Michael Jordan:下代技术是融合经济学,解读2项重要进展

来源&#xff1a; 北京智源人工智能研究院2019年11月1日北京智源大会全体大会及闭幕式上&#xff0c;被誉为“机器学习之父”的加州大学伯克利教授、智源研究院学术顾问委员会委员 Michael I.Jordan 做了题为《决策与情境&#xff1a;基于梯度的博弈均衡求解方法》&#xff08;…

matlab 带有下标的赋值维度不匹配_远见另类资产管理体系下的核心系统搭建

另类资产管理体系下的信息化建设&#xff0c;或许是小众领域中的更小众话题&#xff0c;但仍值得讨论。很多基金公司、投资公司或资产管理公司都搭建了各种大大小小的应用系统&#xff0c;如OA系统、财务系统、CRM系统等&#xff0c;但对于上系统的价值&#xff0c;不仅很难量化…

cfree运行程序错误的原因_Python入门教程 | 第 8 章 错误、调试和测试

第八章 错误、调试和测试在程序运行过程中&#xff0c;总会遇到各种各样的错误。有的错误是程序编写有问题造成的&#xff0c;比如本来应该输出整数结果输出了字符串&#xff0c;这种错误我们通常称之为bug&#xff0c;bug是必须修复的。有的错误是用户输入造成的&#xff0c;比…

我的世界服务器物品id错误,我的世界错误代码,怎么弄

我的世界错误代码&#xff0c;怎么弄0xu1125yuan2017.07.24浏览323次分享举报1.Minecraft:[16:05:37][Clientthread/FATAL][NotEnoughItemsFingerprintVerification]:ThefingerprintformodNotEnoughItemsisinvalid!Expected:f1850c39b2516232a2108a7bd84d1cb5df9... 1.Minecraf…

今日头条CEO朱文佳:新一代搜索引擎已经来了

来源&#xff1a;今日头条11月27日&#xff0c;今日头条CEO朱文佳在36kr wise大会上谈及头条搜索。在他看来&#xff0c;要做好搜索&#xff0c;有三件事最重要。首先是技术&#xff0c;技术决定搜索的体验&#xff1b;其次是内容&#xff0c;内容是搜索的根本&#xff1b;最后…

串口打印怎么使用】_爱普生打印机怎么使用 爱普生打印机使用方法【详解】...

市面上的打印机品牌有很多&#xff0c;其中就有爱普生打印机&#xff0c;这个品牌的打印机是在上个世纪的四十年代成立的&#xff0c;并且爱普生这款打印机逐渐深入我们的生活&#xff0c;一般我们很多都会使用爱普生打印机来打印资料或者是下载各种工作材料&#xff0c;那么你…

日益谨慎的谷歌AI,会在自我限制中越走越慢吗?

来源&#xff1a;wired为了防止技术被滥用&#xff0c;谷歌对新推出的人脸识别服务进行了限制&#xff0c;但这种限制有时候反而会让竞争对手抢得市场先机。谷歌之所以成为今天的谷歌&#xff0c;是因为它不断创造先进的新技术&#xff0c;并将这些技术向所有人开放。大型企业和…

用jsp实现右导航窗格_手机导航如何投放到汽车中控屏?建议用这2种办法,轻松实现同屏...

对于我们许多的司机来说&#xff0c;虽然车上有车载导航&#xff0c;但是出于个人习惯&#xff0c;我们很多人还是习惯用手机导航&#xff0c;由于手机导航它的定位较为精准&#xff0c;而且使用起来比较方便&#xff0c;所以说更受司机朋友的青睐&#xff0c;但是有一个毛病就…

MFC编程入门之十五(对话框:一般属性页对话框的创建及显示)

属性页对话框包括向导对话框和一般属性页对话框两类&#xff0c;上一节讲了如何创建并显示向导对话框&#xff0c;本节将继续介绍一般属性页对话框的创建和显示。 实际上&#xff0c;一般属性页对话框的创建和显示过程和向导对话框是很类似的。将上一节中的向导对话框进行少量修…

javascript 等待指定时间_javascript的单线程和任务队列

一、JavaScript为什么设计为单线程&#xff1f;JavaScript语言的一大特点就是单线程&#xff0c;换言之就是同一个时间只能做一件事。其他任务都必须在后面排队等待。for(var i 0; i < 5; i) {console.log(i); } console.log(end);上面的代码&#xff0c;只有for循环执行完…

2019年云计算行业深度报告

来源&#xff1a;西部证券 导语 根据 Gartner 数据 2018 年全球公有云市场规模达到 1392 亿美元&#xff0c;2015 年至 2018 年复合增长 28.24%&#xff0c;预计 2021 年规模将达到 2461 亿美元。 一、云计算蓬勃发展&#xff0c;驱动数据中心基础设施采购 1.1 云计算蓬勃发展&…

dataframe 一列的不同值_pandas | 详解DataFrame中的apply与applymap方法

点击上方蓝字&#xff0c;关注并星标&#xff0c;和我一起学技术。今天是pandas数据处理专题的第5篇文章&#xff0c;我们来聊聊pandas的一些高级运算。在上一篇文章当中&#xff0c;我们介绍了panads的一些计算方法&#xff0c;比如两个dataframe的四则运算&#xff0c;以及da…

https访问http加载不出图片_前端解决第三方图片防盗链的办法

作者&#xff1a;biaochenxuying转发链接&#xff1a;https://github.com/biaochenxuying/blog/issues/31问题笔者网站的图片都是上传到第三方网站上的&#xff0c;比如 简书、掘金、七牛云上的&#xff0c;但是最近简书和掘金都开启了 防盗链&#xff0c;防止其他网站访问他们…

java spring boot 注解验证_如何理解Java原生注解和Spring 各种注解?

作者&#xff1a;digdeep.cnblogs.com/digdeep/p/4525567.html导引Spring中的注解大概可以分为两大类&#xff1a;spring的bean容器相关的注解&#xff0c;或者说bean工厂相关的注解&#xff1b;springmvc相关的注解。spring的bean容器相关的注解有&#xff1a;Required&#x…