微软和谷歌的人工智能,在SuperGLUE基准测试中超越了人类

大数据文摘出品

来源:venturebeat

编译:千雪

2019年底,Facebook、纽约大学、华盛顿大学和DeepMind的研究人员联合提出了SuperGLUE,这是人工智能的一个新基准,旨在总结多种语言任务的研究进展。

基于一年前推出的GLUE基准,SuperGLUE包含了一系列更难理解的语言挑战、改进的资源和公开的排行榜。

当SuperGLUE刚被推出时,排行榜上表现最佳的模式和人类表现之间有近20个百分点的差距。但截至1月初,有两个模型:微软的DeBERTa和谷歌的T5 + Meena——已经成为第一个超越人类基线的模型

纽约大学数据科学中心(center for data science)助理教授Sam Bowman表示,这一成就反映了机器学习领域的创新,其中包括自我监督学习,也就是让模型从未标记的数据集中学习,并将其应用于目标任务。“这些数据集反映了一些两年前就免费提供的最难监督的语言理解任务,”他说。

“我们没有理由相信SuperGLUE能够检测到自然语言处理的进一步进展,至少不能完全相信。”

但SuperGLUE测试并不是完美的,也不是一种完整的人类语言能力测试。

在一篇博客文章中,DeBERTa背后的微软团队自己指出,他们的模型“绝不可能”达到人类的自然语言理解智能水平。他们说,这都需要继续研究突破,以及用新的基准来衡量它们及其影响。

SuperGLUE

正如研究人员在介绍SuperGLUE的论文中写的那样,他们的基准是一种简单的、难以博弈的衡量标准,用来衡量通用英语理解技术的进步。它包括八个语言理解任务,这些任务来自于现有的数据,并附有一个性能指标和一个分析工具包。

这些任务是:

布尔问题(BoolQ)要求模型对一篇包含问题答案的维基百科短文作出回应。这些问题来自谷歌用户,他们通过谷歌搜索提交问题。

承诺银行(CommitmentBank,CB)任务,是识别来自《华尔街日报》等文本摘录中包含的假设,并确定该假设是否成立。

似是而非的选择(COPA),提供了一个关于博客和摄影相关百科全书主题的前提语句,模型必须从两个可能的选择中确定因果关系。

多句阅读理解(MultiRC)是一个问答任务,每个例子由一个上下文段落、一个关于该段落的问题和一系列可能的答案组成。模型必须预测哪些答案是正确的,哪些是错误的。

利用常识进行阅读理解推理(ReCoRD),模型可以从CNN和每日邮报的文章选择列表中预测出隐藏的单词和短语。在那些选项中,相同的单词或短语可能会以多种不同的形式表达出来,所有这些都被认为是正确的。

识别文本(RTE)对自然语言模型提出了一个挑战,即鉴定一个文本摘录来自于另一个文本摘录的真实性。

上下文中的词 (WiC)为模型提供了两个文本片段和一个多义词(具有多种含义的词),并要求模型确定在两个句子中该词是否具有相同的意思。

Winograd Schema Challenge (WSC),在这个任务中,会给定一些小说中的段落,模型必须回答关于歧义代词的先行词的多项选择题,它是为了改进图灵测试而设计的。

SuperGLUE还试图用带有Winogender的模型来衡量性别偏见。Winogender是指仅因句子中一个代词的性别而内容不同的句子对。然而,研究人员注意到这种方法有局限性,因为它只提供了积极的预测价值:虽然偏差分数低是模型表现出性别偏见的明显证据,但好的分数并不意味着模型没有偏见。此外,它并不包括所有形式的性别或社会偏见,这导致它只是一个粗糙的偏见衡量标准。

为了建立人类表现基线,研究人员借鉴了WiC、MultiRC、RTE和ReCoRD的现有文献,并通过亚马逊的Mechanical Turk平台聘请了crowdwork注释员。每个工人的平均工资是每小时23.75美元,他们先进行了一个简短的培训,然后用说明书和FAQ(常见问题)页面对选定的测试集注释了多达30个样本。

实施改进

谷歌团队没有详细说明是什么改进导致了他们的模型在SuperGLUE上创纪录的表现,但DeBERTa的微软研究人员在今天早上发表的一篇博客文章中详细说明了他们的工作。DeBERTa并不是全新的——它去年开源过——但是研究人员说他们训练了一个包含15亿个参数(模型用来做预测的内部变量)的更大版本。它将以开源的形式发布,并集成到下一个版本的微软图灵自然语言表示模型中,该模型支持Bing、Office、Dynamics和Azure认知服务等产品。

DeBERTa通过蒙面语言建模(MLM)进行预训练,这是一项填空任务,在这项任务中,会教导模型使用蒙面“标记”周围的单词来预测蒙面单词应该是什么。DeBERTa同时使用了上下文词的内容和位置信息,因此它能够识别句子中的“商店”和“商场”。例如“在新商场旁边开了一家新商店”,它能够识别出“商场”和“商店”这两个扮演的不同句法角色。

与其他一些模型不同,DeBERTa解释了单词在语言建模过程中的绝对位置。此外,它还计算模型中转换输入数据的参数,并根据单词的相对位置来度量单词依赖性的强度。例如,DeBERTa会理解“deep”和“learning”两个词相邻出现时的依赖性要比出现在不同的句子中时强得多。

DeBERTa还受益于对抗性训练,这是一种利用对抗性例子的技术,这些例子来源于训练数据的微小变化。在训练过程中,将具有对抗性的例子输入到模型中,提高了模型的可推广性。

微软的研究人员希望下一步继续探索如何使DeBERTa能够概括出新的子任务或基本的解决问题技能,这一概念被称为组合泛化。其中一种方法可能是更明确地结合所谓的组合结构,这就可能需要将人工智能与符号推理结合起来——换句话说,根据数学和逻辑规则来操纵符号和表达式。

微软研究人员写道:“DeBERTa在SuperGLUE上超越人类的表现,标志着通用人工智能的一个重要里程碑。但与DeBERTa不同的是,人类非常善于利用从不同任务中学到的知识来解决一项新任务,而不需要或很少需要特定任务的演示。”

新基准

Bowman说,目前还没有能接替SuperGLUE的新基准。但人工智能研究领域的共识是,未来的基准,特别是语言领域的基准,如果要有用,就必须考虑更广泛的道德、技术和社会挑战。

例如,许多研究表明,流行的基准在评估现实世界的AI性能方面表现不佳。最近一份报告发现,自然语言处理模型给出的答案中有60%-70%嵌入到基准训练集中,这表明模型通常只是简单地记忆答案。另一项对3000多篇人工智能论文的元分析研究发现,用于衡量人工智能和机器学习模型的指标往往不一致,跟踪不规则,信息量也不是特别大。

问题的部分原因在于,OpenAI的GPT-3、谷歌的T5 + Meena和微软的DeBERTa等语言模型,都通过内化公共网络上的例子来学习编写类似人类的文本。而借助电子书、维基百科(Wikipedia)和Reddit等社交媒体平台,他们可以推断出完整的句子,甚至整个段落。

因此,语言模型往往会放大这些公共数据中的偏见;部分培训数据通常来自普遍存在性别、种族和宗教偏见的社区。人工智能研究公司OpenAI指出,这可能导致一些露骨下流的词被放在女性代词附近,“伊斯兰教”被放在“恐怖主义”的附近。其他研究,如英特尔、麻省理工学院和加拿大人工智能倡议CIFAR研究人员在今年4月发表的一项研究,已经发现来自一些最流行模型的高度刻板偏见,包括谷歌的BERT和XLNet、OpenAI的GPT-2,还有Facebook的RoBERTa。米德尔伯里国际问题研究所(Middlebury Institute of International Studies)认为,这种偏见可能会被恶意行为者利用,通过传播错误信息和彻头彻尾的谎言来煽动不和谐,从而使个人变得激进,形成暴力的极右极端主义意识形态和行为。

大多数现有的语言基准测试都无法捕捉到这一点。在SuperGLUE问世两年来的研究结果的推动下,也许未来的研究会更进一步。

相关报道:

https://venturebeat.com/2021/01/06/ai-models-from-microsoft-and-google-already-surpass-human-performance-on-the-superglue-language-benchmark/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/485638.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[leetcode]从中序与后序/前序遍历序列构造二叉树

从中序与后序遍历序列构造二叉树 根据一棵树的中序遍历与后序遍历构造二叉树。 注意: 你可以假设树中没有重复的元素。 例如,给出 中序遍历 inorder [9,3,15,20,7] 后序遍历 postorder [9,15,7,20,3] 返回如下的二叉树: 3/ \9 20/ \15 7 思路&…

Leetcode--56. 合并区间

给出一个区间的集合,请合并所有重叠的区间。 示例 1: 输入: [[1,3],[2,6],[8,10],[15,18]] 输出: [[1,6],[8,10],[15,18]] 解释: 区间 [1,3] 和 [2,6] 重叠, 将它们合并为 [1,6]. 示例 2: 输入: [[1,4],[4,5]] 输出: [[1,5]] 解释: 区间 [1,4] 和 [4,5] 可被视为…

oracle课程设计摘要,Oracle程序设计课程设计概要(doc 35页)

Oracle程序设计课程设计概要目录:《Oracle数据库应用与开发实例教程》是学习数据库技术的高级阶段课程,读者应该在选择学习《数据库应用基础实例教程》、《Access2003数据库实用教程》、《SQL Server 数据库应用基础与实现》和《SQL Server2005 实例教程…

2020年度中国生命科学十大进展公布 | 中国科协生命科学学会联合体

来源:中国科协生命科学学会联合体本年度的评选,联合体成员学会推荐的项目较往年数量明显增加,体现了“中国生命科学十大进展”评选日臻完善,社会影响力与关注度不断扩大;获奖项目中非院士主导项目所占比例较往年大&…

springmvc log4j配置

1. web.xml <!-- 加载Log4J 配置文件 --> <context-param> <param-name>log4jConfigLocation</param-name> <param-value>WEB-INF/conf/log4j.properties</param-value> </context-param> <context-param> <pa…

debian php安装pdo扩展,在debian下为PHP5.0.3安装pdo模块

pdo作为下一个php的数据库统一接口&#xff0c;目前的版本是0.9&#xff0c;看来不久就可以release了&#xff0c;抢先尝鲜。经过测试&#xff0c;pdo联结比adodb快3倍左右&#xff0c;和直接联结相差很小。测试工具&#xff1a;AB测试条件Apache/2.0.54 (Debian GNU/Linux) mo…

Leetcode--238. 除自身以外数组的乘积

给定长度为 n 的整数数组 nums&#xff0c;其中 n > 1&#xff0c;返回输出数组 output &#xff0c;其中 output[i] 等于 nums 中除 nums[i] 之外其余各元素的乘积。 示例: 输入: [1,2,3,4] 输出: [24,12,8,6] 说明: 请不要使用除法&#xff0c;且在 O(n) 时间复杂度内完…

百度研究院发布2021年十大科技趋势预测

来源&#xff1a;百度智能云作者&#xff1a;刘瑾疫情加速 AI 融合落地AI 将更加深入大众生活2020年&#xff0c;全球抗疫促使 AI 与 5G、大数据、物联网等新一代信息技术相互融合&#xff0c;AI 测温、AI 问诊、智能外呼、服务机器人等创新应用开始大规模普及&#xff0c;从生…

oracle的删除的row如何,Oracle 删除大表中部分数据

需求&#xff1a;项目中有一张表大概有7000多万条数据&#xff0c;造成表空间已满&#xff0c;需要清理部分数据&#xff0c;打算清理3000万。2B 做法&#xff1a;delete from table_name where ID > 40000000;备注&#xff1a;select count(1) from table_name where ID &g…

promise请求数据用法

promise请求数据用法 Promise简介 Promise 是异步编程的一种解决方案&#xff0c;比传统的解决方案–回调函数和事件&#xff0d;&#xff0d;更合理和更强大。ES6将其写进了语言标准&#xff0c;统一了语法&#xff0c;里面保存着某个未来才回结束的事件(通常是一个异步操作&a…

jsp出现The import Xxx type is not resolved...

尝试解决步骤&#xff1a; 1.可能是jdk&#xff0c;tomcat版本问题 方法&#xff1a;右键项目&#xff0c;build path->Configure Build Path java bulid path中的libraries若报错&#xff0c;出现红色x&#xff0c;点击它&#xff0c;remove&#xff0c;之后点击Add lib…

欧阳自远:有个性的嫦娥12345,如何不重复美国探月路?

来源&#xff1a;澎湃新闻 作者&#xff1a;虞涵棋“很多事情人家都做过了&#xff0c;中国也不得不做&#xff0c;唯一的要求就是一定要比别人做的好。但总有一两样没人没干过的事&#xff0c;中国一定要干。”1月13日&#xff0c;中国月球探测工程首席科学家、中科院院士欧阳…

linux安装DNS服务命令,Linux下的安装和配置DNS服务器

Linux下的安装和配置DNS服务器发布时间&#xff1a;2008-09-08 17:03:00 作者&#xff1a;佚名 我要评论在Linux操作系统中使用BIND (Berkeley Internet Name Daemon)作为DNS服务器&#xff0c;以下以Linux 的Redhat 7.3发行版本为例&#xff0c;介绍BIND安装、启动和停止…

【转】java反射--注解

【译】8. Java反射——注解 原博地址&#xff1a;https://www.cnblogs.com/penghongwei/p/3300087.html翻译原文地址&#xff1a;http://tutorials.jenkov.com/java-reflection/annotations.html 使用Java反射机制&#xff0c;在运行时你可以访问到Java类中所附属的一些注解。…

多核之后,CPU 的发展方向是什么?中科院计算所包云岗详细解读

来源&#xff1a;知乎作者&#xff1a;包云岗包云岗&#xff0c;中国科学院计算技术研究所研究员、博士生导师、中国科学院大学教授&#xff0c;中国开放指令生态&#xff08;RISC-V&#xff09;联盟秘书长&#xff0c;从事计算机体系结构和开源芯片方向前沿研究&#xff0c;主…

jsp--JavaBean

Java最好和jsp的代码分开写 但是jsp中会有很多内置对象&#xff0c;例如response 涉及到内置对象的代码在Java中自然是错误的&#xff0c;那么该怎么办&#xff1f; 可以将需要调用的Java方法设置几个参数&#xff0c;jsp将内置对象作为参数传过去 Javabean作用&#xff0c;…

weblogic作为linux服务器,weblogic在linux服务器上部署应用

SSH软件连接服务器&#xff1a;服务器地址&#xff1a;xxx.xxx.xxx.40用户名&#xff1a;xxxx密码&#xff1a;xxxx新建文件夹&#xff0c;用来放新代码版本&#xff0c;后面为代码版本号路径&#xff1a;/home/weblogic命令&#xff1a;mkdir wzgcyth_xxxx部署war包拖拽war到路…

几乎无解的最强加密方法,终于被证实真的存在

来源&#xff1a;数学中国图片来源&#xff1a;Kiel Mutschelknaus for Quanta Magazine2018年&#xff0c;加州大学洛杉矶分校的研究生Ayush Jain前往日本&#xff0c;就他和同事正在开发的强大加密算法进行交流。当他讲述团队正在尝试实现不可区分混淆&#xff08;indistingu…

css3布局篇(双飞翼)

大家看到好多电商网站都见过经典三列布局&#xff0c;它也叫做圣杯布局 &#xff0c;是Kevin Cornell在2006年提出的一个布局模型概念&#xff0c;这个在国内最早是由淘宝UED的工程师传播开来&#xff0c;在中国也有叫法是双飞翼布局&#xff0c;它的布局要求有以下的几点&…

tomcat linux环境变量,linux系统为什么需要配置tomcat环境变量

满意答案展开全部 5.JDK安装tar.gz为解压后就可使用的版本&#xff0c;这里我们将jdk-7-ea-bin-b145-linux-i586-07_jun_2011.tar.gz解压到/usr/local下。5.1解压解压到当前目录&#xff1a;$ tar -zxvf /opt/setup/jdk-7-ea-bin-b145-linux-i586-07_jun_2011.tar.gz5.2环境配置…