微软和谷歌的人工智能,在SuperGLUE基准测试中超越了人类

大数据文摘出品

来源:venturebeat

编译:千雪

2019年底,Facebook、纽约大学、华盛顿大学和DeepMind的研究人员联合提出了SuperGLUE,这是人工智能的一个新基准,旨在总结多种语言任务的研究进展。

基于一年前推出的GLUE基准,SuperGLUE包含了一系列更难理解的语言挑战、改进的资源和公开的排行榜。

当SuperGLUE刚被推出时,排行榜上表现最佳的模式和人类表现之间有近20个百分点的差距。但截至1月初,有两个模型:微软的DeBERTa和谷歌的T5 + Meena——已经成为第一个超越人类基线的模型

纽约大学数据科学中心(center for data science)助理教授Sam Bowman表示,这一成就反映了机器学习领域的创新,其中包括自我监督学习,也就是让模型从未标记的数据集中学习,并将其应用于目标任务。“这些数据集反映了一些两年前就免费提供的最难监督的语言理解任务,”他说。

“我们没有理由相信SuperGLUE能够检测到自然语言处理的进一步进展,至少不能完全相信。”

但SuperGLUE测试并不是完美的,也不是一种完整的人类语言能力测试。

在一篇博客文章中,DeBERTa背后的微软团队自己指出,他们的模型“绝不可能”达到人类的自然语言理解智能水平。他们说,这都需要继续研究突破,以及用新的基准来衡量它们及其影响。

SuperGLUE

正如研究人员在介绍SuperGLUE的论文中写的那样,他们的基准是一种简单的、难以博弈的衡量标准,用来衡量通用英语理解技术的进步。它包括八个语言理解任务,这些任务来自于现有的数据,并附有一个性能指标和一个分析工具包。

这些任务是:

布尔问题(BoolQ)要求模型对一篇包含问题答案的维基百科短文作出回应。这些问题来自谷歌用户,他们通过谷歌搜索提交问题。

承诺银行(CommitmentBank,CB)任务,是识别来自《华尔街日报》等文本摘录中包含的假设,并确定该假设是否成立。

似是而非的选择(COPA),提供了一个关于博客和摄影相关百科全书主题的前提语句,模型必须从两个可能的选择中确定因果关系。

多句阅读理解(MultiRC)是一个问答任务,每个例子由一个上下文段落、一个关于该段落的问题和一系列可能的答案组成。模型必须预测哪些答案是正确的,哪些是错误的。

利用常识进行阅读理解推理(ReCoRD),模型可以从CNN和每日邮报的文章选择列表中预测出隐藏的单词和短语。在那些选项中,相同的单词或短语可能会以多种不同的形式表达出来,所有这些都被认为是正确的。

识别文本(RTE)对自然语言模型提出了一个挑战,即鉴定一个文本摘录来自于另一个文本摘录的真实性。

上下文中的词 (WiC)为模型提供了两个文本片段和一个多义词(具有多种含义的词),并要求模型确定在两个句子中该词是否具有相同的意思。

Winograd Schema Challenge (WSC),在这个任务中,会给定一些小说中的段落,模型必须回答关于歧义代词的先行词的多项选择题,它是为了改进图灵测试而设计的。

SuperGLUE还试图用带有Winogender的模型来衡量性别偏见。Winogender是指仅因句子中一个代词的性别而内容不同的句子对。然而,研究人员注意到这种方法有局限性,因为它只提供了积极的预测价值:虽然偏差分数低是模型表现出性别偏见的明显证据,但好的分数并不意味着模型没有偏见。此外,它并不包括所有形式的性别或社会偏见,这导致它只是一个粗糙的偏见衡量标准。

为了建立人类表现基线,研究人员借鉴了WiC、MultiRC、RTE和ReCoRD的现有文献,并通过亚马逊的Mechanical Turk平台聘请了crowdwork注释员。每个工人的平均工资是每小时23.75美元,他们先进行了一个简短的培训,然后用说明书和FAQ(常见问题)页面对选定的测试集注释了多达30个样本。

实施改进

谷歌团队没有详细说明是什么改进导致了他们的模型在SuperGLUE上创纪录的表现,但DeBERTa的微软研究人员在今天早上发表的一篇博客文章中详细说明了他们的工作。DeBERTa并不是全新的——它去年开源过——但是研究人员说他们训练了一个包含15亿个参数(模型用来做预测的内部变量)的更大版本。它将以开源的形式发布,并集成到下一个版本的微软图灵自然语言表示模型中,该模型支持Bing、Office、Dynamics和Azure认知服务等产品。

DeBERTa通过蒙面语言建模(MLM)进行预训练,这是一项填空任务,在这项任务中,会教导模型使用蒙面“标记”周围的单词来预测蒙面单词应该是什么。DeBERTa同时使用了上下文词的内容和位置信息,因此它能够识别句子中的“商店”和“商场”。例如“在新商场旁边开了一家新商店”,它能够识别出“商场”和“商店”这两个扮演的不同句法角色。

与其他一些模型不同,DeBERTa解释了单词在语言建模过程中的绝对位置。此外,它还计算模型中转换输入数据的参数,并根据单词的相对位置来度量单词依赖性的强度。例如,DeBERTa会理解“deep”和“learning”两个词相邻出现时的依赖性要比出现在不同的句子中时强得多。

DeBERTa还受益于对抗性训练,这是一种利用对抗性例子的技术,这些例子来源于训练数据的微小变化。在训练过程中,将具有对抗性的例子输入到模型中,提高了模型的可推广性。

微软的研究人员希望下一步继续探索如何使DeBERTa能够概括出新的子任务或基本的解决问题技能,这一概念被称为组合泛化。其中一种方法可能是更明确地结合所谓的组合结构,这就可能需要将人工智能与符号推理结合起来——换句话说,根据数学和逻辑规则来操纵符号和表达式。

微软研究人员写道:“DeBERTa在SuperGLUE上超越人类的表现,标志着通用人工智能的一个重要里程碑。但与DeBERTa不同的是,人类非常善于利用从不同任务中学到的知识来解决一项新任务,而不需要或很少需要特定任务的演示。”

新基准

Bowman说,目前还没有能接替SuperGLUE的新基准。但人工智能研究领域的共识是,未来的基准,特别是语言领域的基准,如果要有用,就必须考虑更广泛的道德、技术和社会挑战。

例如,许多研究表明,流行的基准在评估现实世界的AI性能方面表现不佳。最近一份报告发现,自然语言处理模型给出的答案中有60%-70%嵌入到基准训练集中,这表明模型通常只是简单地记忆答案。另一项对3000多篇人工智能论文的元分析研究发现,用于衡量人工智能和机器学习模型的指标往往不一致,跟踪不规则,信息量也不是特别大。

问题的部分原因在于,OpenAI的GPT-3、谷歌的T5 + Meena和微软的DeBERTa等语言模型,都通过内化公共网络上的例子来学习编写类似人类的文本。而借助电子书、维基百科(Wikipedia)和Reddit等社交媒体平台,他们可以推断出完整的句子,甚至整个段落。

因此,语言模型往往会放大这些公共数据中的偏见;部分培训数据通常来自普遍存在性别、种族和宗教偏见的社区。人工智能研究公司OpenAI指出,这可能导致一些露骨下流的词被放在女性代词附近,“伊斯兰教”被放在“恐怖主义”的附近。其他研究,如英特尔、麻省理工学院和加拿大人工智能倡议CIFAR研究人员在今年4月发表的一项研究,已经发现来自一些最流行模型的高度刻板偏见,包括谷歌的BERT和XLNet、OpenAI的GPT-2,还有Facebook的RoBERTa。米德尔伯里国际问题研究所(Middlebury Institute of International Studies)认为,这种偏见可能会被恶意行为者利用,通过传播错误信息和彻头彻尾的谎言来煽动不和谐,从而使个人变得激进,形成暴力的极右极端主义意识形态和行为。

大多数现有的语言基准测试都无法捕捉到这一点。在SuperGLUE问世两年来的研究结果的推动下,也许未来的研究会更进一步。

相关报道:

https://venturebeat.com/2021/01/06/ai-models-from-microsoft-and-google-already-surpass-human-performance-on-the-superglue-language-benchmark/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/485638.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2020年度中国生命科学十大进展公布 | 中国科协生命科学学会联合体

来源:中国科协生命科学学会联合体本年度的评选,联合体成员学会推荐的项目较往年数量明显增加,体现了“中国生命科学十大进展”评选日臻完善,社会影响力与关注度不断扩大;获奖项目中非院士主导项目所占比例较往年大&…

百度研究院发布2021年十大科技趋势预测

来源:百度智能云作者:刘瑾疫情加速 AI 融合落地AI 将更加深入大众生活2020年,全球抗疫促使 AI 与 5G、大数据、物联网等新一代信息技术相互融合,AI 测温、AI 问诊、智能外呼、服务机器人等创新应用开始大规模普及,从生…

欧阳自远:有个性的嫦娥12345,如何不重复美国探月路?

来源:澎湃新闻 作者:虞涵棋“很多事情人家都做过了,中国也不得不做,唯一的要求就是一定要比别人做的好。但总有一两样没人没干过的事,中国一定要干。”1月13日,中国月球探测工程首席科学家、中科院院士欧阳…

linux安装DNS服务命令,Linux下的安装和配置DNS服务器

Linux下的安装和配置DNS服务器发布时间:2008-09-08 17:03:00 作者:佚名 我要评论在Linux操作系统中使用BIND (Berkeley Internet Name Daemon)作为DNS服务器,以下以Linux 的Redhat 7.3发行版本为例,介绍BIND安装、启动和停止…

【转】java反射--注解

【译】8. Java反射——注解 原博地址:https://www.cnblogs.com/penghongwei/p/3300087.html翻译原文地址:http://tutorials.jenkov.com/java-reflection/annotations.html 使用Java反射机制,在运行时你可以访问到Java类中所附属的一些注解。…

多核之后,CPU 的发展方向是什么?中科院计算所包云岗详细解读

来源:知乎作者:包云岗包云岗,中国科学院计算技术研究所研究员、博士生导师、中国科学院大学教授,中国开放指令生态(RISC-V)联盟秘书长,从事计算机体系结构和开源芯片方向前沿研究,主…

jsp--JavaBean

Java最好和jsp的代码分开写 但是jsp中会有很多内置对象,例如response 涉及到内置对象的代码在Java中自然是错误的,那么该怎么办? 可以将需要调用的Java方法设置几个参数,jsp将内置对象作为参数传过去 Javabean作用,…

weblogic作为linux服务器,weblogic在linux服务器上部署应用

SSH软件连接服务器:服务器地址:xxx.xxx.xxx.40用户名:xxxx密码:xxxx新建文件夹,用来放新代码版本,后面为代码版本号路径:/home/weblogic命令:mkdir wzgcyth_xxxx部署war包拖拽war到路…

几乎无解的最强加密方法,终于被证实真的存在

来源:数学中国图片来源:Kiel Mutschelknaus for Quanta Magazine2018年,加州大学洛杉矶分校的研究生Ayush Jain前往日本,就他和同事正在开发的强大加密算法进行交流。当他讲述团队正在尝试实现不可区分混淆(indistingu…

css3布局篇(双飞翼)

大家看到好多电商网站都见过经典三列布局,它也叫做圣杯布局 ,是Kevin Cornell在2006年提出的一个布局模型概念,这个在国内最早是由淘宝UED的工程师传播开来,在中国也有叫法是双飞翼布局,它的布局要求有以下的几点&…

Servlet介绍

Servlet: Java类必须符合一定的规范: 1.必须继承javax.servlet.http.HttpServlet 2.重写其中的doGet()或doPost()方法 doGet():接受并处理所有get提交方式的请求 doPost():接受并处理所有Post提交方式的请求 Servlet要想使用,必须配置 …

区块链2021狂想曲:迎接以技术为名的春天

来源: 脑极体另一方面,区块链也作为“核心技术自主创新的重要突破口”,进入了探寻自有价值、进入产业化赋能的全新阶段。站在2021年初始,我们不仅想知道在过去一整年里,区块链实际落地应用的情况究竟怎么样。更想尝试回…

RabbitMQ从初学到精通一

今天来学习一下RabbitMQ,从最起初的安装开始学习: 一、RabbitMQ 安装图1 rabbitMQ下载http://www.rabbitmq.com/download.html下载文件rabbitmq-server-mac-standalone-3.7.4.tar.xz注意,这里的文件是xz压缩文件,需要用xz -d rabbitmq-server…

关于自动驾驶, Mobileye 的 14 个最新观点

来源:新智驾作者 :苏珊珊为了在2025年实现消费级别的自动驾驶,Mobileye都做了什么?Mobileye近日在CES 2021展会上进一步分享了其在ADAS及全自动驾驶领域的战略规划,并详细介绍了Mobileye为实现消费级别的全自动驾驶和“…

linux ps进程管理命令,Linux 进程管理命令之ps

这个命令会显示某一时刻系统的进程状态。ps是通过/proc接口,让管理员查看内核进程状态信息。为了响应一切皆文件,进程参数模拟成文件系统类型(文件),参数路径模拟成目录/proc/# 每个进程都有一个进程ID号这个目录里存放的各种进程的状态信息启…

2020年中国智慧城市发展值得关注的技术

文章来源:Gartner图片来源:网络每年Gartner发布的技术成熟度曲线(The Hype Cycle)报告都备受市场瞩目,也成为政府及企业做出重大投资决策的风向标。其原因在于,它不仅能够让CIO了解到年度最备受瞩目和极具商…

腾讯研究院发布《2021数字科技前沿应用趋势》

来源 :腾讯研究院编辑: 陈近梅2021年1月9日,在腾讯研究院举办的“腾讯科技向善暨数字未来大会2021”上,《变量:2021数字科技前沿应用趋势》报告正式发布。该报告由腾讯研究院发起,先后访谈业界权威专家&…

linux导入pgsql日志目录,Centos下PostgreSQL安装及修改数据目录

记录下在Centos7.6 安装PostgreSQL数据库,版本10.12的过程,第一次装,遇到的坑太多了,网上教程坑也多,有的版本不一样方法不一样。花了半天时间…背景:内网服务器,搭了个sonarqube代码审计系统&a…

H3 BPM之流程包(流程Demo)导入导出

流程包是什么? 流程包指的是工作流从表单设计到流程设计产生的数据包,所有的表单逻辑和流程模型逻辑数据都包含在里面。由于各种厂商工作流软件运行机制不一样,流程包不支持在不同产品之间导入导出,只支持在同一款工作流软件里面导…

11大改革举措!国家自然科学基金2021年项目指南发布

来源:国家自然科学基金委员会网站编辑:宗华排版:李言1月15日,国家自然科学基金委员会网站更新了2021年度项目指南。点击链接进入:2021年项目指南未来智能实验室的主要工作包括:建立AI智能系统智商评测体系&…