NLP模型超越人类水平?你可能碰到了大忽悠

640?wx_fmt=jpeg

大数据文摘出品

来源:thegradient

编译:张睿毅、武帅、钱天培

一个军方训练的神经网络声称可以分类图像中的坦克,但实际上,它只是学会了识别不同的亮度,因为一种类型的坦克仅出现在明亮的图片中,而另一种类型仅出现在较暗的图片中。

一个游戏AI在学会了在第一关的最后故意死去,而不是在更难的第二关的开局死去,因为这样可以得到更高的分数。

AI通过某种让人啼笑皆非的奇怪方式尝试骗过人类,并达到自己的目的,这样的案例之前文摘菌总结过一大批。

模型通过学习“错误”的信息来解决任务的问题已经存在很长时间了,并被称之为“聪明汉斯效应(Clever Hans effect)”。

640?wx_fmt=jpeg

该效应说的是,一匹名为汉斯的马看似能完成一些简单的智力任务,但实际上只是依赖于人们给出的无意识线索。

“聪明汉斯效应(Clever Hans effect)”在图像检测领域早已有之,但最近,在一篇最新论文中,来自台湾国立成功大学的Niven和Kao指出,这一现象也正在NLP领域大受关注。脱去它的影响后,BERT也许没有我们想得那么神奇。

先附上论文链接,再一起看看这个论证过程?

https://www.aclweb.org/anthology/P19-1459/

Niven和Kao采用了一个论证理解数据集。随机选择的准确率为50%;之前表现最好的模型的准确率为71%;然后他们选择了BERT,仅仅微调后,便达到了惊人的77%的准确率。

如此看来,BERT似乎确实名不虚传。

但是,作者对这一看似很成功的“微调”产生了怀疑,并尝试对此进行论证。

NLP迎来“聪明的汉斯”时刻

论证理解是一项相当困难的任务,需要世界知识和常识推理。虽然BERT毫无疑问是目前为止最好的语言模型之一,其迁移学习正是“NLP的Imagenet时刻”,但鲜有证据表明,语言模型已经习得高级自然语言理解这一技能。

给定一个论点和一个原因,我们需要找出使得该推理成立的论据。

640?wx_fmt=jpeg

举个例子,假设论点是“谷歌不存在垄断”,原因是“人们可以选择不使用谷歌”。这一推理成立背后需要一个论据,即“其他搜索引擎并没有导向谷歌”。但是如果说“其他搜索引擎都导向了谷歌”,那么论点就不能成立了。 

作者也对BERT模型进行了三项分析。

首先,他们在可能的答案(即论点)中计算了一元文法(unigrams)和二元文法(bigrams),并观察到像not,is,or之类的单个一元文法相较于随机概率而言,能够更好地预测出正确的论点。这表明这些线索是有用的,并且也可能为模型所利用。

接着,为了检查模型是否确实利用了这些线索,作者只给模型提供了部分输入,这使得模型不可能推出正确答案。例如,如果没有给出论点或原因,就不可能推断出“其他搜索引擎没有重定向到谷歌”或“其他搜索引擎全都重定向到了谷歌”这两个论据哪一个是正确的。然而,模型并不理会这一不可能性,并以71%的准确率识别出了正确的论点。

在试验完其他两项类似的任务之后(仅论点和论据;仅原因和论据),作者总结到,数据集中包含着统计线索,而BERT的良好表现完全归功于对这些线索的利用。

为了说明这一点,在他们的第三个实验中,作者构建了一个数据集,其中的线索不再提供信息,发现BERT性能下降到随机概率水平。

相信大多数人会同意,一个基于大量的如not,is,do之类的一元文法做出预测的模型是不可能真正理解论证的。

因而,作者声明他们的SOTA结果毫无意义。

这让人联想到最近两个臭名昭著的案例。一个是图像分类器,声称能够区分罪犯的面孔和守法公民的面孔,但实际上只是在检测微笑;另一个是所谓的“性取向检测器”,实则是在检测眼镜,胡须和眼影。

640?wx_fmt=jpeg

如果NLP跟随计算机视觉的脚步,似乎也注定要重蹈它的覆辙。

回到论文中,作者指出,最近大量的工作显示NLP数据集中的“聪明汉斯效应”。

要明确的是,这也不是说像BERT这样的大型模型或深度学习都是无用的。但是,对于深度学习模型在高级自然语言理解任务中表现出的近乎人类表现的报告,我们应该持怀疑态度。

模型表现超好?别急着开心,试试能不能骗过它!

发现聪明汉斯效应案例的论文越来越多,这为NLP研究提出了重要的新议题。最明显的一个议题就是,如何预防这种影响。

当数据集中的模式与手头任务的目标一致时,那么能够识别、记住并概括这些模式的模型就是可取的。 如果不是的话,那模型就很可能在不理解任务的情况下依然表现良好。

为了防止聪明汉斯效应,我们需要更好的数据集,并且对模型进行严格的鲁棒性分析。

提出一个模型、并对其进行改进可以让你在开发过程中获得即时的满足感。此外,在公共数据集上的SOTA也可以确保论文被接收。

然而,创建数据集所获得的的满足感更加滞后且不确定。据说,ACL会议评审人员对提出获取SOTA的新模型的论文的默认立场是“接受”,而引入新数据集的论文则很可能因为“本文只引入新数据集”而拒绝。他们认为,创建数据集的人没有做真正的科学研究。

移除模型的一部分(ablation)并观察其对性能的影响是验证某部件是否有用的常用方法。 如果性能没有下降,那么该部件就是无用的,应该被消除。

这也应该成为执行数据集消除任务的常见做法,例如:

  • 仅提供不完整的输入(如前文所述):这将验证是否需要完整输。如果不需要,则说明数据集包含着一些可以采取捷径的线索。
  • 打乱输入:这可以验证单词(或句子)顺序的重要性。 如果分数没有太大变化,那说明模型并没有理解输入的顺序信息。
  • 分配随机标签:如果10%的实例被随机重新标记,性能会下降多少呢?所有实例重新标记呢?如果分数没有太大变化,那么模型可能没有学到任何有趣的东西。
  • 随机替换内容词:如果所有名词短语或动词短语都被随机名词短语和动词替换,性能会下降多少?如果不多,则数据集可能提供了预料之外的非内容提示,例如句子长度或功能词的分布。

再举个例子。如果在输入中添加一个不相关的句子会导致问答模型给出不同的答案(见下图),就说明该模型并不能真正理解问题。 

640?wx_fmt=jpeg


除了创建更好的数据集外,模型的创建者也应该有“建造它,破坏它”(Build It,Break It)的心态。模型不仅要在特定数据集上获得高分,也要有足够的鲁棒性。


如果你的模型表现优良,先别急着开心!尝试改变你的输入,看看你是否能能够骗过你的模型。


如果你挖空心思也无法骗过你的模型,大概这时你才创造出了一个真正的好模型!


相关报道:

https://thegradient.pub/nlps-clever-hans-moment-has-arrived/?nsukey=zGUM%2BitIg2PGgczL9OmBgiXDHkdeWy4hJYQG33fkllynu9PqhCkmZecP%2Bjrltr7xEB14BaM3FGFlyRWfJj9geFWr9cIsH%2FXosh%2B1kWc8%2BYCti2mUogfGmD8YTXENuU9X2slPjqbQOkYURwZHDx%2FnRv68UyeFpeWbEu6YIyOjk2eonxejiqu8sWZT%2B8FWxdUSAEOqQ%2Bwr6iGpCV8y3AgrAA%3D%3D


640?wx_fmt=jpeg

《崛起的超级智能》一书主要阐述当今天人类为人工智能的春天到来而兴奋,为人工智能是否超越人类而恐慌的时候,一个更为庞大、远超人类预期的智能形态正在崛起,种种迹象表明50年来,互联网正在从网状结构进化成为类脑模型,数十亿人类智慧与数百亿机器智能通过互联网大脑结构,正在形成自然界前所未有的超级智能形式。这个新的超级智能的崛起正在对人类的科技,产业、经济,军事,国家竞争产生重要而深远的影响。

作者:刘锋   推荐专家:张亚勤、刘慈欣、周鸿祎、王飞跃、约翰、翰兹

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/490314.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

伸缩杆怎么缩回去图解_没有阳台怎么晾衣服?这10个神器,让家里衣物晾晒更轻松方便...

没有阳台怎么晾衣服?这10个神器,让家里衣物晾晒更轻松方便!衣物晾晒是居家生活的必要环节,每个家庭在洗完衣物后都有自己的晾晒方式,但多数家庭会选择在阳台里进行。然而,对于没有阳台的家庭来说&#xff0…

小脑过度活跃,会引起整个大脑的问题

来源:中国生物技术网 9月10日,发表在《Cell Reports》的一项研究中,来自日本京都大学的研究团队发现小脑中的免疫活性诱导动物的神经元过度兴奋,干扰了精神运动行为。位于颅骨下背部的小脑,在调节诸如平衡、运动学习和…

Kubernetes(K8S)快速入门

概述 在本门课程中,我们将会学习K8S一些非常重要和核心概念,已经操作这些核心概念对应组件的相关命令和方式。比如Deploy部署,Pod容器,调度器,Service服务,Node集群节点,Helm包管理器等等。 在…

学会怎样使用Jsp 内置标签、jstl标签库及自定义标签

学习jsp不得不学习jsp标签,一般来说,对于一个jsp开发者,可以理解为jsp页面中出现的java代码越少,对jsp的掌握就越好,而替换掉java代码的重要方式就是使用jsp标签。 jsp标签的分类:1)内置标签&am…

没有精准定位,万物还能实现互联吗?

来源:CSDN万物皆备,静待互联。这是一个万物都被赋予「生命」的时代,从人工流水线到工业自动化;从相互独立的设备到实时可监测相连的家居智能化;从汽车的复杂操作到自动驾驶的无人化......探索其真谛,实则科…

log4net保存到数据库系列二:独立配置文件中配置log4net

园子里面有很多关于log4net保存到数据库的帖子,但是要动手操作还是比较不易,从头开始学习log4net数据库日志一、WebConfig中配置log4net 一、WebConfig中配置log4net二、独立配置文件中配置log4net三、代码中xml配置log4net四、完整代码配置log4net五、新增数据库字…

科学界5个终极难题,如果有一个被解决,人类文明将升级

来源:科学杂志 纵观人类发展历史,似乎每到了一定的阶段学术界就会有重大难题出现,例如人类的起源问题。为此有科学家总结出了人类历史上五大终极难题,如果有一个问题被解决的话,那么人类文明会实现质的飞跃。在人类文明…

判断三个数是否能构成三角形_三角形的面积

问题描述:输入三角形三边长a,b,c(保证能构成三角形),输出三角形面积。输入:一行三个用一个空格隔开的实数a,b,c,表示三角形的三条边长。输出:输出三角形的面积,答案保留四位小数。样例输入3 4 5&#xff0c…

联合国2019数字经济报告

来源 : 数据观近日,联合国发布了《2019年数字经济报告》(以下简称《报告》)。报告指出,全球数字经济活动及其创造的财富增长迅速,且高度集中在美国和中国。《报告》称,美国和中国目前占有超过75…

【人工智能】人类该如何看待人工智能的“诗与远方”?

来源:智能制造网【导读】如今,在继传统行业的应用“钱”景爆发之后,人工智能又开启了对“诗与远方”的追逐。9月8日,华为推出了一款全新的AI诗人——“乐府”,据悉其能够驾驭和写作唐诗宋词等多种形式的诗词&#xff0…

centos6.5安装配置zabbix3.0.3

1.首先要准备LAMP环境。 (1)安装phpZabbix 3.0对PHP的要求最低为5.4,而CentOS6默认为5.3.3,完全不满足要求,故需要利用第三方源,将PHP升级到5.4以上rpm -ivh http://repo.webtatic.com/yum/el6/latest.rpm …

mysql数据对象

学习目标:了解掌握常见的几种数据库对象学会如何创建具体的数据对象mysql 常见的数据对象有哪些:DataBase/SchemaTableIndexView/Trigger/Function/Procedure多Database用途:业务的隔离资源的隔离表上的常用数据对象:索引约束视图&#xff0c…

赛迪研究院发布《2019量子计算发展白皮书》

来源:赛迪智库经国务院正式批准,由湖南省人民政府、工业和信息化部联合主办,中国电子信息产业发展研究院(简称“赛迪研究院”)、湖南省工业和信息化厅、长沙市人民政府承办的“2019世界计算机大会”在长沙召开。赛迪智…

安卓虚拟摄像头_iPhone 的「第四颗摄像头」位置,为什么给了激光雷达?

一个,两个,三个,四个…… 旗舰手机摄像头从 2016 年开始,以大约每年 1 个摄像头的数量在增长,有人调侃说麻将「八筒」将是所有智能手机摄像头的终极归宿。今年全新一代 iPhone 发布前,不少人推测 iPhone 12…

关于边缘计算和边云协同,看这一篇就够了~

来源:Deloitte物联网智库 编译导 读几年前,大多数人都期望将物联网部署至云端,这的确可以给个人用户带来便捷的使用体验,但构建企业级的物联网解决方案,仍然需要采用云计算和边缘计算的结合方案。与纯粹的云端解决方案…

ospf hello时间和dead_网络工程师_思科 | OSPF由简到难,配合命令学

交换机工作原理:基于源mac学习,基于目的mac转发。路由器的工作原理:收到一个数据包,拆掉帧头,拆开ip包头,提取目的ip地址,查找自己的路由表,有路由,转发,没有…

《自然》深度:中国AI能在2030年制霸世界吗?

来源:智东西,nature中国不仅拥有世界上最多的人口,而且即将成为最大的经济体,并且在人工智能(AI)方面也有着领先世界的野心。2017年,中国政府制定了《新一代人工智能发展规划》,对人工智能发展进…

object-c 代理反向传值

A.h A.m B.h B.m 转载于:https://www.cnblogs.com/ChouDanDan/p/5692578.html

群晖pxe安装windows_使用win-server2016 进行 pxe 网络装机

首先,安装 windows server 2016此处省略若干字..........安装完成后,将网络设置成桥接模式,并为物理机网卡配置一个静态ip为server16 设置静态ip(要和物理机处于同一网段)c打开开始菜单-->服务器管理器(默认会弹出)2.选择添加角色3.一直点下一步,选择安装DHCP和Windows部署服…

CNCC技术论坛丨联邦学习冲刺人工智能“最后一公里”!

来源:中国计算机学会本论坛将于 CNCC2019 中国计算机大会第一天(10月17日)在苏州金鸡湖国际会议中心 A305 会议室举行,探讨号称人工智能“最后一公里”的联邦学习,届时业内专家将会碰撞出什么样的火花呢?敬…