AI学会灌水和造假!Google新研究揭露了AI现实应用的陷阱

11f7652200b0bf69e48a1524b66182f7.png

来源:Google AI、新智元

作者:Alex D'Amour、atherine Heller

今天,机器学习(ML)模型得到了大规模的使用,而且影响力也越来越大。然而,当它们被用于现实世界的领域时,往往表现出意想不到的行为。Google AI发文探讨不规范(Underspecification)是如何给机器学习带来挑战的。

如今,机器学习(ML)模型得到了比以往任何时候都更广泛的使用,并且它的影响力也变得越来越大。

然而,把它们放在现实领域中使用时,问题可不小,甚至经常会出现一些意想不到的行为。

例如,当分析一个计算机视觉(CV)模型的bad case的时候,研究人员有时会发现模型确实掌握了大部分对特征的理解能力,但对一些人类根本不会注意的、不相关的特征表现出惊人的敏感性。

a3f26ccf94a0620a8e974cf442f0fafd.png

再比如,一个自然语言处理(NLP)模型,让它学习文本吧,它也确实在学,只不过有时会依赖文本没有直接指示的人口统计相关性作为依据,更麻烦的是,这种错误还不太好预测。

其实,有些失败的原因,是众所周知的:例如,在不精确的数据上训练了ML模型,或者训练模型来解决结构上与应用领域不匹配的预测问题

然而,即使处理了这些已知的问题,模型行为在部署中仍然是不一致的,甚至在训练运行之间也是不同的。

影响ML模型信度的罪魁:不规范

谷歌团队在「Journal of Machine Learning Research」上发表了一篇论文「不规范对现代机器学习的可信度提出了挑战」。

cb2723154e9e81a5c76ff954a681126d.png

https://arxiv.org/pdf/2011.03395.pdf

文章中,研究人员表明:在现代机器学习系统中,一个特别容易造成故障的问题是不规范。

而且,在各种各样的实际机器学习(ML)系统中都经常会出现不规范,所以,谷歌对此提出了一些缓解策略。 

什么是不规范?

不规范背后的意思是,虽然机器学习模型在保留的数据上进行过验证,但这种验证通常不足以保证模型在新环境中使用时,依然具有明确定义的行为。

ML系统之所以成功,很大程度上是因为它们在保留数据集上,对模型进行了验证,靠这样的方式来确保模型的高性能。

0a5a9554031b49991778ba4dce93020b.png

模型验证流程

然而,对于固定的数据集和模型架构,通常有许多不同的方法,可以使训练好的模型获得高验证性能。

但是在标准的预测任务中,编码不同解决方案的模型通常被视为等价的,因为它们的持续预测性能大致相等。

但是,如果以超出标准预测性能的标准来衡量这些模型时,它们之间的区别就会变得很明显,这就是要考验这些模型对不相关的输入扰动的公平性或鲁棒性。

举个例子,在标准验证中表现同样出色的模型中,一些模型可能在社会群体和人种之间表现出比其他模型更大的性能差异,或者更加依赖不相关的信息。

74308157b792de31fce5a5d21ea016a3.png

轻微扰动就可以让深度学习网络完全失灵

那么,当这些模型用于现实场景时,这些差异就会转化为预测行为上的真正差异。

不规范会导致研究人员在构建ML模型时想到的需求和ML管道(即模型的设计和实现)实际执行的需求之间的差距。

一个重要后果就是,ML管道原则上可以返回一个满足研究需求的模型,可是,这样一来,在实践中,这个模型也就只能满足对保留数据的准确预测,而对超出这些数据分布的数据,它却无能为力。

如何识别应用中的不规范?

这项工作研究了在现实应用中,使用机器学习模型时,不规范的具体含义。

谷歌给出的策略是使用几乎相同的机器学习(ML)管道来构建模型集,只对其施加对非常小的改变,这种改变之小,即使是对他们同时进行标准验证,性能也不会有实际影响。这种策略的重点是关注模型初始化训练和确定数据排序的随机种子。

53fcade305cb702934d7211511ae8214.png

ML Pipeline示意图

如果这些小变化会对模型的重要属性带来实质性影响,那么,就说明ML管道没有完全指出模型在真实世界会出现的行为。而研究人员在实验的每个领域中,都发现了这些微小的变化会导致模型的行为在现实世界的使用中出现实质性变化。

计算机视觉中的不规范

举一个例子,你可以想想计算机视觉中不规范与鲁棒性的关系。

计算机视觉中的一个主要挑战是,深度学习模型在人类认为没什么挑战性的分布变化下,经常会变得脆弱。

众所周知,在ImageNet基准测试中,表现良好的图像分类模型在ImageNet-C等基准测试中表现不佳,只不过是因为这些测试将常见的图像损坏(如像素化或运动模糊)应用于标准ImageNet测试集。所以,在实验中,标准管道没有规定出模型对这些破坏的敏感度。

b923a7e722fa125fa5091db42671ec8a.png

ImageNet-C数据集样例

按照上面的策略,使用相同的管道和相同的数据生成50个ResNet-50图像分类模型。这些模型之间的唯一区别是训练中使用的随机种子。

当在标准的ImageNet验证集上进行评估时,这些模型实际上获得了相同的性能。然而,当模型在ImageNet-C(即在损坏的数据上)中的不同测试集上进行评估时,模型的测试性能变化比在标准的ImageNet上验证大几个数量级。

就算是在大得多的数据集上进行预训练的大规模模型,像在JFT-300M的3亿图像数据集上预先训练的BiT-L模型,这种不规范持续存在。对于这些模型,在训练的微调阶段改变随机种子会产生类似的变化。

771a49972244c2ec60a3209a4776b7ce.png

左图:在严重损坏的ImageNet-C数据上,相同的随机初始化的ResNet-50模型之间的精度变化。线条表示集合中每个模型在使用未损坏测试数据和损坏数据(像素化、对比度、运动模糊和亮度改变)的分类任务中的性能。给定值是相对于总体平均值的精度偏差,用在「干净的」ImageNet测试集上的精度标准偏差来衡量。黑色实线突出显示了任意选择的模型的性能,以显示一个测试的性能如何不能很好地指示其他测试的性能。

右图:标准ImageNet测试集中的示例图像,其中包含ImageNet-C基准测试的损坏版本。

另外,在专门为医学成像构建的专用计算机视觉模型中,这个问题也同样存在。其中深度学习模型显示出巨大的前景。

这里以两个应用方向为例,一个是眼科方向,用于从视网膜眼底图像检测糖尿病视网膜病变,另一个是皮肤病方向,从皮肤的照片判断患者的皮肤病情况。

研究人员对实际重要的维度上对这些pipeline生成的模型进行了压力测试。

对于眼科方向,研究人员测试了以不同随机种子训练的模型,在训练期间未遇见的新相机拍摄的图像时的执行结果。

对于皮肤科方向,测试思路大致相似,但针对的是皮肤类型不同的患者。

b0a6cb63ad2ae254182599ed3f565b2c.png

左上:在来自不同相机类型的图像上评估时,使用不同随机种子训练的糖尿病视网膜病变分类模型之间的AUC变化。左下:在不同的估计皮肤类型上评估时,使用不同随机种子训练的皮肤状况分类模型之间的准确性差异(由皮肤科医生训练的外行根据回顾性照片进行近似,可能会出现标记错误)。右图:来自原始测试集(左)和压力测试集(右)的示例图像。

结果显示,标准验证确实不足以完全体现训练模型在这些任务上的性能。比如在眼科方向的测试中,训练中使用的随机种子导致模型在面对新相机拍出的图片时,出现了比标准验证集更大的变量波动。

这些结果再次表明,单独的标准保持测试不足以确保医疗应用中模型的可靠性,需要对用于医疗领域模型的测试和验证协议进行扩展。在医学文献中,这些验证被称为「外部验证」。

除了医学领域外,分类不规范导致的问题在其他应用领域也同样存在。比如:

  • 在NLP任务中,分类不规范会影响由BERT模型衍生出的句子。

  • 在急性肾损伤预测任务重,分类不规范会导致对操作信号与生理信号的更多依赖。

  • 在多基因风险评分 (PRS)任务中,分类不规范会影响 PRS 模型的性能。

结论

解决不规范问题是颇具挑战性的,它需要对超出标准预测性能的模型进行完整的规范和测试。要做到这一点,需要充分了解模型使用环境,了解如何收集训练数据,而且在可用数据不足时,需要结合领域内的专业知识。

而上述几点恰恰在当今的机器学习研究中经常被低估。长期以来,对于这些领域的投入是不足的。

要解决这个问题,首先需要为机器学习实用模型指定新的压力测试协议,对现有的测试方式进行扩展。在将新的测试标准编入可衡量的指标之后,通过数据增强、预训练和因果结构等算法策略,可能有助于改进这些模型的性能。

但同样应该注意的是,理想的压力测试和改进过程通常需要迭代,因为机器学习系统需求和使用它们的世界都在不断变化。

参考链接:

https://ai.googleblog.com/2021/10/how-underspecification-presents.html

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

f55c334e68c516bdd108ff413ac413ad.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/483440.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue封装下拉框组件时,为document绑定原生事件addEventlistener(click“),切换页面之后事件还未被摧毁...

1 <script>2 export default {3 props: ["lists"],4 data() {5 return {6 isactive: false,7 actveName: "",8 selContent: "请选择"9 }; 10 }, 11 mounted() { 12 console.log("我被创建了&q…

查找算法详解

1、查找的基本概念 查找也即检索。 文件&#xff1a;由记录组成的集合&#xff0c;即含有大量数据的元素线性组合而成。 记录&#xff1a;由若干数据项组成的数据元素&#xff0c;这些数据项也常称作记录中的数据域&#xff0c;用以表示某个状态的物理意义。 关键字&#xff1…

高文院士:中国在AI领域有哪些长板和短板

10月25日&#xff0c;在第四届世界声博会暨2021科大讯飞全球1024开发者节上&#xff0c;中国工程院院士高文通过线上方式发表演讲来源&#xff1a;笑看国际风云、央广网、集微网、中国科学报10月25日&#xff0c;第四届世界声博会暨2021科大讯飞全球1024开发者节在安徽合肥开幕…

SpringBoot学习笔记(16)----SpringBoot整合Swagger2

Swagger 是一个规范和完整的框架&#xff0c;用于生成&#xff0c;描述&#xff0c;调用和可视化RESTful风格的web服务 http://swagger.io Springfox的前身是swagger-springmvc,是一个开源的API doc框架&#xff0c;可以将我们的Controller接口的方法以文档的形式展现&#xff…

Jeff Dean亲自揭秘谷歌下一代AI架构:通用、稀疏且高效,网友不买帐:毫无新意...

来源&#xff1a;机器之心在这波 AI 浪潮中&#xff0c;人工智能技术经过十几年的爆发式发展&#xff0c;已经在各个领域有着极为广泛的应用&#xff0c;如医疗、科学研究、汽车等。但是随着技术发展的缓慢&#xff0c;以深度学习为代表的人工智能技术瓶颈开始凸显。今年 8 月份…

排序算法笔记(Java)

package datastructure;import java.util.Arrays; import java.util.Scanner;public class Sort {static int len; //声明全局变量&#xff0c;用于记录arr的长度public static void main(String[] args) {Scanner sc new Scanner(System.in);String str sc.nextLine();Strin…

计算机网络——时延、时延带宽积、RTT和利用率

1.什么是时延 \qquad数据&#xff08;报文/分组/比特流&#xff09;从网络的一端传送到网络另外一端所需的时间。也叫延迟或者迟延&#xff0c;单位是s 2.时延的种类 2.1 发送时延&#xff08;传输时延&#xff09; \qquad从发送分组的第一个比特算起&#xff0c;到该分组的最…

强人工智能与泛心论

来源&#xff1a;哲社院后台原载于《科学经济社会》2021年第39卷第3期第52~59页作者简介&#xff1a;陈敬坤&#xff0c;1981年1月生。哲学博士&#xff0c;山西大学哲学社会学学院副教授&#xff0c;曾赴比利时布鲁塞尔自由大学、美国匹兹堡大学等作学术访问。研究领域主要为心…

第一章 Linux是什么

Linux是核心与系统调用接口两层中间的操作系统不同硬件的功能函数并不相同&#xff0c;IBM的Power CPU与Inter的x86架构不同&#xff0c;所以同一套操作系统是不能在不同的硬件平台上面运行的。也就是说&#xff0c;每种操作系统都是在他专门的硬件机器上面运行的。不过&#x…

计算机网络——分层结构,协议,接口和服务

1.为什么要分层&#xff1f; \qquad当有两台主机&#xff0c;A向B通过网络发送文件&#xff0c;在发送文件前需要完成这么几件事情&#xff1a;1&#xff09;A必须将数据通信的通路进行激活&#xff1b;2&#xff09;要告诉网络如何识别目的主机B&#xff1b;3&#xff09;A要查…

官宣!全球首富马斯克:创办这所“新大学”!

埃隆马斯克&#xff08;Elon Musk&#xff09;是特斯拉和SpaceX的创始人兼首席执行官。来源&#xff1a;青塔编辑&#xff1a;nhyilin美国《福布斯》杂志10月26日称&#xff0c;得益于特斯拉股价大涨&#xff0c;特斯拉CEO埃隆马斯克的财富跃升至近3000亿美元&#xff0c;不仅是…

“传统”遥感遇上AI,会产生怎样的效果?

来源&#xff1a;微信公众号人民网责编&#xff1a;翟巧红编辑&#xff1a;张素玲&#xff1b;作者&#xff1a;龚健雅 中国科学院院士、武汉大学教授&#xff1b;新一轮科技革命和产业变革的大幕早已掀开。作为全球科技竞争的制高点&#xff0c;人工智能已经成为世界主要国家推…

记录一次双系统安装

条件 1、U盘 2、UltraISO软件 官网 3、ISO镜像 ubuntu官网 压缩卷&#xff0c;获得空闲空间安装ubuntu 1、点击winx&#xff0c;进入磁盘管理&#xff0c;选择一个空间够大的硬盘进行分区 2、选择你要压缩的卷&#xff0c;比如D盘&#xff0c;右击&#xff0c;压缩卷&#xff0…

操作系统 —— 内存管理

目录一、思维导图二、内存的基础知识2.1 什么是内存&#xff1f;2.2 存储单元2.3 逻辑地址和物理地址2.4 编译、链接、装入2.4.1 编译2.4.2 链接链接的三种方式 :2.4.3 装入装入的三种方式:三、内存保护四、内存空间的扩充4.1 覆盖与交换4.1.1 覆盖技术4.1.2 交换技术4.2 虚拟内…

【前沿技术】10年内,19个关键技术将改变世界

来源&#xff1a;智能研究院据国外媒体报道&#xff0c;从无人驾驶汽车到机器人工人&#xff0c;在我们熟悉所有这一切之前&#xff0c;未来正迎面走来。根据世界经济论坛全球议程理事会关于《未来软件与社会》的一份报告&#xff0c;到2025年前&#xff0c;很多新兴技术将会达…

计算机网络——TCP/IP参考模型和五层参考模型

1.OSI参考模型和TCP/IP参考模型的对比 \qquad相同点&#xff1a;1)都分层&#xff1b;2&#xff09;都是基于独立的协议栈的概念 &#xff1b;3&#xff09;可以实现异构网络的互联 \qquad不同点&#xff1a;1&#xff09;OSI定义了三点&#xff1a;服务&#xff0c;协议和接口…

Github+docsify打造在线文档网站

写在前面 搭建这个在线文档的目的是方便自己对学习笔记的查看&#xff0c;比较喜欢 docsify 的主题风格&#xff0c;所以没有用 Github Pages 直接给的主题&#xff0c;自己根据官方文档进行了配置&#xff0c;目前已经成功上线。 1 效果图 可直接访问&#xff1a;https://x…

计算机网络——物理层基本概念

1.物理层的任务 \qquad将各种计算机的传输媒体进行物理连接&#xff0c;为设备间的数据传输做好准备。由此&#xff0c;我们需要确定传输媒体的接口特性。 2.传输媒体的接口特性 2.1 机械特性 \qquad定义物理连接的特性&#xff0c;比如连接规格&#xff0c;接口形状&#xf…

《Cell》新发现!“第二大脑”的反击

图像:巨噬细胞(绿色)包围肠道神经元(红色)。资料来源:洛克菲勒大学黏膜免疫学实验室来源&#xff1a;生物通一个简单的胃病就能造成很大的伤害。有1亿个神经元散布在胃肠道中——就在火线上——它们可能被肠道感染消灭&#xff0c;可能导致长期的胃肠道疾病。但肠道感染也有好处…

操作系统 —— 文件管理

目录1. 文件的简介1.1. 文件的属性1.2. 文件的分类1.2.1. 无结构文件&#xff08;流式文件&#xff09;1.2.2. 有结构文件&#xff08;记录式文件&#xff09;1.3 操作系统应向上提供哪些功能2. 文件的逻辑结构2.1 逻辑结构 vs 物理结构2.2 有结构文件的逻辑结构2.2.1 顺序文件…