谷歌等揭露「AI任务疑难」:存在局限的ImageNet等基准,就像无法代表「整个世界」的博物馆...

17fb81cf43ef6d0866523b147641c7fa.png

来源:AI科技评论

作者:杏花

编辑:青暮

在日常生活中,我们需要一些「标准」来衡量个人的行为。

而在科研工作中,研究人员也需要一些「基准」来评估模型的性能。

因此,不管是普遍的「标准」还是特定的「基准」,它们都有一定的参考意义。

然而,如果有一天我们发现这些「参照物」与实际生活渐行渐远时,它们该往何处去?

近日,由加州大学伯克利分校、华盛顿大学和谷歌研究院合著的论文《AI and the Everything in the Whole Wide World Benchmark》指出ImageNet等基准定义的模糊任务在促进智能理解上的局限性,就像用有限的博物馆来代表整个世界一样。

87f915b39d4ef8732a93d624ea0d15f5.png

论文地址:https://openreview.net/pdf?id=j6NxpQbREA1

在这篇论文中,研究人员阐述了机器学习(ML)对通用任务框架(CTF)的过度依赖,因为这个框架不恰当地演变成我们今天所理解的这些声称评估「通用能力」的基准。值得注意的是,研究团队并不否认这些基准的实用性,而是希望指出将其作为框架存在的固有缺陷。

1

展示「整个世界」的博物馆 VS ImageNet

这篇论文最能引起共鸣的一点就是用故事书作为引子,且将情节贯穿全文,使得论文的研究内容更为直白易懂。

这本书就是1974年出版的《Grover and the Everything In the Whole Wide World Museum》,书中的主人公Grover参观了一家声称展示「整个世界」的博物馆。

该博物馆的每个展厅都陈列着不同类别的东西,有些类别是随意和主观的,比如「你在墙上看到的东西( Things You Find On a Wall )」和「房间里能让你挠痒痒的东西( The Things that Can Tickle You Room )」;有些类别则非常具体的,例如「胡萝卜屋( The Carrot Room )」,而另一些则含糊不清,如「高大的厅堂( The Tall Hall )」。

1469325c84cc244767c71e69649910da.png

当Grover认为自己已经参观完博物馆的一切时,他来到写着「其他东西(Everything Else)」的大门前。打开门后,却发现自己置身于外面的世界。

作为儿童故事,Grover的经历是荒诞的。然而,在实际的研究中,例如人工智能尤其是ML领域,也存在类似的固有错误逻辑,其中许多流行的基准依赖于固有的错误假设。

这篇论文的研究人员认为,在诸如「视觉理解」或「语言理解」之类的模糊任务中,作为衡量一般能力进展的基准,与有限的博物馆在代表「整个世界的一切」方面一样无效,且这两个谬论的原因是相似的,即本质上是基于特定的、有限的且局限于上下文的环境。

GLUE或ImageNet之类的基准测试常常被提议为验证任何给定模型性能的基本通用任务的定义。其结果是,通过这些基准数据集证明合理的结论往往远远超越了它们最初设计的任务,甚至超出了最初的开发目标。

尽管作为迈向「通用目标」的标志,这些基准存在明显的局限性。事实上,这些基准的开发、使用和采用表明了一个结构有效性的问题,其中涉及的基准——由于它们在特定数据、度量和实践中的实例化——不可能捕获任何具有代表性的关于它们的普遍适用性的结论。

论文的作者们认为测量通用能力的目标(即通用对象识别、通用语言理解或领域独立推理等目标)不能充分体现在数据定义的基准中。研究人员注意到,当前的趋势不恰当地扩展了CTF范式,以将其应用于与现实世界目标或背景不同的抽象表现任务。

从历史上看,CTF的开发正是为了引入实用导向和严格范围的人工智能任务,即自动语音识别(ASR)或机器翻译(MT),其中所需的验证是基准是否准确地反映了计算机在现实环境中所要求的实际任务。这一波定义不明确的「通用」目标则完全颠覆了其引入的意图。

与其把Grover的经历当成儿童故事来看,倒不如说这是一则深刻的寓言故事。当Grover打开「其他东西」的大门时,却发现自己置身于博物馆外的大千世界。故事的结尾或许已经预示了这个研究的结论,ImageNet之类的基准定义必然不能代表适应所有现实世界模糊任务的「通用目标」。

84047fa7c652699982b054cf9a37aa90.png

因此,这篇论文确实有许多值得讨论和深思的地方。ImageNet存在不足,那其他基准定义就是完美无缺的吗?除了ImageNet,目前在通用对象识别上还有更好的参照基准吗?该如何看待以及解决基准定义越来越「不基准」这个问题?

外行看热闹,内行看门道,这么头疼的问题就应该交给专业人士。

2

OpenReview官方怎么评

迎面向我们走来的是第一位评委,该评委发出了“反对CV和NLP的“通用”基准中令人信服的观点!(A compelling argument against "general" monolithic benchmarks in vision and NLP)”的赞叹,因为他觉得这篇论文史料详实,观点明确,分析到位,着实令人信服。

2354745a8b00608d1b4c8dc4d7826126.png

论文的研究人员先在文中铺垫了大量的背景知识,向读者展现了通用人工智能和基准测试的相关研究,并分析了ML的基准测试何时开始作为评估范围狭窄的任务性能的标准化方法。最后,结论就水到渠成了:通用语言理解和通用对象识别的基准本质上是有缺陷的,因为它们应用于狭窄的范围。

25600aaa0e25aef8cadea3f3ede60fb4.png

最后,这位评委真诚地希望计算机视觉和NLP社区能认真对待这篇论文,因为他认为该论文对在这两个领域取得更有意义的进展做出了宝贵的贡献,而不仅仅是追求最先进的技术。

但美中不足的是,既然发现了ImageNet基准存在局限性,那有什么办法可以减少对这些通用标准的过度依赖?看来论文的研究人员也还没找到这个问题的答案。

724075406d3aaac3125a96ee6f3f24d7.png

而第二位评委对这篇论文的评价是:通用人工智能基准的谬论(The Fallacy of Benchmarks for General Artificial Intelligence )。因为这篇论文的受众主要是AI领域的研究人员,所以作者在前文回顾了通用AI的相关基准,一下拉近了与读者的距离。此外,引用Grover的故事也使得该论文有趣易懂。

d0a666a4e706ef2302653cdd63e5ecc1.png

即使这篇论文的开头存在表述问题,未能无缝衔接主题,但瑕不掩瑜,评委二号高度赞扬了这篇论文为ML领域的研究指明了方向。

0709753f3ad7e93e2c82ebb9c54df929.png

接着,评委三号也带着他的观点款款走来:好论文!但改一下结构就更好了(Well argued paper, with some reorganization suggested)。这位评委指出,这篇论文最大的亮点是观点独特且论据充足。但也发出了和第一位评委相同的疑惑:所以,有什么解决方案可以减少对通用标准的过度依赖?

1404b154a39444c5602995fc5c9d7aca.png

不同于前三位评委的「慷慨」,第四位评委只给出了5分的评价,认为这篇论文只是:当前基准测试的简史(History of the benchmarks we use today)。从这个评语不难看出,这位评委觉得这篇论文列举了很多基准测试且强调了它们的局限性,但作者团队并没有采取任何立场。

82418be716f7be49a734e92cf404ec5f.png

最后,评委五号不见其人,先闻其声:很棒!但还有上升空间(Great, but improvements needed)。第五位评委认为这篇论文在梳理和总结相关工作的方面做得非常好,同时有大量的研究支撑文中的论点,希望这篇论文能引起相关领域研究人员的重视。

201871a3ac74c8feb7cf2e7aac49ab80.png

正因为对这篇论文寄予了极高的期望,因此评委只给出了6分的评价,同时罗列了非常详细的修改建议,希望论文的作者能加以改进。

3

Reddit网友怎么说

看完五大评审的官方评论,总结起来基本就是:论文不错,观点新颖,论据充分,要是能提出解决方案就更好了。此外,有三位评委都不约而同地希望这篇论文能引起相关领域的重视。

Reddit上关于这篇文章的讨论热度也不小,我们来看看神通广大的网友怎么说。

5bae05aae017571c7ea45b70d5ac1581.png

某位网友一针见血地指出,虽然ImageNet等基准测试像「有限的博物馆」一样存在不足,但却是目前我们训练模型最有力的工具。

ae08c752d1279bbe9f35fa37058d05b5.png

确实,就像上述评委提到的,ImageNet是有局限性,但是否有更好的解决方案?因此,有热心网友为论文的作者修改了摘要:没有任何数据集能够捕捉所有细节的全部复杂性,就像没有博物馆可以包含整个世界中所有的事物一样。

eaa831240a1a91af531775793139601f.png

一些网友则认为论文不错,尤其是「芝麻街」故事情节的插入加深了他们对该论文的理解。

dfe8fbd19ddf5c458ec8820e6070b031.png

这些网友觉得,用「无法展示一切的博物馆」类比「ImageNet在一些模糊任务上的局限性」非常恰当。

c51e5e97b564f0370ff67a50edf48d58.png

大概论文的作者们也没想到,写个文章还能为一本书代言,有网友调侃:宇宙万物的答案就隐藏在这本「芝麻街」故事书中。

26d57b8f57831bafb25c9b4e8abd6bd6.png

更多网友表示赞同论文作者的观点,毕竟相比解决问题,发现问题太容易了。(狗头)

a89257582bf9bd0a5775ad468b72d180.png

所以,解决方案究竟在哪?

d203173f919dff80e42f0ae59b1413df.png

就算博物馆「无法展示一切」,也没有人能否定其价值。同理,ImageNet这类基准定义的存在意义也不容置喙。不断发现问题并解决问题,历史的车轮才会滚滚向前(狗头)。

参考链接:

  1. https://openreview.net/forum?id=j6NxpQbREA1

  2. https://www.reddit.com/r/MachineLearning/comments/r45wdo/r_ai_and_the_everything_in_the_whole_wide_world/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

3904fa77575174ff7b3532214127877a.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482847.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何配置Xshell连接Ubuntu

查看Ubuntu主机 IP命令: sudo –ifconfig –a 查看SSH服务是否启动命令: sudo –e|grep ssh ssh服务启动后,可以同时看到"ssh-agent"和"sshd"服务。 如果只有ssh-agent表示还没启动,需要通过sudo /etc/init.d/ssh start启动ssh server. 可通过…

spring-security-学习笔记-01-基本概念

Spring Security OAuth2.0认证授权 文章目录Spring Security OAuth2.0认证授权配套资源1.基本概念1.1.什么是认证1.2 什么是会话1.2 什么是授权1.3 授权的数据模型1.4 RBAC1.4.1 基于角色的访问控制1.4.2 基于资源的访问控制配套资源 企业开发首选的安全框架Spring Security深…

基于HC-SR04传感器的避障机器人设计与实现

本文介绍了如何设计和实现一个基于HC-SR04超声波传感器的避障机器人。我们将详细讨论硬件和电路连接,并提供完整的Arduino代码。该机器人可以利用超声波传感器检测周围的障碍物,并采取相应的动作进行避障,实现自主导航。 引言: 避…

伦敦大学学院、UC伯克利联手,撰文综述深度强化学习泛化研究

来源:机器之心编辑:陈萍强化学习应用广泛,但为何泛化这么难?如果要在现实世界的场景中部署强化学习算法,避免过度拟合至关重要。来自伦敦大学学院、UC 伯克利机构的研究者撰文对深度强化学习中的泛化进行了研究。强化学…

spring-security-学习笔记-02-基于Session的认证方式

spring-security-学习笔记-02-基于Session的认证方式 文章目录spring-security-学习笔记-02-基于Session的认证方式2 基于Session的认证方式2.1 认证流程2.2.创建工程2.2.1 创建maven工程2.2.2 Spring 容器配置2.2.3 servletContext配置2.2.4 加载 Spring容器2.3.实现认证功能2…

2021 年不可错过的 40 篇 AI 论文,你都读过吗?

来源:机器之心编辑:蛋酱虽然世界仍在从新冠疫情的破坏中复苏,人们无法向从前那样时常线下相聚、共同探讨交流关于学术领域的最新问题,但AI研究也没有停下跃进的步伐。转眼就是2021年底了,一年就这么就过去了&#xff0…

spring-security-学习笔记-03-spring-security快速上手

spring-security-学习笔记-03-spring-security快速上手 文章目录spring-security-学习笔记-03-spring-security快速上手3-spring-security快速上手3.1 Spring Security介绍3.2 创建工程3.2.1 创建maven工程3.2.2 spring容器配置3.2.3 Servlet Context配置3.2.4 加载 Spring容器…

所有的科学知识都是不确定的

理查德菲利普费曼(Richard Phillips Feynman),1918年5月11日—1988年2月15日,美国著名理论物理学家,1965年,因在量子电动力学方面的成就而获得诺贝尔物理学奖。来源:科学技术哲学一、不存在决定…

2.1.1物理层基本概念

2.1.1物理层基本概念 文章目录2.1.1物理层基本概念

神经网络为大脑如何运作提供新见解

来源:ScienceAI编辑:萝卜皮单细胞空间转录组学(sc-ST)有望阐明复杂组织的结构方面。此类分析需要通过将 sc-ST 数据集中的细胞类型与单细胞 RNA-seq 数据集集成来对它们进行建模。然而,这种整合并非微不足道&#xff0…

2.1.2数据通信基础知识

文章目录2.1.2数据通信基础知识0 思维导图1. 典型的数据通信模型2 数据通信相关术语3 三种通信方式4 两种数据传输方式2.1.2数据通信基础知识 0 思维导图 1. 典型的数据通信模型 2 数据通信相关术语 3 三种通信方式 4 两种数据传输方式

一文读懂MEMS技术4大主要分类及应用领域

来源:传感器专家网MEMS传感器是在微电子技术基础上发展起来的多学科交叉的前沿研究领域。经过四十多年的发展,已成为世界瞩目的重大科技领域之一。它涉及电子、机械、材料、物理学、化学、生物学、医学等多种学科与技术,具有广阔的应用前景。…

2.1.3码元、波特、速率、带宽

2.1.3码元、波特、速率、带宽 文章目录2.1.3码元、波特、速率、带宽0 思维导图1.码元2. 速率,波特,带宽练习题0 思维导图 1.码元 2. 速率,波特,带宽 练习题

模拟电路人工智能神经网络的前景

ISTOCKPHOTO来源:IEEE电气电子工程师未来驱动人工智能的一些最佳电路可能是模拟电路,而不是数字电路,世界各地的研究团队正在越来越多地开发支持此类模拟人工智能的新设备。在驱动AI当前爆炸的深层神经网络中,最基本的计算是乘法累…

CSS-盒子模型

CSS盒子模型 盒子模型解释 元素在页面中显示成一个方块,类似一个盒子,CSS盒子模型就是使用实现中盒子来做比喻,帮助我们设置元素对应的样式。盒子模型示意图如下: 把元素叫做盒子,设置对应的样式分别为: 盒…

2.1.4 ★(考察计算能力)奈氏准则和香农定理

2.1.4 奈氏准则和香农定理 文章目录2.1.4 奈氏准则和香农定理0.思维导图1. 失真2. 失真的一种现象--码间串扰3.奈氏准则(奈奎斯特定理)4. 奈氏准则(奈奎斯特定理)-练5. 香农定理6. 香农定理-例题7. “nice”和“香浓”对比0.思维导图 1. 失真 2. 失真的一种现象–码间串扰 3.奈…

未来哲学的六个问题域

来源:中科院哲学所作者:约翰R塞尔(John R. Searle)译者:GTY约翰塞尔生于1932年,当代著名哲学家,现为美国加州大学伯克利分校Slusser哲学教授,在语言哲学、心灵哲学和社会哲学领域贡献…

2.2_ 4_ FCFS、SJF、 HRRN调度算法

文章目录知识总览先来先服务短作业优先高响应比优先知识回顾和重要考点知识总览 先来先服务 短作业优先 高响应比优先 知识回顾和重要考点

当AI学会高数:解题、出题、评分样样都行

来源:AI科技评论“高等数学里程碑式的研究”,114页论文让AI文理双修,也许不久后机器出的高数试卷就会走进高校课堂,这下可以说“高数题不是人出的了”。人工智能虽然给我们带来了诸多便利,但也不免受到了各种质疑。在互…

2.3_ 1_ 进程同步、进程互斥

2.3_ 1_ 进程同步、进程互斥 文章目录2.3_ 1_ 进程同步、进程互斥1.知识概览2.什么是进程同步?2.什么是进程互斥3.知识回顾1.知识概览 2.什么是进程同步? 2.什么是进程互斥 3.知识回顾