牛津大学最新调研:AI面临基准危机,NLP集中“攻关”推理测试

d4938ba58aef21d676bf4abdeca6452a.png

来源:AI科技评论

作者:维克多

人工智能(AI)基准为模型提供了衡量和比较的路径,超越基准,达到SOTA,经常成为顶会论文的标配。同时,有些基准确实推动了AI的发展,例如ImageNet 基准测试对近几年的热潮功不可没。

如今,ImageNet 基准仍然在研究中发挥核心作用,一些新模型,例如谷歌的Vision Transformer在论文中仍然与ImageNet方法进行比较。

但,如果某一基准的分数一直占据榜首,后续没有高质量基准引入,那么这种依靠基准推动发展的“路子”就有问题。

80baf125d9d9342094489c570d4b6a35.png

近日,维也纳医科大学和牛津大学的研究人员对AI基准图谱进行了调查,共统计了2013年以来CV和NLP领域的406项任务的1688项基准。发现:很大一部分基准迅速趋于接近饱和,还有一部分基准被搁置;同时,在NLP领域,从2020年开始,新基准的建立减少,方向转向推理或推理相关的高级任务上。

在文中,作者呼吁,未来的工作应该着重于大规模的社区合作,以及将基准性能与现实世界效用和影响相联系。

1

33%的AI基准被“搁置”

92c4ef9b013954ab63cfb82bd9323237.png

从单个基准出发,如上图可以看出基准上的SOTA有三种状态:稳定增长,停滞或饱和,以及停滞后的飞跃。其中,稳定增长代表技术稳定;停滞背后代表缺乏技术进步的能力;而爆发是指技术出现突破。

事实上,近年来,关键领域,如NLP,有相当一部分新基准迅速趋于饱和,或者设计针对特定基准特征过度优化的模型,而这些模型往往无法泛化到其他数据中。

dc8155a7c9f32ebed7475cfae509b56f.png

目前,这些现象已经蔓延到相同领域的不同基准中,例如上图,CIFAR-10和CIFAR-100的状态。

同时,数量方面也出现了尴尬的局面,例如《2021年的人工智能指数报告》指出,CV基准数量或许能满足日益增长的任务需求;而NLP模型的增长速度正在超过现有的问答和自然语言理解基准。

Martínez-Plumed等学者分析了 CIFAR-100 和 SQuAD1.1 等 25 个流行 AI 基准背后“故事”,他们发现“SOTA 前沿”由某些长期协作的社区主导,例如美国或亚洲大学与科技公司共同合作的组织。

此外,其他学者分析了大量 AI 基准测试工作中数据集使用和再利用的趋势,他们发现,很大一部分“知名”数据集是由少数高知名度的组织提出,其中一些数据集被越来越多地重新用于新的任务。NLP是个例外,它对新的、特定任务的基准的引入和使用超过了平均水平。

在这项研究中,维也纳医科大学和牛津大学的研究人员表明:饱和和搁置非常常见。总体看来有以下几个趋势:

1.缺乏研究兴趣是导致停滞不前的原因之一;

2.所有基准中的大多数很快就会达到技术停滞或饱和;

3.在某些情况下,会出现持续增长,例如在 ImageNet 基准测试中;

4.性能改进的动态变化并不遵循一个清晰可辨的模式:在某些情况下,停滞阶段之后是不可预测的飞跃。

f6187dd409baa8ff0484b51ccf4851ab.png

图注:基准有三种发展趋势:稳定增长,停滞或饱和,以及停滞后的飞跃。

此外,在1688个基准中,只有66%的基准充分被利用,换言之33%的基准被搁置。同时,基准测试的另一个趋势是:被某些既定机构和公司的数据集主导。

2

NLP基准正面向高难度的任务

过去几年,CV领域的基准占据主导地位,但NLP也开始了蓬勃发展。2020年,新基准的数量有所下降,越来越多地集中在难度较高的任务上,例如测试推理的任务,例如BIG-bench和NetHack,前者属于谷歌,后者来自Facebook。

fbd7fada25d114451b3963344df051e6.png

上图是NLP的基准生命周期展示,可以清晰看出,大多数任务的几个主流基准是在2011~2015年间建立的,这期间,也只有少数几个SOTA出现。2016年之后,新基准的建立速度大大加快,在翻译和自然语言建模方面表现最为突出;2018和2019年,分别都针对各种任务建立了大量的基准;2020年是个转折点,新基准的建立减少,方向转向推理或推理相关的高级任务上。

整体来说,当前AI基准的趋势是:来自既定机构(包括工业界)的基准的趋势引起了人们对基准的偏见和代表性的关注;许多基准并不能完全将AI性能与现实世界相匹配,因此,开发少量但有质量保证,涵盖多种AI能力、场景的基准可能是可取的。

最后,研究人员展望,在未来,新的基准应该由来自许多机构、知识领域的大型合作团队开发,如此才能确保建立高质量的基准。

参考链接

https://mixed-news.com/en/are-we-running-out-of-ai-benchmarks/

https://arxiv.org/ftp/arxiv/papers/2203/2203.04592.pdf

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

3a3f6122baa3e5bf37aabf807a2ca6db.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482283.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Postman使用小教程--基础入门篇

文章目录1 Postman介绍2 postman基础功能介绍2.1 postman基础页面2.2 postman基础页面介绍2.2 接口测试流程和原理2.3 请求区域介绍3 导出和导入接口集3.1 导出3.2 导入4 设置环境变量4.1 环境变量优先级4.2 新建环境变量4.3 将返回值的某个数据设置为环境变量4.4 将其他的常用…

W玻色子质量实验与理论矛盾,或是十年来最重要的进展

来源:科学大院就在昨天,美国费米实验室的CDF项目在《Science》上发了篇文章,W玻色子质量的测量结果和标准模型预测的结果有明显差距。消息一出,粒子物理界炸了窝。因为这或许是十年来最重要的粒子物理进展!这个结果意味…

Git理论教程

文章目录1 什么是Git1.1 什么是版本控制系统1.2 为什么需要版本控制系统1.3 常见的版本控制工具1.4 版本控制分类1.4.1 集中版本控制 SVN1.4.2 分布式版本控制 Git1.4.3 Git与SVN的主要区别2 Git环境配置3 Git基本理论3.1 Git三个区域3.2 Git工作流程3.3 Git项目搭建3.3.1 本地…

Science | 再创生命奇迹!日本科学家造出了不需要“父亲”的大鼠及小鼠

来源:【iNature】iNature从多能干细胞 (PSC) 体外生成生殖细胞可以对未来的生殖医学和动物育种产生重大影响。十年前,在小鼠中建立了体外配子发生。然而,在任何其他物种中尚未实现诱导原始生殖细胞样细胞(PGCLCs)产生配…

总结Vue中index.html、main.js、App.vue、index.js之间关系以及Vue项目加载流程

总结Vue中index.html、main.js、App.vue、index.js之间关系以及Vue项目加载流程 文章目录总结Vue中index.html、main.js、App.vue、index.js之间关系以及Vue项目加载流程1 vue中index.html、main.js、App.vue、index.js关系简介1.1 项目的运行入口index.html1.2 入口文件main.j…

ACM 杰出会员姬水旺:量子化学和物理的深度学习

整理:汪浩文校对:维克多量子技术和人工智能都是当前最先进的科学技术,前者被寄希望于拥有超强的计算能力,后者已经在各行各业“大杀四方”。当两者相遇会碰撞出什么样的火花?人工智能又能在哪些方面助力量子技术&#…

1 操作系统第一章 操作系统概念、功能、四大特征、操作系统发展与分类

文章目录1.1 操作系统概念1.2 操作系统功能1.3 操作系统四大特征1.3.1 并发1.3.2 共享1.3.3 并发性和共享区别及对应关系:1.3.4 虚拟1.3.5 异步1.4 操作系统的发展与分类1.4.1 手工操作阶段1.4.2 批处理阶段——单道批处理系统1.4.3 批处理阶段——多道批处理系统1.…

不能头脑一热,就布局颠覆性技术、上马未来产业

来源:财经国家周刊作者:曹方 何颖 姬少宇 张鹏近年来,布局、规划及培育人工智能与机器人、先进材料、新能源、生命科学、云计算和量子计算、混合现实等颠覆性技术、未来产业,成为不少地方政府推动当地产业结构调整、助力经济高质量…

2 操作系统第一章 操作系统体系结构、中断和异常、系统调用

文章目录1.1 指令概念及其分类1.2 操作系统体系结构:1.2.1操作系统内核概念1.3 中断和异常1.3.1 中断的诞生1.3.2 中断分类1.3.3 外中断的处理过程1.3.4 中断小结1.4 系统调用1.4.1 系统调用介绍1.4.2 系统调用功能1.4.3 系统调用小结1.1 指令概念及其分类 指令就是…

百年诺奖的那些争议与放弃

来源:数学与通识自1901年首届诺贝尔奖颁发以来,它已成为人们心中最崇高、最向往的奖项之一。可能没有人想要去拒绝它,因为它不仅仅是奖金的问题,还是莫大的荣誉和骄傲,其追求真理、造福社会、为人类文明创造价值的初心…

3 操作系统第二章 进程管理 进程定义、特征、组织、状态与转换

文章目录1 进程的定义和特征2 进程的组织3 进程的状态与转换3.1 进程的状态3.2 进程状态转换1 进程的定义和特征 引入进程的原因 为了使程序能够并发执行,并且可以对并发执行的程序加以描述和控制 进程定义 进程是进程实体的运行过程,是系统进行资源分配…

数学家、中科院院士张景中:数学实力影响国家实力是近代以来的共识

本文转自:长江日报-长江网转载自公众号 和乐数学长江日报-长江网讯(记者周劼)最近一段时间,关于“数学”的热点新闻接连不断,从华为爆料有700名数学家,到中国重夺国际奥数冠军,从丘成桐区别数学家和数学工程师&#xf…

4 操作系统第二章 进程管理 进程控制、通信

文章目录1 进程控制1.1 进程控制1.2 进程控制实现1.3 进程创建1.4 进程终止1.5 进程阻塞与唤醒1.6 进程切换1.7 进程控制小结2 进程通信2.1 共享通信2.2 管道通信2.3 消息传递2.4 进程通信小结1 进程控制 1.1 进程控制 进程控制的主要功能是对系统中的所有进程实施有效的管理&…

《Science》日本科学家利用干细胞诱导成功了大鼠生殖细胞

来源:生物通日本科学家利用干细胞来诱导生殖细胞,从而产生健康且可生育的后代。不久前,日本京都大学(Kyoto University)的研究人员在《细胞干细胞》(Cell Stem Cell)杂志上发表了一篇研究论文,称他们利用小鼠多能干细胞在试管中逐…

5 操作系统第二章 进程管理 线程介绍

文章目录1 什么是线程1.1 为什么要引入线程:1.2 线程定义1.3 线程与进程的比较1.4 线程的属性1.5 线程实现方式1.5.1 用户级线程(ULT)1.5.2 内核级线程(KLT,又称“内核支持的线程”)1.5.2 用户级线程、内核级线程二者组…

6 操作系统第二章 进程管理 处理机调度

文章目录1 处理机调度1.1 处理机调度概念1.2 处理机调度三大层次1.3 处理机三层调度的联系、对比1.4 处理机调度小结2 进程调度2.1 进程调度、进程切换时机2.2 进程调度方式2.3 进程的切换与过程2.4 进程切换与调度小结3 典型的调度算法3.1 先来先服务 FCFS3.2 短作业优先 SJF3…

如何通向“广义人工智能”?LSTM 提出者之一Sepp Hochreiter:将符号 AI 与神经 AI 相结合...

来源:AI科技评论作者:Sepp Hochreiter解读:Antonio编辑:陈彩娴人类包含意识、认知、决策等等在内的智慧能力,似乎从人类有记录的那一刻起,就吸引着无数哲学家的思索。与之类似,从AI诞生的那一刻…

德勤预判:2022技术七大趋势

来源:综合德勤公开平台公开发布信息整理编辑:邱峰、罗兵,张钦煜审核:张祥、吴斌、数字理政研究院、中通协大数据分会1、数据跨界共享更便捷:诸多新技术致力于在保护隐私的同时,简化组织内和组织间的数据共享…

7 操作系统第二章 进程管理 进程同步与互斥

文章目录1 进程同步与互斥1.1 进程同步1.2 进程互斥1.3 进程同步机制遵循的原则1.3 进程同步、互斥小结2 进程互斥实现方法2.1 互斥的软件实现方法2.1.1 单标志法2.1.2 双标志法先检查2.1.3 双标志法后检查2.1.4 Peterson算法2.1.5 互斥的软件实现方法小结2.2 互斥的硬件实现方…

8 操作系统第二章 进程管理 信号量 PV操作 用信号量机制实现 进程互斥、同 步、前驱关系

文章目录1 信号量机制1.1 整形信号量1.2 记录形信号量1.3 信号量机制小结2 用信号量机制实现进程互斥、同 步、前驱关系2.1 信号量机制实现进程互斥2.2 信号量机制实现进程同步2.3 信号量机制实现前驱关系2.4 信号量机制实现进程互斥、同 步、前驱关系小结1 信号量机制 用户进程…