AI研究过于集中狭隘,我们是不是该反思了?

来源:AI科技大本营

译者 | 陆离

编辑 | 夕颜

【导读】2019年是AI领域更加冷静的一年,少了些喧嚣和泡沫,大浪淘沙留下的是经过检验的真正的AI研究者、实践者。但是你也许没有发现,本来被寄予厚望要解决一切“疑难杂症”的AI,现在正在陷入一个怪圈:关注的领域越来越狭隘,集中于计算机视觉和NLP两个领域,关于AI应用缺少了天马行空。

在过去的8年里,本文作者作为AI社区的一员,曾经为不同的公司在不同的岗位上工作过。在DeepTrait,随着更多地关注遗传分析和工程方面的AI应用,他得以从一个全新的视角来审视一下AI社区。本文中,作者将分别从内部和外部的角度来阐述对AI的看法。

 

在2012年,AlexNet网络在ImageNet比赛中取得的成功预示着神经网络的重生,以及在该领域开始了一个令人兴奋的新周期。我在2011年就参与到了机器学习(ML)的研究之中,在它大规模的爆发之前,我已然见证了它在这些年的发展。作为全球顶级的机器学习大会之一,ICML 2013在佐治亚州亚特兰大市的一个酒店内举行,当时有几百人参加了这次大会。2018年的大会是在瑞典的斯德哥尔摩举办的,来自世界各地的5000多人参加了会议。到了2019年12月,这一主题最大规模的会议NeurIPS则聚集了一万三千多名AI的研究人员和工程师。

              图1. 大型会议的出席人数, 来源:AI Index 2019

 

随着资助经费数量和参与度的提高,机器学习领域的研究蓬勃发展。由于历史方面的原因,几乎所有AI相关的文档资料都是免费的,都可以在arXiv上面查阅到。现如今,有超过6万篇AI论文发表在那里,数量自2012年以来呈指数级增长(如图2).

               图2. arXiv上按子类别列出的AI论文数量, 来源:AI Index 2019

 

在2013年,一个行业AI专家可能熟悉其所在子领域的所有论文。而这到了2019年,是不可能的事。如今,业内绝大多数AI工程师都依赖于“最佳论文”和其它的一些论文排行。

 

工作在这样一个极受欢迎并且快速发展的领域,给人的印象是AI无处不在。如果你需要一个用于目标识别的神经网络,那没问题,只要看看图像识别的最新技术,选择适合你要求的架构就可以了。如果你需要的是一些用于情感分析方面的,那么同样的,只需查阅关于这个问题的相关文档资料,再选择一些适合你的数据、硬件以及所需性能的解决方案。对于你要解决的问题,即使没有相关的资料或者解决方案,它也会涉及到“子问题的子问题”。例如,标准的增强技术不会帮助你的数据集产生理想的结果,或者,你最喜欢的神经网络架构在收集的数据上表现较差,又或者,最好的单词嵌入技术不能很好地处理任务的特定词汇表等。

 

多年以来,认识到这些子问题的子问题的经验让人产生这样的印象:所有AI的较大问题都已经基本上解决了,越来越多的发表论文集中在不断缩小的下级领域里。

 

当然,当DeepTrait开发一个AI系统用于基因组分析的时候,我们对现有的文献进行了探讨。我们认为,必须在深度学习内部对所有内容进行详细的探索,更不用说是异构数据分析中的各种相关问题了。现如今,基因组分析是人类研究中最有前途和最重要的领域之一,目前已经发表了6万多篇相关的AI论文。这就意味着一定会有大量的工作要做,是不是这样呢?

 

不对。2019年12月12日,当我访问arXiv,输入了“deep learning”并搜索之后,结果共有22140篇相关论文。现在,将输入改为“deep learning genome”,你会发现只有76篇相关的论文,其中许多没有涉及到基因组数据,但提到了基因组作为潜在的、未来的或相关的应用。

 

在搜索了包括bioRxiv在内的、所有其它来源的、用于基因组学的深度学习论文之后,我们发现相关论文数量略微超过了二百篇。其中绝大多数使用了过时的神经网络架构和相关的训练技术。这其中有相当一部分不恰当地使用了这些工具,例如,将卷积神经网络应用于SNP(Single Nucleotide Polymorphism,单核苷酸多态性)等异构数据。这就会得出一个表现差劲的模型,也是任何AI专家都很容易预测到的。我们发现这是一个重复的模式。

 

那些正确使用AI工具的人这样做是为了分析基因组的小型序列,例如启动子(RNA 聚合酶识别、结合和开始转录的一段DNA 序列)或蛋白质结合位点。他们的输入数据最多有1到2万个核苷酸。在拟南芥(Arabidopsis thaliana)基因组中甚至没有接近1.35亿个核苷酸,这是我们在第一次主要试验中的主要研究对象核苷酸。我们没有什么可依赖的,没有例子,没有神经网络架构,也没有训练这种大小序列的技术。什么都没有!我们不得不从头开始。

“where is everybody?”

这让我很好奇,了解基因组有巨大的潜力。高流量定序产生了大量的数据,而AI似乎是一个显而易见的用来搞清这一切的工具。尽管如此,基因组学仍只得到了AI研究者们1%的关注,这是从论文的占比来看。那剩下的99%呢?这显然是一个机会,如果可以忽略这样一个成熟的机会,或许还会有更多的机会。

 

我回到arXiv,寻找其它可能具有创新性的AI应用。例如,现代天文学产生了大量高度可变的数据。图像数据、无线电频率、天空中每一个微小部分的天体注释等。可能会改变我们对宇宙理解的大问题,比如“什么是暗物质?”还有我们自己,比如著名的Enrico Fermi的文章——《where is everybody?》。利用AI的力量通过探测宇宙错综复杂的天文数据来解决这些重要的谜团,这应该是一个显而易见的想法,对吧?

 

尽管如此,在arXiv上查询“deep learning dark matter(深度学习暗物质)”,现在会给你20个结果。

 

接下来呢?材料科学怎么样?现代强化学习模型可以击败围棋和《星际争霸2》中最好的人类玩家。这些模型都很好,AlphaGo的成功在自然属性中是很有特点的,最近世界上最好的围棋手李世石退役了,他说“AI cannot be defeated(AI不能被打败)”。

 

这应该是很鼓舞人心的,是不是?那么把同样的方法应用于材料科学怎么样?人类已经对物理和化学有了相当多的了解。我们可以建立一个模拟器,其中强化学习可以学习如何创建新的材料,如石墨烯。这些新材料可以使新型的飞机和船舶设计、太空升降机、水下空间站以及可能的太空人类聚居地成为可能。这应该是一个特别令人兴奋的话题。

然而,在arXiv上搜索“深度学习水晶结构”则只给出了16篇关相关的论文。

狭隘的小世界

事实证明,几乎所有的现代AI研究和工业应用都集中在两个子领域下的十几个技术问题上:计算机视觉和自然语言处理(图3)。

              图3.AI中倒金字塔的创新

 

我们可以用倒金字塔来模拟AI世界。每个下一层都支撑着上一层,并在某种意义上对其进行定义。

 

最底层是非常深入的基础科学和技术,它涉及到对神经网络、优化算法、统计特性以及这些工具概率性质的理论上的理解。

 

中间是技术问题层。下面是我前面提到的十几个技术的子问题。在计算机视觉领域,这些子问题包括图像识别、图像分割和图像生成,而NLP(Natural Language Processing,自然语言处理)领域下的子技术则包括解析、文本分类、机器翻译和问答等方面。后者由通用语言理解评估(General Language Understanding Evaluation,GLUE)基准很好地表示了。

 

大多数研究人员和行业专家都在从事这一层上的工作。当然,并不是所有的人都专注于所获得的GLUE或视觉任务,如果你是其中的一个例外,就可能会理所当然地不认同我的观点。然而,作为一个业内人士,你也可以想一下我们中有多少人生活在这一层上,忙着解决这个任务清单上的问题,或者另一种表述或组合范围之外的事情。

 

中间层的界限由理论科学的底层所限定。在底层出现的任何新思路,如梯度下降、存储单元或卷积过滤器,都能在技术问题层引起一系列新的变动。

 

正如理论科学的进步使得整个技术领域得以发展一样,解决一个技术问题也使金字塔顶端的整个工业应用的范围得以扩展。

 

这一模型说明了该行业的一个本质局限性:虽然将产品理念从技术问题层面对应到工业应用中相对简单明了,但反过来很容易证明这是不可能的。把应用程序流在本质上看作一系列单向箭头。如果我们所拥有的只是十几种特定的计算机视觉和自然语言处理工具,那么许多工业应用将超出它们的能力范围。如果事实如此,那么绝大多数人都会这样做。一个致力于AI的专家可能希望预期他的某一个工业应用程序设计需求,可以在技术问题层得到解决,但实际上可能会得到更加广泛、更让人激动的成果。

AI期望值的下降

当前的技术问题和工业化实践像两个分岔路口,技术工具和应用之间有着巨大鸿沟。现有的工具一般专门针对计算机视觉和NLP中非常具体的应用,工具越先进,它的侧重点就越狭窄。

 

以数据量为例。在植物基因组学中,我们从拟南芥的1.35亿个“字母”基因组开始。要测量它的体量的话,如果按量印刷,每个数据点上的一个拟南芥基因组需要占用150个体量。这还只是个开始。番茄基因组有9.5亿个“字母”文本或1055个印刷体量,大麦基因组是53亿个“字母”或5888个印刷体量,小麦基因组是170亿个“字母”或18888个印刷体量。当前的NLP不能处理任何接近这个大小规模的内容。所有用于NLP的现代深度学习工具,如类似转换器的网络,只能处理长达数千个元素的序列。

 

另一个例子是数据的性质。一个基因组由四个离散核苷酸(nucleotide)组成,这些核苷酸由四个“字母”表示:A、C、T和G。A核苷酸不能得到“稍多的T”或“略少的T”。此外,改变单个T,例如,A可能导致完全不同的显形、致命疾病或致命条件。这就限制了计算机视觉技术在连续数据中的应用。数据的大小在这里也都累加起来了:以正方形四通道“图像”表示的人类基因组的分辨率将达到54772×54772“像素”,这将远远超过了任何现代计算机视觉神经网络所能处理的能力。

 

所有最先进的深度学习技术工具对基因组数据的性质和大小无效。没有现有的神经网络架构或训练实践,我们可以借用计算机视觉或NLP世界,来解决我们所遇到的问题。

 

快速地回顾一下会发现,天文学、化学、材料科学都是数据量要求巨大的应用,并且都面临着相同的问题:它们不能从非常狭隘的计算机视觉和NLP解决方案中使用现有的AI工具集。这里有几种常用的解决方法,例如将任何十六进制数据转换为图像、调整大小并将其传输给计算机视觉工具,但作用其实并不大。

 

在这一点上,那些坚持不懈地寻求解决方案的人也别无选择,只能进入AI的最深一层,也就是理论层面。AI生态系统的这一根源提供了许多关于神经网络工作的深度,不同的架构如何影响其行为,不同激活功能如何与特定数据分布相关联等方面的发现。换句话说,这里的工具允许你创建自己的工具集,适用于你关心的工业方面的应用。

 

这是一个艰难的过程,需要大量的时间、深厚的专业知识、奉献的精神以及一点点的运气,但最终,你会在AI生态系统中开发一个全新的技术问题层。尽管这个新的工具集是为特定的工业应用而设计的,但它能实现一系列的功能,就像解决图像识别问题一样,为各种产品和产品原型开辟了新的道路,从放射学分析开始,一直到类似于特斯拉自动驾驶仪这样的自动驾驶系统。

               图4.新的技术问题层使一系列的新工业应用成为可能

蓝海广阔,何必囿于一隅?

研究计算机视觉和NLP的技术问题是一个非常有把握、可预测和保险的途径。在这些领域中,有很多研究小组、初创公司和老牌公司。那些大公司为工程师提供了一个大学毕业后直接加入他们的机会。致力于研究计算机视觉或NLP还能让你接触一些很好的工具:数据集、GPU技术、框架以及大量的开源存储库,包括示例、库、基准和其它一些有用的资源。这些工具使我们的工作不再那么繁重,而且更有成效。或许,这解释了AI人才集中在这两个特定领域的原因。

 

另一方面,寻找适合天文学、遗传学、化学、材料科学、地球科学或经济学的工具集,将是一个充满挑战、时而令人沮丧、时而令人孤独的旅程,你能依靠的只有你自己和团队。然而,攻克难题之后的回报是整个领域,大到足以建立另一个十亿美元的公司或一个研究机构。

 

现如今,人类面临着成百上千个极其重要但尚未解决的问题。勇敢的先行者收集的数据量可能已经超出他们的分析能力。他们的目的很狭隘,收集数据,然后继续分析。这些数据就在你那里,可以随便访问,等待着人们从中发掘信息,有时候要花几年的时间。其中许多问题仍然没有答案,因为事实证明根本不可能找到解决方法。然而,这正是AI技术大显身手的地方,因为它能够学习如何解决无法解决的问题。

 

跳出拥挤的人群,抬眼去看那被忽视的AI世界,它已等待了数十年,翘首等待先驱者的到来。这片未经探索的处女地,将会回报那些勇于探索的人以无尽的财富。

原文链接:

https://medium.com/towards-artificial-intelligence/the-too-small-world-of-artificial-intelligence-553c0ee05856


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/489019.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

svchost占用内存过高_是什么导致你的Java服务器内存和CPU占用过高呢

一、内存占用过高1、造成服务器内存占用过高只有两种情况:内存溢出或内存泄漏(1)内存溢出:程序分配的内存超出物理内存的大小,导致无法继续分配物理内存,出现OOM报错。(2)内存泄漏:不再调用的对象一直占用着内存不释放…

php取不到post数据库,安卓post 数据到php 在写入数据库老是不成功, 数据post不到php...

代码如下安卓端public void onCreate(Bundle savedInstanceState) {super.onCreate(savedInstanceState);new Thread(){Overridepublic void onCreate(Bundle savedInstanceState) {super.onCreate(savedInstanceState);new Thread(){Overridepublic void run(){ArrayList para…

Even Three is Odd

题意&#xff1a; 问题是对于所有的长度为n&#xff0c;且$1<ai<n$的整数序列求 $\prod_{i1}^{n-2}{max \{w_i,w_{i1},w_{i2}}\}$ 之和。 解法&#xff1a; 首先设dp状态为 $f(i,j,k)$ &#xff0c;长度为$i3$的&#xff0c;最大值为k&#xff0c;且最大值出现的位置集合…

中国图书评论协会2019年度“中国好书”

来源&#xff1a;腾讯网2019.12.16第1127次推送为读者发现好书&#xff0c;为好书寻找读者。“中国好书”月榜由我国权威的图书评测机构中国图书评论学会发布&#xff0c;志达书店经整理编辑&#xff0c;为您呈现“中国好书”2019年度榜单&#xff08;1-10月&#xff09;。寒假…

pythonfor循环列表排序_Python使用for循环对列表内元素进行排序方法

这篇文章介绍Python使用for循环对列表内元素进行排序方法list [13, 22, 6, 99, 11]for m in range(len(list)-1):for n in range(m1, len(list)):if list[m]> list[n]:temp list[n]list[n] list[m]list[m] tempprint list结果&#xff1a;[6, 11, 13, 22, 99]分析&#…

a标签居中 img vue,让html img图片垂直居中的三种方法

三种让img元素图片在盒子内垂直居中的方式教程&#xff0c;依据代码与文章教程熟习掌握并加以应用。一、使用flex完成垂直居中操纵css flex实现垂直居中。flex或许不是完成垂直居中最好的选择&#xff0c;由于IE8,9其实不赞成它。那时&#xff0c;为了用flex实现垂直居中&#…

python——面向对象相关

其他相关 一、isinstance(obj, cls) 检查是否obj是否是类 cls 的对象 123456class Foo(object):passobj Foo()isinstance(obj, Foo)二、issubclass(sub, super) 检查sub类是否是 super 类的派生类 1234567class Foo(object):passclass Bar(Foo):passissubclass(Bar, Foo)三、异…

德国工业4.0眼里“工业互联网”与“智能制造”

来源&#xff1a;智造智库工业4.0在德国被认为是第四次工业革命&#xff0c;主要是指&#xff0c;在“智能工厂”利用“智能备”将“智能物料”生产成为“智能产品”&#xff0c;整个过程贯穿以“网络协同”&#xff0c;从而提升生产效率&#xff0c;缩短生产周期&#xff0c;降…

python常用模块教程_盘点Python常用的模块和包

模块1.定义计算机在开发过程中&#xff0c;代码越写越多&#xff0c;也就越难以维护&#xff0c;所以为了编写可维护的代码&#xff0c;我们会把函数进行分组&#xff0c;放在不同的文件里。在python里&#xff0c;一个.py文件就是一个模块。2.优点&#xff1a;提高代码的可维护…

php 正则匹配静态资源,Struts2 配置静态资源文件不经过Strut处理(正则匹配)

Struts2框架有两个核心配置文件&#xff1a;struts.xml和Struts2默认属性文件default.properties(在struts2-core-2.3.20.jar中)default.properties可以通过自己在classpath下写一个struts.properties文件进行定制改写为什么是struts.properties&#xff0c;这可以看org.apache…

全球数字孪生市场大预测:2025 年的 358 亿美元,年复合增长率(CAGR)高达 37.8%...

来源&#xff1a;云头条 数字孪生市场估计将从2019年的38亿美元猛增到2025年的358亿美元&#xff0c;年复合增长率&#xff08;CAGR&#xff09;高达37.8%。推动数字孪生需求增长的几个因素包括&#xff1a;越来越广泛地采用物联网和云计算之类的技术用于实施数字孪生&#xff…

matlab 小波中心频率,小波频域特性Matlab实现.pdf

小波频域特性Matlab实现小波频域特性– Matlab实现东北大学信号与信息处理研究所栾峰 副教授/luanfeng/luanfeng编程示例例下面给出了一个信号的连续小波变换的例子。这个信号的第一个时间段包含了一个低频成分&#xff0c;最后一个时间段包含了高频成分&#xff0c;中间的时间…

yii3正式版什么时候发布_事业单位联考结束,成绩什么时候发布?合格分数线怎么算?...

今天上午&#xff0c;2020下半年全国事业单位联考笔试结束了。笔试刚刚结束&#xff0c;很多考生问图图有没有此次联考的答案&#xff0c;那肯定得有啊。为了帮助各位考生更好估分&#xff0c;华图教育推出估分系统&#xff0c;各位考生只需点击文末“了解更多”即可参与估分。…

Open Live Writer测试

************************我是可爱的分界线***************************转载于:https://www.cnblogs.com/elijahxb/p/6473105.html

德勤全球智慧城市2.0报告!中国占了世界一半

来源&#xff1a;德勤全球智慧城市新发展全球城市化的进程依然以不可阻挡的趋势向前推进&#xff0c; 到2050年&#xff0c; 接近70%的世界人口将生活在城市。人口大国中国和印度所在的亚洲将成为全球城市化最快的地区。在城市急速扩张的过程中&#xff0c; 先进的技术将帮助城…

python神经网络作用_Python · 神经网络(三*)· 网络

(这里是最终成品的 GitHub 地址)(这里是本章用到的 GitHub 地址)推荐先修章节&#xff1a;Python 神经网络(二*) 层Python 神经网络(三) 网络由于分形这个东西是在 tensorflow 的基础上实现的且相当麻烦、所以我就没在我自己的结构里面实现分形。因此&#xff0c;我自己实现的…

大公司里怎样开发和部署前端代码

作者&#xff1a;张云龙链接&#xff1a;https://www.zhihu.com/question/20790576/answer/32602154来源&#xff1a;知乎著作权归作者所有。商业转载请联系作者获得授权&#xff0c;非商业转载请注明出处。没人邀请&#xff0c;看到这个问题不错&#xff0c;路过怒答。&#x…

5G产业发展最新进展深度解析(144页PPT)

来源&#xff1a;吴东升本报告对不同区域&#xff08;全球、美国、中国、日本、欧洲等&#xff09;的5G产业发展做了深入、全面的分析&#xff1b;对5G产业链和生态链以及主要产业应用状况做了系统盘点分析&#xff1b;对5G技术进展、投资环境和投资机会等也做了详细梳理。是5G…

php layui table,Layui table组件相关介绍

出现的问题&#xff1a;1、使用 Layui 官方提供的 【转换静态表格】 方式初始化加载时报 id 找不到的错误(自己的锅)2、传递参数问题使用的 table 加载刷新方案有一个页面&#xff0c;左侧是一个 tree&#xff0c;右侧是一个 table&#xff0c;默认 table 加载全数据&#xff0…

python中setpos_如何用类初始化Python中的多个turtle

only one turtle shown on screen. Two are defined in the code below.the turtles heading and coordinates arent being initialized.我相信问题是你定义了一次随机的位置和方向&#xff0c;在海龟创造循环之外&#xff0c;所以它们都从同一个地方开始&#xff0c;以相同的速…