只有大规模算力才能救AI?强化学习之父 vs 牛津教授掀起隔空论战

640?wx_fmt=png

乾明 安妮 发自 凹非寺
量子位 出品 | 公众号 QbitAI


70年来, 人们在AI领域“一直连续犯着同样的错误”。


这是“强化学习之父”理查德·萨顿(Richard S. Sutton)为同行后辈们敲响的警钟。


他在博客上发表最新文章《苦涩的教训》(The Bitter Lesson),总结了AI发展史上的怪圈:


人类不断试图把自己的知识和思维方式植入到AI之中,比如用人类的思路教AI下棋、将让AI按照人类总结的思路来识别图像等等。这些做法,能带来暂时的性能提升,长期来看却会阻碍研究的持续进步。


真正的突破,总是来自完全相反的方向。摒弃人类在特定领域的知识、利用大规模算力的方法,总会获得最终胜利。


靠自我对弈磨炼围棋技艺的AlphaGo,基于统计方法、深度学习来识别语音、图像的算法,一次次击败先前那些浓缩了人类知识的AI,甚至人类自己。


搜索、学习,充分利用大规模算力才是王道。用人类在特定领域的知识来提升AI智能体的能力,都是在走弯路。


萨顿说:“将AI建立在我们对自身思维方式的认知上,是行不通的。”

OpenAI首席科学家Ilya Sutskever精辟地总结了萨顿的核心观点:算力常胜。


640?wx_fmt=png


文章一发出,就引发了热烈的讨论,OpenAI CTO Greg Brockman、特斯拉AI总监Andrej Karpathy等人都在转发附议。


DeepMind机器学习团队主管&牛津大学教授Nando de Freitas甚至称之为“周末必读”。


然而,也有反对的声音。


牛津大学计算机系教授希蒙·怀特森(Shimon Whiteson)连发13条Twitter反驳萨顿的观点,表示“坚决不同意”,同样获得了大量支持。


640?wx_fmt=png


怀特森认为,构建AI当然需要融入人类知识,问题只在于该何时、如何、融入哪些知识。


AI的历史进程是一场融入人类知识的胜利。科学家们广泛尝试,抛弃失败的99%,留下有用的1%。而这1%,对现代人工智能算法成功的重要性不亚于萨顿推崇的大量计算资源。


一场隔空论战,就这样展开了。


我们先读完“本周末必读”的萨顿博文,看看正方的观点。


苦涩的教训


以下为萨顿博客完整全文,经量子位翻译整理:

640?wx_fmt=png

回溯70年的AI研究,从中得出的最大经验是,利用计算力的通用方法最终总是最有效的,而且遥遥领先。

出现这种情况的终极原因是摩尔定律,或者宽泛一点来说,是单位算力成本的持续指数级下降。


大多数AI研究都以智能体可用算力恒定为前提进行,在这种情况下,利用人类知识可能是提升性能的唯一方法。但是,将目光投向比一个典型研究项目更长远的时间段,就会发现必然有更多可用的算力出现。


为了寻求短期可见的提升,研究人员会利用该领域的人类知识,但从长远来看,利用算力才是唯一重要的事。


虽然但这两者看似没有必要相互对立,但实际上它们往往是对立的。


在一个方向上花费的时间,就必然不能花在另一个方向。对于某一种方法的投入也会带来心理上的承诺。


同时,用人类知识来提升AI会倾向于使方法复杂化,让运用算力的通用计算方法变得不太适用。


很多AI研究人员后知后觉地领悟了这种“苦涩的教训”。回顾其中最重要的一些颇有启发。


640?wx_fmt=png


在国际象棋领域,1997年击败国际象棋冠军卡斯帕罗夫的深蓝,就是基于大规模深度搜索。


当时,大多数计算机国际象棋研究者都以沮丧的眼光看待它,他们追求用人类对国际象棋特殊结构的理解制胜。


当一种更简单的、有特殊硬件和软件加持的基于搜索的方法被证明更有效,这些基于人类知识下国际象棋的研究者输得一点都“不体面”。他们说,这种“用蛮力”的搜索可能这次能赢,但这终究不是通用策略,无论如何这也不是人类下棋的方式。


他们希望基于人类输入的方法获胜,却事与愿违,只剩失望。


计算机围棋领域,研究进展也遵循着同样的模式,只是比国际象棋迟了20年。这一领域最初的众多努力,都是利用人类知识或游戏的特殊特性避免搜索,然而,搜索一被大规模高效应用,这些努力都变得无关紧要,甚至更糟。


利用自我对弈来学习一种价值函数同样重要(在许多其他游戏、甚至在国际象棋中也一样,虽然在1997年的深蓝项目中没有发挥很大作用)。通过自我对弈来学习,以及学习本身,其实都和搜索一样,让大规模计算有了用武之地。


搜索和学习是AI研究中应用大规模计算力的两类最重要技术。


在计算机围棋和国际象棋项目中,研究人员最初努力的方向是如何去利用人类的理解(这样就不需要太多的搜索),很久以后,才通过拥抱搜索和学习取得了更大的成功。


在语音识别领域,很早之前曾有一场竞赛,1970年由DARPA主办。


在这场比赛中,一部分参赛者运用那些需要人类知识(单词知识、音素知识、人类声道知识等等)的特殊方法。也有一部分人基于隐马尔可夫模型(HMMs)完成比赛。这种新方法本质上更具统计性质,也需要更大的计算量。


不出所料,最终统计方法战胜了基于人类知识的方法。


这场比赛为所有自然语言处理任务都带来了巨大的改变,在过去的几十年里,统计和算力逐渐占据主导地位。


语音识别中兴起没多久的深度学习,也是朝着这一方向迈出的最新一步。深度学习方法对人类知识的依赖甚至更少,用到了更多的算力。通过在大型训练集上的学习,能得到更好的语音识别系统。


就像在棋类游戏中一样,研究人员总是试图让系统按照他们心目中的人类的思维方式工作,试图把这些知识放进计算机的系统里。但最终,当摩尔定律带来大规模算力,其他人也找到了一种充分利用它的方法时,会发现原来的做法适得其反,是对研究人员时间的巨大浪费。


在计算机视觉领域,也有类似的模式。早期的方法,将视觉设想为搜索边缘、广义圆柱体,或者SIFT算法捕捉的特征。但现在,所有这些方法都被抛弃了。现代的深度学习神经网络,只使用卷积和某些不变性的概念,而效果要好得多。


这些教训告诉我们,(AI)这个领域,我们仍然没有完全了解,我们连续犯着同样的错误。


为了认清状况,有效防止犯错,我们必须理解这些错误有什么吸引力。


我们必须从这”苦涩的教训”中学习:长远来看,将AI建立在我们对自身思维方式的认知上是行不通的。


  • “苦涩的教训”源自这些历史观察:

  • 人工智能研究人员经常试图将知识“植入”到他们的智能体中,

  • 这在短期内通常是有帮助的,让研究者自身产生满足感,

  • 但从长期来看,这会拖慢、甚至阻碍研究的进一步发展,


而突破性进展最终会来自完全相反的方法:基于搜索和学习进行规模计算。

最终的成功总是带来些许怨恨,通常也不被完全理解,因为它超越了当前受欢迎的、以人为中心的方法。


从历史的教训中,我们能学到两点。


第一,通用型方法有强大的力量。即使可用的算力变得非常大,这些方法仍然可以继续扩展,运用增加的算力。似乎可以按照这种方式任意扩展的方法有两种:搜索和学习。


第二,思维的实际内容复杂到非常可怕无可救药。我们不该再试图寻找简单的方法来思考其内容,比如,用简单的方式去思考空间、物体、多智能体或者对称性。

所有这些,都是随意、本质上非常复杂的外部世界的一部分。它们不应该内置在任何一个AI智能体中,因为它们复杂得没有尽头。相反,我们应该只构建能发现和捕获这种任意复杂性的元方法,


这种方法的本质是能够很好地找到近似值。不过,寻找的工作应该交给我们的方法,而不是我们自己。


我们需要的是能像我们一样进行发现的AI智能体,而不是包含我们已经发现的东西在内的AI。


在我们发现的基础上建立AI,只会让它更难看到发现的过程是如何进行的。

原文链接:

http://www.incompleteideas.net/IncIdeas/BitterLesson.html


“甜蜜的一课”

640?wx_fmt=png


坚决不同意萨顿观点的怀特森老师认为,构建AI当然需要融入人类知识,问题只在于该何时、如何、融入哪些知识。AI历史上有“甜蜜的一课”(The Sweet Lesson),我们在尝试寻找正确先验知识的过程中,推动了AI的进步。


他将萨顿的观点总结为:“AI的历史告诉我们,利用算力最终总是战胜利用人类知识。”


以下是怀特森Twitter内容的翻译整理:


我认为这是对历史的一种特殊解释。的确,很多把人类知识融入AI的努力都已经被抛弃,随着其他资源(不仅仅是计算力,还包括存储、能源、数据)的丰富,还会抛弃更多。


但是,由此产生的方法的成功,不能仅仅归功于这些丰富的资源,其中那些没有被抛弃的人类知识也功不可没。


要是想脱离卷积、LSTM、ReLU、批归一化(batchnorm)等等做深度学习,祝你好运。要是抛开“围棋是静态、零和、完全可观察的”这一先验知识,就像搞定这个游戏,也祝你好运。


所以,AI的历史故事并非融入人类知识一直失败。恰恰相反,这是融入人类知识的胜利,实现的路径也正是一种完全符合惯例的研究策略:尝试很多方法,抛弃失败的99%。


剩下的1%对现代人工智能的成功至关重要,就和AI所以来的大量计算资源一样关键。


萨顿说,世界固有的复杂性表明,我们不该把先验知识融入到系统中。但是我的观点恰恰相反:正是这种复杂性,导致他推崇的搜索和学习方法极度复杂难解。


只有借助正确的先验知识,正确的归纳偏见(inductive biases),我们才能掌握这种复杂性。


他说,“现代的深度学习神经网络,只使用卷积和某些不变性的概念,而效果要好得多。”一个“只”字就凸显了这种断言的武断性。


如果没有这些卷积和不变性,深度学习就不会成功,但它们却被视作微小、通用到可以接受。


就是这样,“苦涩的教训”避开了主要问题,这根本不是要不要引入人类知识的问题(因为答案显然是肯定的),而是该问这些知识是什么,该在何时、如何使用它。

萨顿说,“我们需要的是能像我们一样进行发现的AI智能体,而不是包含我们已经发现的东西在内的AI。”当然。但是我们善于发现正是因为我们天生带有正确的归纳偏见。


AI历史上的“甜蜜一课”是这样的:虽然找到正确的归纳偏见很难,但寻找的过程为原本难解的问题带来了巨大的进展。


原文链接:

https://twitter.com/shimon8282/status/1106534185693532160


论战双方


这场隔空论战的双方,分别是“强化学习之父”萨顿,和牛津大学计算机系教授希蒙·怀特森。都是强化学习领域的科学家,观点却截然相反。

强化学习之父:萨顿

640?wx_fmt=png


萨顿,被认为是现代计算强化学习的创始人之一,为强化学习做出了许多贡献,比如“时序差分学习”(temporal difference learning)和“策略梯度方法”(policy gradient methods)等等。


1978年,萨顿在斯坦福大学获得了心理学学士学位,之后才转向计算机科学,在马萨诸塞大学安姆斯特分校获得博士学位。


他与导师Andrew Barto合著的《强化学习导论》一书,已经成为强化学习研究领域的基础读物。


目前,萨顿任教于阿尔伯塔大学,是计算机科学系的教授和 iCORE Chair,领导强化学习和人工智能实验室。


2017年6月,萨顿加入Deepmind,共同领导其位于加拿大埃德蒙顿的办公室,同时保持他在阿尔伯塔大学的教授职位。


2001年以来,萨顿一直都是AAAI Fellow,在2003年获得国际神经网络学会颁发的President’s Award,并于2013年获得了马萨诸塞大学阿默斯特分校颁发的杰出成就奖。


来自牛津大学的反对者:怀特森


640?wx_fmt=png


希蒙·怀特森,是牛津大学计算机系的教授,专注于人工智能和机器学习领域。强化学习、让智能体跟着演示学习都是他所研究的课题。


他2007年获得美国德克萨斯大学奥斯汀分校的计算机博士学位,随后留校做了一段时间的博士后,然后任教于阿姆斯特丹大学。


2015年,怀特森成为牛津大学副教授,2018年成为教授。


隔空论战,你支持谁?


除了怀特森之外,也有不少人对萨顿的观点表示不能完全同意。

比如Nando de Freitas认为萨顿博文的最后一段非常正确、发人深省:

我们需要的是能像我们一样进行发现的AI智能体,而不是包含我们已经发现的东西在内的AI。在我们发现的基础上建立AI,只会让它更难看到发现的过程是如何进行的。

但他也就着怀特森的观点,谈了一些自己的想法:

  • 算力非常重要,特别是对强化学习智能体来说。然而,卷积、LSTM这些概念都不是在研究规模化的过程中发明的。

  • 其他生物也和我们人类一样拥有强大的算力,生活在同样的数据、环境,但它们可没打算飞向火星。


帝国理工学院教授、DeepMind高级研究员Murray Shanahan虽然支持不能人工手写特定领域的先验知识,但还是认为“应该寻找有利于让AI学习这些常识类别的架构上的先验”。


德克萨斯大学奥斯汀分校的助理教授Scott Niekum说,他大致同意萨顿的观点,但也有值得商榷的地方,比如科学从来都不是一条直线,很多最重要的发现,可能就来自借助内建特定领域知识来研究那些不够通用的模型的过程。


这个问题,你怎么看?


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。


  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”


640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/492427.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MFC中为菜单命令添加快捷键

(1)添加“帮助/我的帮助”菜单项。ID为ID_MY_HELP,Caption为“我的帮助(&H)”, 设CtrlH作为该命令的快捷键。 当执行CtrlH命令时,使用一个信息对话框显示简单的帮助信息。 添加代码如下: void CMainF…

IBM 内核惨败:20 亿美元打水漂 !

来源:云头条摘要:IBM早在20世纪90年代豪赌微内核,看好它是操作系统领域的下一大技术,为此不惜耗费数十亿美元,最后却没多少成果。20世纪90年代早期,我们不知道计算机行业的发展方向,下一代技术是…

C语言ODBC连接MySQL数据库制作简易用户登录系统

1、代码如下&#xff1a; #include "stdafx.h" #include <windows.h> #include <windowsx.h> #include <sql.h> #include <sqlext.h> #include <sqltypes.h> #include "resource.h" #include "MainDlg.h" #define…

关于交通创新,这五大智慧城市做了啥?

来源&#xff1a;资本实验室在现代城市中&#xff0c;交通的可达性和运输效率是衡量城市运营水平的重要指标。而随着城市人口越来越多&#xff0c;城市规模不断变大&#xff0c;如何打造高效、舒适、快速出行的交通系统已经成为城市管理机构面临的一大挑战。随着传感器成本的持…

应用程序利用ADO对象访问数据库

1、已创建MySQL数据库employeedb&#xff0c;数据库中有如下所示的employeetb表。 2、在使用ADO对象之前&#xff0c;必须在工程的Stdafx.h文件里用直接引入符号#import引入 ADO库文件&#xff0c;以使编译器能够正确编译。代码如下&#xff1a; #import "D:\Program Fil…

人工智能让育种“物美价廉”

预测二元化基因表达量的卷积神经网络模型建立来源&#xff1a;中国科学报自从作物被驯化以来&#xff0c;培育集抗性强、优质、高产等性状为一体的作物品种一直是育种家的梦想。DNA分子结构模型的发现推动了分子生物学的发展&#xff0c;让育种家们能够从基因和分子水平上解码作…

Socket编程应用——开发聊天软件

1、客户端应用程序开发 建立一个基于对话框的MFC应用程序&#xff0c;创建的时候记得勾选【Windows Sockets】&#xff0c;其 他的默认就行。 &#xff08;1&#xff09;、对话框如图所示&#xff1a; &#xff08;2&#xff09;代码如下&#xff1a; // ChatClientDlg.cpp …

MFC中给单文档程序添加背景图片

1、在OnDraw函数中修改如下&#xff1a; void CBitmapView::OnDraw(CDC* pDC) {CBitmapDoc* pDoc GetDocument();ASSERT_VALID(pDoc);// TODO: add draw code for native data hereCBitmap bitmap; //位图类对象bitmap.LoadBitmap(IDB_BITMAP1); //从资源中装载入位图CDC dc…

详解|清华大学100页PPT:工业机器人技术详解

来源&#xff1a;清华大学未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能&#xff0c;互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括&#xff1a;建立AI智能系统智商评测体系&#xff0c;开展世界人工智能智商评测&#xff1b;开展互联网&#…

2019年,中国要推进这70个工程项目

来源&#xff1a;人民日报客户端摘要&#xff1a;近日&#xff0c;《关于2018年国民经济和社会发展计划执行情况与2019年国民经济和社会发展计划草案的报告》正式发布。报告详尽地对2019年我国经济社会的发展做出了安排。围绕基础设施建设、创新发展、社会民生、生态治理、文化…

判断101-200之间有多少个素数,并输出所有素数。

1、代码如下&#xff1a; // test.cpp : Defines the entry point for the console application. // /* 判断101-200之间有多少个素数&#xff0c;并输出所有素数。*/ #include "stdafx.h" #include <iostream> #include <cmath> using namespace std;in…

输入一个十进制数,转化为二进制

1、代码如下&#xff1a; // test.cpp : Defines the entry point for the console application. // /* 输入一个十进制数&#xff0c;转化为二进制。*/ #include "stdafx.h" #include <iostream> using namespace std;int main(int argc, char* argv[]) {cout…

超越“机器人三定律” 人工智能期待新伦理

来源&#xff1a;新华网人工智能的伦理原则近来备受关注。联合国教科文组织总干事阿祖莱在3月初举行的“推动人性化人工智能全球会议”上就表示&#xff0c;目前还没有适用于所有人工智能开发和应用的国际伦理规范框架。对于科幻作家阿西莫夫上世纪设计、防止机器人失控的著名“…

求5阶矩阵其对角线上所有元素之和

1、代码如下&#xff1a; // test.cpp : Defines the entry point for the console application. // /* 输入一个5*5的矩阵&#xff0c;然后输出其对角线上所有元素之和。 当求N阶矩阵其对角线上所有元素之和时&#xff0c;只要把以下程序中所有的5改成N,4改成N-1即可。*/ #inc…

DARPA“终身学习机器”项目取得重大进展

来源&#xff1a;DARPA网站2019年3月&#xff0c;美国防高级研究计划局&#xff08;DARPA&#xff09;“终身学习机器”&#xff08;L2M&#xff09;项目研究人员在《自然机器智能》杂志发表了其有关人工智能算法的研究结果&#xff0c;介绍了一种由类似动物肌腱驱动的人工智能…

《自然》,工程学突破!仿生物细胞群体机器人问世

来源&#xff1a;科技日报摘要&#xff1a;北京3月20日&#xff0c;英国《自然》杂志20日发表了一项工程学最新突破&#xff1a;美国科学家团队研发了一种能模拟生物细胞集体迁移的机器人&#xff0c;可实现移动、搬运物体及向光刺激移动。北京3月20日&#xff0c;英国《自然》…

白宫启动AI.GOV计划,呼吁各界携手共同推进AI发展

来源&#xff1a;网络大数据摘要&#xff1a;近日&#xff0c;白宫启动了 ai.gov 计划&#xff0c;列出了特朗普政府与美国联邦机构采取的一系列人工智能举措&#xff0c;如美国国立卫生研究院(NIH)利用 AI 展开的生物医学研究项目以及美国交通部近期发布的关于自动驾驶汽车的报…

Qt连接MySQL数据库

1、将MySQL安装目录下的libmysql.dll拷贝到Qt安装目录下的bin目录中。 2、准备数据库和数据表如下&#xff1a; 3、编写如下代码&#xff1a; #------------------------------------------------- # # Project created by QtCreator 2016-07-15T17:56:50 # #----------------…

边缘计算不再“边缘”

来源&#xff1a;中国科学报摘要&#xff1a;5G商用时代来临&#xff0c;数据量将更加巨大、复杂&#xff0c;对计算提出更高要求&#xff0c;同时也为发展人工智能、边缘计算带来了新机遇。5G商用时代来临&#xff0c;数据量将更加巨大、复杂&#xff0c;对计算提出更高要求&a…

Qt中修改应用程序和标题栏的图标

一、修改应用程序图标 1.新建一个my.txt文件&#xff0c;打开后在其中加一句 “IDI_ICON1 ICON DISCARDABLE "应用程 序图标.ico"”。&#xff08;“应用程序图标.ico”是要添加的图片名&#xff0c;图片格式一定要是.ico), 然后保存并退出&#xff0c;将文件格式改为…