Gary Marcus:AI 可以从人类思维中学习的11个启示

来源:AI科技评论

作者:Gary Marcus、Ernest Davis

编译:陈彩娴

1969 年图灵奖得主、MIT 人工智能实验室创始人马文·明斯基(Marvin Minsky)在其1986年著作《心智社会》(The Society of Mind)一书中曾探讨人类智慧的来源。他认为,“人类的智慧源于人类社会的多样性,而不是某个单一的、完美的准则。”

毫无疑问,近几年人工智能的技术有了极大的飞跃,不仅打败了围棋与扑克比赛的世界冠军,还在机器翻译、物体分类和语音识别等领域取得了重大进步。

然而,其实大多数 AI 系统的关注点都十分狭窄。比如,围棋冠军选手“AlphaGo”虽然在与人类比赛中胜出,对围棋本身却丝毫不了解:它不知道围棋游戏进行的过程是由选手在棋板上落下石头棋子,甚至不知道“石头”、“板”为何物。如果你将原先给它看的正方形网格板换成长方形板,你还要重新对它进行训练。

换句话说,AlphaGo的“智能”是非常有限的。要想发展能够理解文本或赋能通用家居机器人的人工智能技术,我们还要付出更多努力。纽约大学的两位教授 Gary Marcus 与 Ernest Davis 认为,AI 的下一个发展机遇是从人类思维“取经”,因为人类在理解与灵活思考上的表现仍远远优于机器。

基于对认知科学(心理学、语言学与哲学)的思考,两位作者提出了 AI 发展的 11 个建议:

 1 

AI理论切忌“立竿见影”

从行为主义心理学(behaviorism)、贝叶斯推理到深度学习,科研人员常常是提出一些简单的理论来希望解释所有人类智慧行为。

Firestone 与 Scholl 在 2016 年曾提出一个观点:“没有哪一种方法可以概括人类大脑的思考方式,因为‘思考’并不是一个特定的事物。相反,大脑的思维由不同部分组成,每一部分的运行方式又不相同:人类大脑在观察到一种颜色时的思考方式与计划假期的思考方式不同,计划假期的思考方式又与理解句子、移动肢体、记忆事实或感受情感不同。”

人类的大脑极其复杂多样:拥有超过 150 个可以清楚辨别的大脑区域,约 860 亿个神经元,数百个(或数千个)不同类型;万亿个突触,每个突触中又有数百种不同的蛋白质。

真正智能且灵活的系统很可能非常复杂,就像人脑一样。因此,任何将智能简单概括为一个原理或一个“主算法”的理论都注定会失败。

 

丰富的内在表征

认知心理学的研究侧重于内在表征,如信念、欲望与目标,经典 AI 也是如此。

例如,为了描述肯尼迪总统著名的 1963 年柏林之行,人们往往会增加一些事实,如 part-of(柏林,德国),visited (肯尼迪,柏林,1963年)。这些表征聚集便形成“知识”,推理便是建立在这一基石上。在此基础上,若你所推断得到的事实是“肯尼迪拜访了德国”,那么你的推理便是不值一提的。

当前,深度学习试图用许多能大约捕捉当下事件的矢量来进行粗略推理,但这根本无法直接代表命题。

在深度学习中,没有能表示 visited(肯尼迪,柏林,1963年)或 part-of(柏林,德国)的具体方法;一切描述都只是粗略接近事实描述而已。深度学习目前在推理和抽象推理上停滞不前,因为它一开始就不是用于表示精确的事实知识。一旦事实模糊,正确推理就很难。GPT-3 系统就是一个很好的例子。相关系统 BERT 也无法针对诸如“如果您将两个奖杯放在一张桌子上并添加另一个,那么您有多少个?”的问题给出可靠答案。

 3 

抽象化与泛化

我们所知道的许多事物都是非常抽象的。例如,“ X 是 Y 的姐妹”可以描述许多不同人之间的关系:Malia 是 Sasha 的姐妹,Anne 公主是 Charles 王子的姐妹,等等。我们不仅知道哪些人是姐妹,还知道姐妹一般指的是什么,并将这些知识应用于个人。

如果两个人有相同的父母,那么我们就可以推断他们的关系是兄弟姐妹。如果我们 Laura 是 Charles 和 Caroline 的女儿,并且发现 Mary 也是他们的女儿,那么我们就可以推断出 Mary 和 Laura 是姐妹。

构成认知模型和常识的基础的表征由抽象关系构建而成,并以复杂的结构组合。我们几乎可以将所有事物抽象化:时刻(如“ 10:35 PM”),空间(如“北极”),特殊事件(如“林肯遇刺”),社会政治组织(如“美国国务院”) ,以及理论构造(如“语法”),并将这些抽象事物用于解释或故事编造,从本质看复杂的情况,以此来推理世界上的各种事物。

 

 4 

深度构造的认知体系

马文·明斯基曾提出一个观点:我们应该将人的认知看作一个“心智社会”,该社会包含数十或数百种不同的 “agent”,每一个 agent 专攻不同类型的任务。

例如,喝一杯茶需要GRASPING agent、BALANCING agent、THIRST agent和其他 MOVING agents的相互作用。进化与发展心理学的许多工作都指明:大脑不只包含一种思维,而是许多种思维。

讽刺的是,当前机器学习的发展趋势几乎与上述观点相反。

机器学习更偏好使用内部结构较少的单一同质机制的端到端模型,比如英伟达在2016年所推出的驾驶模型。该模型没有使用感知、预测与决策等经典模块,而是使用单一的、相对统一的神经网络来学习输入(像素)和一组输出(转向和加速指令)之间的直接相关性。

此类模型的拥护者认为,“联合”训练整个系统的方法有许多优势,不必分开训练单个模块。如果打造一个大的网络更容易,为什么还要费心思去构建单独的模块呢?

事实上,如果“联合”训练整个系统,那么这种系统很难调试,灵活性非常差。在没有人类驾驶员的干预下,英伟达的系统通常只能良好运行几个小时,而不是数千个小时(例如 Waymo 的多模块系统)。Waymo的系统可以从A点导航到B点并进行车道变更,但英伟达的系统却只能一直走同一条车道。

最优秀的AI研究员在解决复杂问题时通常会使用混合系统。

比如,在围棋比赛中,若想取得胜利,就需要将深度学习、强化学习、博弈树搜索与蒙特卡洛搜索相结合。Watson 在Jeopardy!上所取得的胜利,诸如 Siri 和 Alexa 的问答机器人,以及网页搜索引擎都使用了“厨房水槽法”,整合了许多不同类型的流程。Mao等人在“The neuro-symbolic concept learner: Interpreting scenes, words, and sentences from natural supervision”中介绍了一种将深度学习和符号技术相结合的系统,该系统在视觉问题解答和图像文本检索方面产生了良好的结果。Marcus 在“The next decade in AI: four steps towards robust artificial intelligence”中也讨论了许多种不同的混合系统。

 

 5 

用于简单任务的多种工具

即使在细粒度模型中,认知体系也通常包含多个机制。

就拿动词及其过去式来说:在英语和许多其他语言中,一些动词通过简单的规则(如 walk-walked,英语动词原形后面直接加 ed)变成过去时态,另一些动词通过不规则形成过去时态(如 sing-sang,bring-brought)。

根据小孩在将动词变成过去时所犯的错误的数据,Gary Marcus 和 Steven Pinker 提出了一种混合模型。这种模型即使在微观情况下也有小小的结构,其中规则动词根据规则进行泛化,不规则动词的过去时则通过一个关联网络生成。

 

 6 

  组合性

Humboldt 曾说过,语言的本质是“无限使用有限的方法”。在大脑与语言数据有限的情况下,我们成功创造了一种语法,使我们能够说和理解数不清的句子。

在许多情况下,我们是通过较小的成分(例如单个词语或短语)来构造较大的句子。比如“水手深爱这个女孩”这一句子,我们可以将它作为一个更大句子的组成部分(玛丽亚想象,水手深爱这个女孩),这个更大的句子又可以作为一个更更大句子的组成部分(克里斯写了一篇文章,文章是关于 Maria 想象,水手深爱这个女孩),等等。这些句子都很容易为人理解。

相反,神经网络领域的科学家 Geoff Hinton 一直坚持一个观点:句子的含义应该以所谓的“思想向量”(thought vectors)进行编码。但是,句子所表达的思想及句子之间的细微关系太过复杂,因此难以通过将表面上看起来相似的句子简单组合就能理解句子所要传达的意思。基于 Hinton 的观点所构建的系统可以生成符合语法规则的文本,但随着时间的推移与所生成文本的数量增加,系统会越来越无法理解生成的文本内容。

  

 7 

自上而下、自下而上的信息整合

下图图 1:图片所示是字母还是数字?根据上下文,这张图片既可能是字母,也可能是数字(参见图 2)。

认知心理学家经常会将信息区分为“自下而上的信息”(直接来自我们的感官)和“自上而下的知识”(即我们对世界的先验知识,如字母和数字是不同类别,单词和数字是由这些类别中提取的元素组成,等等)。当我们将落在视网膜上的光线与连贯的世界画面融合在一起时,下图所示的模棱两可的符号在不同情况下看起来是不同的。

图 1:可能是数字,也可能是字母

图2:根据上下文而作的解释

无论我们看到什么、读到什么,我们都将其融入到一种情景认知模型中,并结合我们对整个世界的理解。

 

 8 

嵌在理论中的概念

在一个经典的实验中,发展心理学家 Frank Keil 询问孩子们:

“一个浣熊想要做整容手术把外表编程臭鼬,手术完成后身体里留下“超级臭”的东西,这时候,浣熊是否变成了臭鼬?”

孩子们坚定地认为浣熊无论怎样都是浣熊,这大概是他们的生物学理论以及“生物的本质才是真正重要的”的观念使然。(孩子们没有将相同的理论扩展到人造品上,例如被制造成喂鸟器形状的咖啡壶。)

嵌在理论中的概念对于高效学习至关重要。

假设一个小孩第一次看到鬣蜥的照片。几乎是一瞬间,这个小孩不仅能够识别鬣蜥的其他照片,还能识别视频中的鬣蜥和现实生活中的鬣蜥,并轻松地将它们与袋鼠区分开。同样地,这个小孩能够从关于动物的常识中推断鬣蜥要吃东西、要呼吸、出生时体型很小、会成长、会繁殖、会死亡。

没有一件事是一座孤岛。要想获得成功,通用智能需要将其所获得的事实(facts)嵌入到有助于组织这些事实的更丰富的总体理论中。

 9 

 因果关系

Judea Pearl 曾强调,对因果关系的深刻理解是人类认知中一个普遍存在且不可缺少的部分。如果世界很简单,我们对所有事情都有全面的了解,那么我们唯一需要的因果关系就是物理学。我们可以通过模拟来确定是什么影响什么,比如,如果我施加微牛顿力,接下来会发生什么?

但是,这种详细的模拟是不现实的,因为要跟踪的粒子太多,时间太短,我们的信息也太不精确。

相反,我们经常使用近似值。我们知道事物是因果相联的,即使不知道原因。就像我们服用阿司匹林,因为我们知道这会使我们感觉好些,但我们不需要了解生物化学。因果知识无处不在,是我们大多数工作的基础。 

 

 10 

   追踪个体

在日常生活中,你会关注各种各样的单个物体,包括它们的属性和历史。比如,你的配偶曾经是一名记者,你的汽车后备箱上有凹痕,去年你更换了变速箱,等等。我们的经验由随着时间的流逝而永存、变化的实体组成,我们所了解的许多事物都是由这些事物的相关事物与这些事物的单独历史、特质来组织而成。

但奇怪的是,这并不是深度学习系统所固有的观点。

在大多数情况下,当前的深度学习系统专注于学习通用的、类别层面的关联,而不是有关特定个体的事实。在没有诸如数据库记录之类的概念,以及时间和变化的丰富表征时,很难追踪单个实体与所属类别的区别。 

 

 11 

  先天知识

有多少思维结构被建立,又有多少思维结构被学会了呢?“天性 vs 培养”(nature vs nurture)的常见对立是一种错误的二分法。生物学(更准确来说,是来自发展心理学和发展神经科学)的研究证明:先天知识与后天学习是一起进行的。

很多机器学习的研究人员希望系统从头学起。但从完全空白的状态中学习,只会使学习变得更困难。这相当于没有先天知识,只有后天学习。

最有效的解决方案其实是将“先天知识”与“后天学习”结合起来。人类很可能天生就能理解世界是由永恒不变的物体组成的,这些物体在时空的连接轨迹上航行,具有几何形状和数量的意识,还有直观的心理学基础。

同样地,AI系统不应尝试从像素与动作的关联中学习所有内容,而应在一开始就以对世界的核心了解作为开发更丰富模型的基础。

 

 12 

   结 论

认知科学的研究发现启发了我们对建立具备人类思维灵活性与通用性的人工智能的探索。机器不需要复制人类的思想,但对人类思想的深刻理解也许会带来 AI 技术的重大进步。

我们认为,AI 的下一步发展应从专注于执行人类知识的核心框架开始,包括时间、空间、因果关系,以及物理对象和人类及其相互作用的基础知识。这些知识应该嵌入到可以自由扩展到各种知识的架构中,并始终牢记抽象、组合和追踪个体的核心原则。

我们还需要发展强大的推理技术,以处理复杂的、不确定的、不完整的知识,并可以自上而下和自下而上地工作,并将这些推理技术与感知、操作和语言联系起来,建立丰富的世界认知模型。重点是构建一种以人类为灵感的学习系统,可以利用 AI 拥有的所有知识和认知能力,将其学到的知识整合到其先验知识中,并能够像孩子一样从各种可能的信息源中学习:学习与世界互动,与人互动,阅读,观看视频,甚至被教导等。

这是一个艰巨的任务,但是必须要做的。

原文链接:

https://cacm.acm.org/magazines/2021/1/249452-insights-for-ai-from-the-human-mind/fulltext

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/485501.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

17-比赛2 C - Maze (dfs)

Pavel loves grid mazes. A grid maze is an n  m rectangle maze where each cell is either empty, or is a wall. You can go from one cell to another only if both cells are empty and have a common side. Pavel drew a grid maze with all empty cells forming a co…

html div 知识点,HTML知识点总结之div、section标签

div元素div是块级元素,相当于一个容器,在语义上不代表任何特定类型的内容。主要用作大的框架布局,也就是说网页的骨架主要通过div来架设的,而网页的血肉则是有span、p或者ul等元素完成。section元素标签是HTML5新增的语义化标签&a…

我们的大脑,足以理解大脑本身吗?

来源: 利维坦树突(红色)神经元的分支过程,接收突触信息的突出棘的渲染,以及来自小鼠大脑皮层的饱和重建(多色圆柱体)。© Lichtman Lab at Harvard University利维坦按:关于大脑…

Leetcode--17.电话号码的字母组合

给定一个仅包含数字 2-9 的字符串,返回所有它能表示的字母组合。 给出数字到字母的映射如下(与电话按键相同)。注意 1 不对应任何字母。 示例: 输入:"23" 输出:["ad", "ae", "af…

博弈论模型总结

博弈论五大模型 前四大模型的深入理解 Bash博弈模型 有一堆数量为n的石头,双方轮流每次从堆中取至少1个石头最多m个石头,谁先取完谁赢。 设存在整数k和r使方程**nk*(m1)r**成立,当r0时先手必败,否则先手必赢。 结论:n%(m1) 0, 先…

安全技术可以采用计算机安全,2017年计算机三级《信息安全技术》习题

2017年计算机三级《信息安全技术》习题信息安全技术主要培养熟练掌握网络设备的安装、管理和维护,能分析企业网络和信息系统安全漏洞、及时解决网络安全问题,并能够根据企事业单位业务特点设计制作安全的电子商务/政务网站的专业人员。以下是小编整理的2…

福布斯:14位技术专家预测,未来哪些行业将被AI颠覆?

来源:Forbes转自:新智元未来,哪些行业将从人工智能中受益?14位技术专家对哪些行业和部门最终将从AI中受益最大进行了预测。哪些行业将受益于AI?目前,人工智能和机器学习已进入许多不同的行业,改…

P3195 [HNOI2008]玩具装箱TOY

P3195 [HNOI2008]玩具装箱TOY 题目描述 P教授要去看奥运,但是他舍不下他的玩具,于是他决定把所有的玩具运到北京。他使用自己的压缩器进行压缩,其可以将任意物品变成一堆,再放到一种特殊的一维容器中。P教授有编号为1...N的N件玩具…

Leetcode--671. 合并二叉树

给定两个二叉树,想象当你将它们中的一个覆盖到另一个上时,两个二叉树的一些节点便会重叠。 你需要将他们合并为一个新的二叉树。合并的规则是如果两个节点重叠,那么将他们的值相加作为节点合并后的新值,否则不为 NULL 的节点将直…

吕述望 计算机网络专家,特稿: 中科院吕述望教授:互联网名不符实

国际中华智慧学会创新智慧研究通讯编号:YT-2012-007发布日期:2012年8月28日吕述望教授认为中国互联网名不符实中国香港讯:月前,中国工信部部长隆重宣布,将加快面向全新框架未来互联网的技术研发前沿布局,力…

打开AI芯片的“万能钥匙”

来源:雷锋网 作者:包永刚雷锋网按,新推出的AI芯片因架构的独特性和软件的易用性增加了客户尝试和迁移的成本,因此,软件成为了能否快速、低成本迁移的关键。现在普遍的做法是在TensorFlow写一些后端集成新硬件&#xff…

python2.7 threading RLock/Condition文档翻译 (RLock/Condition详解)

RLock Objects 可重入锁是一个同步原语,它可以被同一个线程多次获取。在内部,除了原始锁使用的锁定/解锁状态之外,它还使用“线程拥有”和“递归级别”的概念。在锁定状态下,某些线程拥有锁;在未锁定状态下&#xff0c…

Leetcode--33. 搜索旋转排序数组

假设按照升序排序的数组在预先未知的某个点上进行了旋转。 ( 例如,数组 [0,1,2,4,5,6,7] 可能变为 [4,5,6,7,0,1,2] )。 搜索一个给定的目标值,如果数组中存在这个目标值,则返回它的索引,否则返回 -1 。 你可以假设数组中不存在…

北理计算机教案,北理工版三年级信息技术教案重点.docx

第1单元 初识神奇计算机第1课 神奇电子计算机【教学目的和要求】1、学生了解计算机组成各部分的名称和作用。2、学生知道什么是计算机软件,了解计算机软件的作用。3、学生了解计算机处理信息的过程。4、学会正确启动与关闭计算机。【教学重点】教学难点:…

Leetcode--162. 寻找峰值

峰值元素是指其值大于左右相邻值的元素。 给定一个输入数组 nums,其中 nums[i] ≠ nums[i1],找到峰值元素并返回其索引。 数组可能包含多个峰值,在这种情况下,返回任何一个峰值所在位置即可。 你可以假设 nums[-1] nums[n] -…

计算机发展历程按什么划分,计算机的发展阶段是按什么划分的

大家好,我是时间财富网智能客服时间君,上述问题将由我为大家进行解答。计算机的发展阶段是按电子元件划分的,具体阶段如下:1、第1代为电子管数字机( 1946到1958年)。硬件方面,逻辑元件采用的是真空电子管,主存储器采用汞延迟线、阴…

因果推理、正则化上榜:权威专家盘点过去50年最重要的统计学思想

来源:机器学习研究组订阅在日常生活中,统计学无处不在,每个人、每件事似乎都可以使用统计数据加以说明。随着人类迈入大数据时代,统计学在方方面面更是发挥了不可或缺的作用。统计学思想,就是在统计实际工作、统计学理…

Nginx正向与反向代理

Nginx 主要用于反向代理与负载均衡 什么是代理服务器(Proxy Serve)? 提供代理服务的电脑系统或其它类型的网络终端,代替网络用户去取得网络信息。 为什么使用代理服务器? 提高访问速度 由于目标主机返回的数据会存放在代理服务…

计算机组成原理延迟时间ty,计算机组成原理第6章_5运算方法.ppt

文档介绍:6.5 算术逻辑单元一、ALU 电路四位 ALU 74181M 0 算术运算M 1 逻辑运算S3 ~ S0 不同取值,可做不同运算ALUAiBiFi…SiM位片式运算器4位双极型位片式运算器AM2901,它将ALU、通用寄存器组、多路开关、移位器等逻辑构件集成在一个芯片内。通用寄存器寄存器写…

Leetcode--172. 阶乘后的零

给定一个整数 n,返回 n! 结果尾数中零的数量。 示例 1: 输入: 3 输出: 0 解释: 3! 6, 尾数中没有零。 示例 2: 输入: 5 输出: 1 解释: 5! 120, 尾数中有 1 个零. 说明: 你算法的时间复杂度应为 O(log n) 。 思路: 能出现零的因子里面一定出现2&am…