他们提出了一个大胆的猜想:GWT(深度学习)→通用人工智能

来源:AI科技评论

编译 :陈彩娴

近日,有一篇发表在arXiv的论文“Deep Learning and the Global Workspace Theory”提出了一个大胆的猜想(或理论)。

两位作者认为,当下的深度学习已经可以基于一个意识模型,即“全局工作空间理论”(GWT),将处理不同模态转换的神经网络即功能模块,结合为一个系统,从而迈向实现通用人工智能的下一个阶段。总结成公式就是:GWT(深度学习)→通用人工智能。

论文链接:https://arxiv.org/pdf/2012.10390.pdf

然而,深度学习的那些被人广泛诟病的问题,如脆弱性、不可解释性等等,可以通过这个框架来解决吗?现在学术界一直提倡的结合知识、结合图网络、结合因果关系等观点,他们又怎么看待呢?

作者在论文中也部分地给出了自己的答案。他们认为,该系统可以提高神经网络的对抗鲁棒性,实现Bengio提出的系统2认知,以及对于理解因果关系很重要的反事实推理等等。

这个理论是否可行,尚不可知,但其描绘的图景值得一看。

1

论文摘要

随着深度学习的不断发展,人工智能在许多感知、理解、语言与认知任务中已接近人类。然而,我们对开发基于大脑的认知架构的需求也在不断增长。

全局工作空间理论(Global Workspace Theory)指的是一个将专业模块网络中的信息整合和分发,以创建更高级的认知和意识形式的大规模系统。

作者认为,现在正是使用深度学习技术实现全局工作空间理论的时机。因此,他们基于多个隐空间(Latent Space:针对不同任务,在不同的感知输入和/或模态上训练的神经网络)之间的无监督神经翻译提出了一个路线图,以创建一个独特的非模态全局隐工作空间(Amodal Global Latent Workspace)。

2

大脑与机器中的认知神经架构

在机器学习的体系中,深度学习的特征是使用在输入与输出层之间具有多个“隐藏”层的人工神经网络。人工智能的许多最新突破,都要归功于深度学习。神经科学家也指出了大脑与深度人工神经网络之间的相似性与差异性。

深度学习的出现,使计算机能够有效执行此前无法实现的感知与认知功能。在这篇论文中,作者等人希望将深度学习扩展至全局工作空间理论(GWT)。GWT是感知、执行功能甚至意识的基础。

GWT是一种意识模型,最初由美国心理学家Bernard J. Baars等人提出,是当代主要的神经科学意识理论之一(图1A)。

该理论提议将大脑分为执行不同功能的专用模块,模块与模块之间具有长距离连接。通过注意选择的过程确定输入或任务要求后,专用模块内的信息可以在不同模块之间传播与共享。根据该理论,每一时刻的及时共享信息(即全局工作空间)构成了我们的意识知觉。从功能的角度来看,全局工作空间可以通过协调多个专用模块来解决单个模块的功能所无法解决的问题。

图 1:大脑中的全局工作空间

如上图所示,图1A是GWT的示意图。同心圆描绘了外围(如感知输入)与更多的中间过程,全局工作空间位于中心。每个专用模块都是独立处理信息。通过自下而上(基于重要性)或自上而下(与任务相关)的注意力来选择输出时,输出可以进入全局工作空间。

在全局工作空间中,信息处理的特点是长距离的互连性强,因此可以将新的信息传播到其他模块。在任何给定时间内,专用模块的子集都会依赖数据与任务被调到工作空间中。全局工作空间的内容反映了我们不断变化的意识。

图1B是GWT映射到(猴子)大脑。图左,视觉信息可以通过视觉系统传播,并激活以前馈方式控制行为输出的额叶区域——在这种情况下,信息是无意识的。图右,当输入足够强大或与任务相关时,输入将激活循环连接,导致全局工作空间“点火”(ignition,一个高度非线性、非零的过程)。

图C是受Dehaene和Changeux启发的全局神经元工作空间(GNW)实现,包含了具有前馈和循环连接的处理层的分层结构(LGN:外侧膝状体;V1 / V4:视觉区域;Par:顶皮质区;Front:额叶皮层)。

图D所示的简单循环网络是全局工作空间的全或无“点火”的原因所在:与漏掉的或未检测到的输入(分别是Correct Rejection与Miss)相比,大脑有意识感知到的输入(Hits)的主要特征是额叶区域的全或无激活(或“点火”)。

Dehaene等人提出了该理论的神经元版本,即全局神经元工作空间(Global Neuronal Workspace )。根据GNW理论,当新的信息通过在前额叶、额颞叶和扣带状皮层中密集分布着远距离轴突的神经元网络到达全局多个大脑系统时,意识通达就会产生(图1B)。GNW关键方面的尖峰神经网络实现,捕获了全局工作空间理论的本质(图1C)以及意识报告与神经元反应之间的已知关系(图1D)。但这种方法是否能够以足够的灵活性扩展来解决人工智能中的问题,仍未可知。

在这篇论文中,作者提出使用深度学习的知识来实现全局工作空间理论。Yoshua Bengio将他最近的“意识先验”理论与GWT明确地联系起来,但他的观点主要强调机器学习的一些新颖理论原理(例如稀疏因子图)。作者在这里提出了一种互补的方法,其中强调使用当前可用的深度学习组件来实现全局工作区的实用解决方案,同时也关注大脑中的等效机制。

3

深度学习GLW的路线图

在下文中,作者们尝试一步步定义AI系统中实现全局工作空间的必要和充分组件。这些步骤构成了一个路线图,研究人员可以按照该路线图来实现这个目标。

需要强调的是,下面所描述的所有组件都是单独存在,有些甚至在各自的功能上达到或超过人类水平。某些细节可能存在漏洞;此外,也可能有多种方法来实现全局工作空间。总体而言,作者认为下文的策略最有可能成功。

3.1 多个专用模块

GWT的第一个组成部分是N个(N≥2)独立的专用模块(具体参考论文中的Glossary),每个模块都有自己的高级隐空间(隐空间的定义和示例,请参见图2)。这些模块可以是经过预训练的、专门用于感知(视觉分类,听觉分类,或目标分割)的神经网络,可以是自然语言处理模块,可以是长期记忆存储模块,可以是强化学习智能体,也可以是运动控制系统等等。当然,选择这些专用模块非常关键,因为这决定了整个全局工作空间系统的功能,以及全局工作空间可能执行的任务范围。但这不会影响下面列出的其他原则。

图 2:深度学习隐空间的示例,指一个能够捕获输入域或任务的相关结构和拓扑的低维空间,通常指判别模型的最后一个特征层与生成模型的第一层。

深度学习隐空间的示例(投影到2D以进行可视化)包括:

A. MNIST数据集的隐空间。数据集中的每个图像都是左侧空间中的一个点,根据数字类别进行着色。定期在2D矩阵中对隐空间进行采样会促进右侧的图像重建(使用UMAP逆变换方法创建)。

B. 词嵌入空间(Word2Vec算法)。隐空间的不同部分专注于不同的语义域(例如插图中的“sea”)。

C. ImageNet自然场景数据集(从BigGAN生成模型得出)的隐空间。每行沿着256维隐空间中的单个矢量采样不同的点。

D. VAE-GAN模型的人脸隐空间。针对每一列,从隐空间中采样一个点,然后向其中添加数量不等的预先计算的“微笑”或“男性”向量。必须强调的是,潜在表示(latent representations)本质上是神经激活的向量,可以使用代数运算(如panel D所示)进行内插(如panel A与C)、外推或更广泛的操作。

从理论上讲,将N个前馈判别模型连接在一起(每个网络都经过训练,可以根据类别对来自特定领域的输入进行分类)便足以构建一个多模态工作空间(比如,当一个人听到“老虎”这个单词时,会预激活“老虎”的视觉识别单元)。

但实际上,加入生成模型的好处有很多:网络能够生成运动或语言输出,还会生成具有自上而下的生成路径的传感系统,例如(可变的)自动编码器、GAN与预测编码网络。

如果全局工作空间的目标是影响系统的行为输出,那么包含生成网络是非常必要的。此外,包含生成网络对系统能够具备创造力或“想象力”(比如生成心理图像),对通过迭代构想一个可能的未来状态或反事实状态来进行思维模拟,意义都非常重大。最后,当一个输入达到意识,且相应的模块被移动到有意识的全局工作空间中时,一个循环的、自上而下的途径可能是解释从大脑中观察到的“点火”特性的关键(图1B与D)。

3.2 全局隐工作空间(Global Latent Workspace,GLW)

GLW是一个独立的中间共享隐空间,在本质上是非模态的,经过训练后可以在专用模块的N个隐空间之间执行无监督的神经翻译(图3,本文的关键图)。

尽管在深度学习中有许多监督多模态翻译的例子,但在本文中,作者强调循环一致性是神经翻译的主要无监督训练目标。如此,GLW可能会在任何一对模块之间进行转录,即使模块之间没有匹配数据(例如,没有气味与特定的视频游戏状态进行系统关联),我们也可以直观地识别出玩家的状态何时变得不同。

当然,如果默认的无监督神经翻译策略也可以在有关联数据可用时(例如,在观看动物的同时听到相应的声音)补充有监督的目标,自然是最好的。按预期,这个中间空间的维数应该与每个输入隐空间的维数相等或更高,但远低于所有输入隐空间的总和。这个“瓶颈”现象可以确保仅对相关信息在某个时间点进行编码,并迫使系统优先处理带有注意力的竞争性输入。

图3:深度学习“全局隐工作空间”的示意图

如图3所示,深度学习“全局隐工作空间”的专用模块分布在外围,可以是针对各种任务的预训练网络:感知(物体识别,检测,分割,语音识别...),运动(机器人手臂控制,语音生成…),语言(文本理解,机器翻译,文本-语音转换...),记忆存储,或更高级别的与认知和行为相关的功能(直观物理引擎,RL策略,任务嵌入...)。每个模块都通过模块的相关隐空间的内部副本连接到GLW(如图所示,位于中心)。

通过使用循环一致性目标进行深入训练,这个工作空间学会了以几乎无人监督的方式在任意两个模块的隐空间表示之间进行转换,不需要或仅需要少数配对数据(红色箭头)。当自下而上或自上而下的注意力从一个模块中选择输入时,其隐空间激活被复制到GLW中,并立即被转换为适用于其他各个模块的表示形式。

但是,这些模块中只有少数模块(当前已移至工作空间中的模块)将有效地接收和处理相应的数据。例如,在视觉场景中识别出老虎后,“老虎”的NLP单词嵌入和与逃跑相关的行动计划会出现在工作空间中;但是,如果此时在工作空间中采取了特定的相应模块(文本到语音,运动输出),那么“老虎”一词就只是发音,或启动逃跑。

3.3 注意力

在大脑中,注意力决定了哪些信息能被有意识地感知,以及哪些信息会被丢弃(尽管注意力和意识可以分离)。同样,在原始GWT中,由注意力选择进入工作空间的信息。

在深度学习中,注意力在近期已经引起人们的关注,尤其是在NLP和CV中广泛使用的transformer架构。在transformer和相关网络中,注意力是一个网络层发出的查询与另一网络层发出的查询之间的匹配(在自注意力机制下,网络可能是同一层);匹配分数确定将哪些信息传递到下一阶段。

同样地,我们可以设想一个键-查询匹配过程,以选择到达GLW的输入。如果工作空间包含当前任务的潜在表示,则该信号可用于发送自上而下的注意查询:每当输入模块的隐空间产生一个匹配键时,相关信息就会被带入工作空间。

在没有明确任务的情况下,或者在有异常强烈或令人惊讶的输入的情况下,自下而上的注意可能会占上风:在上述术语中,显信息具有取代所有查询的“主键”。以数据依赖和任务依赖的方式生成键和查询的注意力机制必须通过使用特定目标函数的训练来优化。

3.4 内部副本

当选择一个特定模块的信息进入工作空间时,隐空间激活向量的副本也会被带入GLW。如果隐空间是概率性的(像在变分自动编码器中一样),就可以从概率分布中获取唯一的样本——这可以确保始终保持GLW的统一表示,与我们的主观经验和神经科学证据保持一致。

3.5 广播

被选上的信息很快得到广播,即(通过共享的隐空间)转换为其他模块的隐空间。这个转换过程是自动的:无需其他努力就能有意识地理解我们的内部和外部环境。这也是有意识的输入获取“含义”的方式,因为这些输入会突然与相应的语言、运动、视觉与听觉等表示形式连接。

这仅意味着,相关格式的相关信息对这些系统来说是“可用”的(作为工作空间内的内部副本),但不一定要使用(如有效地复制到相应的模块中)。人们不会总是形象化地联想到一张心智图像的细节,也不是总会说出他们的想法或心里话,也并非总是按照运动计划来行动,等等。

决定这些信息是否会被这些系统使用的,是它们本身目前是否已连接到工作空间(比如,由于它们的任务相关性)。许多在工作空间内广播有意识输入时自动形成的潜在表示不会为自身有意识地感知,但可能与Crick和Koch所描述的“意识半影”(penumbra of consciousness)相对应。

4

GLW的功能优势

本文介绍的GLW架构有一个主要的可测试特性,即整体应大于其各个部分(即各个模块)的总和。换句话说,GLW的附加功能属性也可以提高与其连接的所有模块的性能。除了这些已有的单个任务外,全局工作空间还提供了组合模块以执行全新任务的可能性。

首先,GLW中的自动多模态对齐表示是完成信息基础的理想途径。感知输入或运动输出不再是各自隐空间中的无意义矢量,而是与其他感知运动域中的相应表示与相关的语言表示产生了关联,这促成了感知运动数据的语义基础。

与语义信息的感知运动基础相反,仅捕获空心“语言标记”之间的长期统计关系的语言嵌入向量通过与感知环境或智能体的运动和行为方式的相关部分进行关联而得到转换。

因此,感知运动接地(grounding)的概念与Gibsonian可供性(affordance)的概念紧密相关,且与Gibson在脑科学中的生态学方法有更广泛的连接。最终,接地的潜在表示可以为与全局工作空间连接的每个模块提高性能,尤其是在提高分布外样本(包括所谓的“对抗”攻击)的鲁棒性方面。

虽然接地和可供性是信息进入全局工作空间的即时自动结果,但这种系统需要花费更多的时间和精力。事实上,以任务依赖的方式将任意模块组合短暂地移动到工作空间中的能力,正是通用认知架构所需要的。

如此,通过将一个模块的功能部署到另一个模块的潜在表示上,系统可以从专用模块中获得更多常规功能。这种迁移学习使智能体能够通过泛化先前已学习的模型来适应新的环境和任务,并成为实现智能的核心条件。因此,作者提出以共享隐空间作为意识平台,弥合了意识与通用智能之间的理论联系。

当有足够多样化的模块可用时,它们的可能组合实际上是无限的。取得这种灵活性需要付出大量的时间和精力:思维功能组合是一个缓慢而有序的过程,需要反复使用自上而下的注意力,以调用相关的模块,一次使用一个功能。这也是Kahneman和Bengio所说的系统2认知。

这种灵活的思维组成系统具有的一个主要功能是反事实推理,或回答“如果……会怎样”的能力。这种能力是高级认知中绝大标志性属性的核心:想象力和创造力,规划,思维模拟,关于未来的可能状态的迭代推理。在这种情况下,世界模型(即环境对人的行为做出反应的内部模型)在寻找新任务的解决方案上特别有用,因为它们提供了任务独立的相关信息,可以让智能体通过内部模拟进行离线学习。

可以说,这些假设的功能优势应转化为可检验的预测。每个模块潜在的、得到改善的性能和鲁棒性可以通过现有基准轻松验证。虽然高级认知功能可能需要新的测试平台,但迁移学习和任务组成基准已经存在。最终,这篇论文所罗列的优势,是捕获人类和动物的意识功能,以及迈向通用人工智能的途径。

5

术语解释:通过循环一致性进行无监督神经翻译

在自然语言处理中,神经翻译系统是一种使用神经网络的机器翻译算法。标准的(神经)机器翻译是通过源语言和目标语言的匹配示例(单词,句子)来学习。

但是,由于所有语言都表示外部世界的共同物理现实(所谓的语言基础属性),因此,从理论上讲,完全有可能无需借助匹配的语料库(图 I)就能在两种(或更多)语言中学习对齐语言表示形式,这也被称为“无监督神经翻译”。

最近人们提出了一种新方法,依赖于循环一致性的训练目标:从语言A到语言B进行连续翻译,然后从语言B翻译到语言A,如果能翻译回原来的句子,语言对齐就取得了成功。类似的方法已在不同领域之间的神经翻译上得到应用,例如不成对的图像到图像翻译,文本到图像翻译,或触觉到图像翻译。通过循环一致性训练进行的域对齐也是最近研究无监督域适应和迁移学习任务的研究核心。

图 I:语言表示之间的对齐。来自任意两种语言X和Y(本论文用的是法语和日语)的隐空间共享相似的拓扑,还可以通过变换W与共享的隐空间Z对齐。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/485779.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

科学史上那些盛极一时的“著名理论”是如何被攻破的?

《雅典学院》名画中的亚里士多德和柏拉图来源 :《自然》百年科学经典制版编辑: Morgan在科学发展的过程中,曾经涌现出不少盛极一时而后被证明是错误的理论。这些理论有的也许在今天看来悖谬荒诞,但是从整个科学发展的过程来看,它们仍然有其作…

AI在智能建筑中的应用和发展

来源:中研网图片来源:网络智能建筑诞生于二十世纪末,第一幢智能建筑于1984年在美国哈特福德 (Hartford)市建成。我国于90年代才起步,但迅猛发展势头令世人瞩目。目前,新技术、新产品在智能建筑中…

SpringBoot核心

1.基本配置 1.1入口类和SrpingBootApplication SpringBoot通常有一个名为*Application的入口类,入口类里有一个main方法,这个main方法就是一个标准的java应用的入口方法 。在main方法中使用SpringApplication.run,启动springboot项目。 其中EnablieAutoC…

grpc简单使用 java_gRPC学习记录(四)-官方Demo - Java 技术驿站-Java 技术驿站

了解proto3后,接下来看官方Demo作为训练,这里建议看一遍之后自己动手搭建出来,一方面巩固之前的知识,一方面是对整个流程更加熟悉.官方Demo地址: https://github.com/grpc/grpc-java例子是一个简单的路由映射的应用,它允许客户端获取路由特性的信息,生成…

冯端:漫谈物理学的过去、现在与未来

来源: 算法与数学之美撰文: 冯端 (南京大学物理系)“物理学的过去、现在和未来”是一个非常大而且重要的题目,也是一个非常难讲的题目,特别是涉及物理学的未来,结果往往是贻笑大方。这里以历史的透视为主线&#xff0c…

第四次博客

第四次博客 一、测试与正确性论证的比较 测试具有针对性,能从一些方面完美的展现出代码的正确性,但是它的验证度取决于样例的质量。 优点是方便,快捷,结果明显;缺点是可能不会覆盖到方方面面。 正确性论证能从所有的方…

院士论坛|李德仁:测绘遥感能为智能驾驶做什么? ——论测绘遥感与智能驾驶

来源: 中国测绘学会未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业…

Spring Boot-springbootHelloword(一)

什么是springboot sprng家族一个全新的框架 简化我们应用程序的创建和开发的过程,使用默认配置简化了我们以前传统的配置 springboot的特性 能够快速创建spring程序能够使用java main方法启动内嵌的 tomcat 或者jetty服务器运行spring boot程序提供约定的starter p…

原创工作发表难之叶公好龙

来源:张志东科学网博客链接地址:http://blog.sciencenet.cn/blog-2344-1265601.html 最近,科学网上一个热点话题是原创工作发表难不难?以真傻为代表的认为原创工作发表难,以王立新为代表的认为原创工作发表不难。那么&…

java字符的输入流_Java:字节流和字符流(输入流和输出流)

InputStream是抽象基类,所以它不可以创建对象,但它可以用来“接口化编程”,因为大部分子类的函数基类都有定义,所以利用基类来调用函数。FileInputStream是用来读文件数据的流,所以它需要一个文件对象用来实例化&#…

任正非内部重磅发言:华为不可能简单学阿里、亚马逊

来源:券商中国辞旧迎新之际,华为创始人任正非此前在华为企业业务及云业务汇报会上的发言于华为心声社区曝光。任正非指出,华为企业业务要聚焦战略重点,继续做减法,收缩企业业务做战线,认真弄清楚做作战模型…

java8 迭代set集合_JavaSE(八)集合之Set

2.2、HashSet特点不能保证元素的排列顺序,顺序可能和添加的顺序不同,顺序也有可能发生变化。HashSetf不是同步的,如果多个线程同时来访问一个 HashSet,假设有两个或者两个以上线程同时修改了HashSet 集合时,则必须通过…

AI 发展方向大争论:混合AI ?强化学习 ?将实际知识和常识整合到AI中 ?

一个仿人机器人的延伸手。机器人常常使用强化学习来加以训练来源:云头条作者:Ben Dickson是一名软件工程师,还是探讨技术在如何解决和带来问题的TechTalks博客的创始人。2010年代对于AI界来说意义重大,这归功于深度学习领域取得了…

吴恩达:2020 年,这些 AI 大事件让我无法忘怀...

作者:吴恩达编译:陈大鑫、贝爽编辑:青暮转自:AI科技评论日前,吴恩达在圣诞节之际回顾了2020年AI的一些重大事件,包括AI应对新冠疫情、数据集存在种族偏见、对抗虚假信息算法、AlphaFold预测蛋白质三维结构、…

java工程师的一生_百看不厌之一张图诠释程序员的一生

原标题:百看不厌之一张图诠释程序员的一生01百看不厌系列之一张图诠释程序员的一生。02变得越来越强了...03不知道是干什么的,但又不敢删。。。04当前端的人抱怨Java 时,C程序员05给产品经理设计了一款趁手的宝贝06离职程序员交接项目07这位压…

好久没玩laravel了,5.6玩下(三)

好久没玩laravel了,5.6玩下(三) 好了,基础的测试通了,咱们开始增删改了 思路整理 先创建项目功能控制器 然后设置路由访问规则 然后开发项目的增删改功能 1 先创建项目的控制器 php artisan make:controller ProjectsC…

OpenAI祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力...

来源:AI科技评论作者:OpenAI编译:贝爽、陈大鑫前几个月GPT-3刚刚问世的时候,能够根据一段话就写出一个小说、一段哲学语录,就足以令AI圈为之感到兴奋。然而2020年刚刚开始没多久,OpenAI又实现一重大突破&am…

MySQL快速生成连续整数

很多时候需要用到连续的id进行数据对比,如判断是否连续等问题。那么,生成连续整数的方式有多种,首先容易想到的是逐步循环,如果想生成1kw条记录,则需要循环1kw次进行插入,那么有没有其他方式呢,…

MySQL小问题:The server time zone value 'Öйú±ê׼ʱ¼ä' is unrecognized or represents...

这是因为时区设置不对 问题背景: 在运行storm项目,进行页面显示的时候,报错: java.sql.SQLException: The server time zone value is unrecognized or represents more than one time zone. 这是时区的问题。 我采用的第一个…

中国电子信息工程科技发展十四大趋势(2021)

来源:科技日报、中国电子报(转载请注明来源)编辑:蒲蒲1月5日,中国工程院信息与电子工程学部、中国信息与电子工程科技发展战略研究中心发布“中国电子信息工程科技发展十四大趋势(2021)”&#…