DeepMind集成AI智能体架构「MERLIN」:基于目标导向智能体中的无监督预测记忆

来源:arXiv

摘要:在自然界中,动物往往会执行目标导向的行为,尽管它们的传感器的范围有限。

作者:Greg Wayne、 Chia-Chun Hung、David Amos、Mehdi Mirza、Arun Ahuja、Agnieszka Grabska-Barwinska、Jack Rae、Piotr Mirowski、Joel Z. Leibo、Adam Santoro、Mevlana Gemici、Malcolm Reynolds、Tim Harley、Josh Abramson、Shakir Mohamed、Danilo Rezende、David Saxton、Adam Cain、Chloe Hillier、David Silver、Koray Kavukcuoglu、Matt Botvinick、Demis Hassabis、Timothy Lillicrap


「雷克世界」编译:嗯~是阿童木呀、KABUDA、EVA


在自然界中,动物往往会执行目标导向的行为,尽管它们的传感器的范围有限。为了应对环境问题,它们会对环境进行探索并储存记忆,保持对目前无法获得的重要信息的估计。类似地,最近,DeepMind提出了MERLIN,这是一种集成的AI智能体架构,它可在部分观察到的虚拟现实环境中操作,并基于不同于现有的端到端的AI体系的原理将信息存储于记忆中。


在自然界中,动物往往会执行目标导向的行为,尽管它们的传感器的范围有限。为了应对环境问题,它们探索环境并储存记忆,保持对目前无法获得的重要信息的估计。


最近,人工智能(AI)智能体在这方面取得了进展,它们通过将强化学习算法与深度神经网络相合并,学会从感官输入执行任务,甚至达到了人类水平。这些结果激起了科学家们对相关想法的追求,比如解释非人类动物的学习。


然而,我们证明了,当有足够的信息隐藏在智能体的传感器中时,当代的强化学习算法很难解决简单的任务,这种属性被称为“局部可观测性”(partial observability)。处理局部观察到的任务的一个明显的需求是访问大量的记忆,但是我们发现记忆不够,正确的信息以正确的格式进行存储是至关重要的。


我们开发了一个模型,记忆、强化学习和推理网络(Memory, RL, and Inference Network,MERLIN)。在这个模型中,记忆的形成是由一个预测建模的过程进行指导的。MERLIN使在3D虚拟现实环境中解决任务变得容易,在这种环境中,局部可观测性是非常严重的,而且必须在长时间内保持记忆。我们的模型展示了一个单一的学习智能体的架构,它可以解决心理学和神经生物学中的典型行为任务,而不需要对感官输入的维度和经验的持续时间做出强力的简化假设。


智能体模型


现如今,人工智能研究正在经历一场复兴,因为强化学习技术,解决了优化序列决策的问题,与深度神经网络相结合形成人工智能体,从而可以通过处理复杂的感官数据,做出最佳决策。同时,科学家们开发了新的深度网络结构,将重要的先验知识编码到学习问题中。其中一个重要的创新是利用外部记忆系统开发神经网络,使得来自大量的历史事件中合成信息的计算能够被学习到。


对于所提出模型进行的实验


在强化学习智能体中,带有外部记忆系统的神经网络已经进行了“端到端”的优化,以最大化在任务环境中进行交互时获得的奖励数量。也就是说,系统学会了如何从输入(感官)数据中选择相关信息,将其存储在记忆中,并仅从试验和错误的操作选择中读取出相关的内存条目,从而使任务的奖励高于预期。


虽然这种针对人工记忆的方法被证明是成功的,但我们发现,它不能解决心理学和神经科学中行为研究里的简单任务,特别是那些涉及在相关刺激和后面决策之间存在长时间延迟的任务。这包括但不限于这些问题:导航回到之前访问过的目标、快速奖励评估,其中智能体必须在几乎没有曝光的情况下理解不同对象的值、以及潜在学习(latent learning),一个智能体在进行探索之前通过特定任务获得关于环境的未说明的知识。


潜在学习


我们提出了MERLIN,这是一种集成的AI智能体架构,它可在部分观察到的虚拟现实环境中操作,并基于不同于现有端到端的AI体系的原理将信息存储于记忆中。它学习处理高维感官流,对其进行压缩和存储,并且回忆对任务奖励依赖性较小的事件。


我们将来自外部记忆系统、强化学习和状态估计(推理)模型的成分汇聚在一起,利用从心理学和神经科学的三种观点(预测感觉编码Gluck和Myers的海马表象理论(hippocampal representation theory)时间语境模型和后继表象)中获得的灵感,将它们组合为一个统一的系统。


为了测试MERLIN,我们将它置于一组来自心理学和神经科学的典型任务中,以此来表明,它可以找到解决对现有AI构成严峻挑战的问题的方法。MERLIN给出了一种超越端到端RL限制的方法,这可用于对未来计算智能体的记忆展开研究。


强化学习使得从感官观察o到行动a找到一个策略π或映射变得形式化。强化学习的一个主要方法是考虑随机策略,使该策略便于描述操作上的分布。在感知数据不完整的部分观察环境中,直接将瞬时感知数据映射到动作的无记忆RL策略(Memory-free RL policies)会失败。因此,在这项研究中,我们将注意力集中于依赖记忆的策略上,在这些策略中,动作的分布依赖于过去观察到的全部序列。


 

端到端的学习问题,会随着AI接近具有长期记忆的长效智能体前沿而变得更加紧迫。例如,思考一个需要记住24小时前发生的事件的智能体。存储的记忆可以通过记忆读取操作来恢复,但在整个时间间隔内(如反向传播时间)优化网络动态或信息存储的方法,需要在24小时内记录网络状态的确切数据。


这实际上是一个让人望而却步的规定,它的神经可信度表明,至少对于记忆和时间信用分配的其他方面而言,存在比端到端梯度计算更好的算法解决方案。我们注意到,MERLIN专门使用1.3s的窗口来解决需要更长时间间隔的任务(即6分钟内最长任务长度的0.36%)。


当端到端RL具有足够大的网络、足够丰富的经验以及优化时,它理论上可以学会将相关信息存储于记忆中,以供后期决策使用,但我们已经证实,实际需求往往令人望而却步。正如我们在目标识别和视觉等领域所熟知的,结构创新(如卷积神经网络)对于实际系统而言是至关重要的。


尽管实现细节可能会发生变化,但我们相信,将记忆和预测建模相结合,对于未来在AI乃至神经科学领域,构建大型智能体模型而言至关重要。


原文链接:https://arxiv.org/pdf/1803.10760.pdf


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/496345.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

手机反编译java源码,Android反编译(一)之反编译JAVA源码

Android反编译(一)之反编译JAVA源码[目录]1、工具2、反编译步骤步骤1:把apk文件后缀名改为.zip步骤2:解压zip包得到classes.dex步骤3:将Dex反编译为Jar包(工具:dex2jar)命令: CMD>dex2jar.bat classes.dex步骤4:用j…

一文详解计算机视觉的广泛应用:网络压缩、视觉问答、可视化、风格迁移等

作者 | 张皓(南京大学)来源:人工智能头条丨公众号引言深度学习目前已成为发展最快、最令人兴奋的机器学习领域之一,许多卓有建树的论文已经发表,而且已有很多高质量的开源深度学习框架可供使用。然而,论文通…

Linux-进程、进程组、作业、会话、控制终端详解

From:http://www.cnblogs.com/JohnABC/p/4079669.html Linux进程优先级的处理--Linux进程的管理与调度(二十二):http://blog.csdn.net/gatieme/article/details/51719208 进程 、进程组、会话、控制终端之间的关系:http://blog.csdn.net/y…

浅谈项目开发现状(一)

在现在的软件开发中,一些大的软件公司有充分的资金,所以他的公司人员组织架构能组成:需求分析团队(为了更好的了解用户的完整需求)--->研发团队(通过计算机语言来实现用户需求),方…

波士顿咨询:2018最具创新力企业50强

来源:前瞻网在波士顿咨询公司评选的2018年最具创新力公司中,有11家公司——其中包括前10名中的7家——都是“数字原住民”,按定义也就是“数字创新者”。榜单上大多数公司已经将数字技术建立在他们的创新计划中。这一趋势在各个行业都很普遍&…

Linux 线程

Linux 的多线程编程的高效开发经验:https://www.ibm.com/developerworks/cn/linux/l-cn-mthreadps/ linux线程的实现:http://www.cnblogs.com/zhaoyl/p/3620204.html 线程概念经典解析:http://blog.chinaunix.net/uid-29613952-id-421477…

Spring Data JPA 从入门到精通~JpaSpecificationExecutor实现原理

JpaSpecificationExecutor 实现原理 我们还是先通过开发工具,把关键的类添加到Diagram上面进行分析,如图: 我们通过上图可以看一下,前面介绍的几个类之间的关联关系。 SimpleJpaRepository 实现类中的关键源码如下: …

微信发布首份《移动支付时代的无人零售报告》

来源:爱范儿 作者:Panda3 月 30 日,微信支付行业运营总监白振杰在 2018 智慧无人零售大会上发布了《移动支付时代的无人零售行业报告》,报告首次结合中国百货商业协会权威调研和微信支付的数据分析能力,揭示了移动支…

盘点《头号玩家》里的 VR 技术,现在就能造个 Oasis 出来

来源:沉浸感丨公众号 作者: 刘芳平由史蒂文斯皮尔伯格导演的科幻电影《头号玩家》(Ready One Player)于 3 月 30 日在中国大陆上映。首个周末便收获广泛好评,登上豆瓣电影本周口碑榜第一名,截止 31 日晚积…

find()matlab,Matlab 之 find()函数

当我第一次用matlab语言编写一个工程项目时,发现自己编写的脚本里循环特别多,导致编程效率很低,这让我特别苦恼。有一次导师让我阅读他编写的一个Matlab脚本,并按照新要求对其进行更改。我发现脚本里多次用到find()函数&#xff0…

一图看懂阿里云IoT战略

来源:云栖社区从万物互联到万物智联,离不开“无处不在的计算”。阿里云IoT在云边端部署了可协同的计算,基于物联网使能平台联合开发者、芯片模组厂商、行业合作伙伴等在城市、生活、汽车、制造四大领域已完成深度布局,即一朵云、两…

matlab机器人模型仿真,一知半解|MATLAB机器人建模与仿真控制(1)

各位机器人技术爱好者们,大家好!很荣幸受古月老师邀请,成为古月居的签约作者。希望在这里可以同大家相互交流与学习。始终觉得自己能力不足,但终于还是硬着头皮开始了在古月居的第一篇博客。由于我是机械专业出身,在接…

第四期《Summer Tree》 已经整理完毕

虽然已经整理完毕,但是却没有空间上传,由于太大了上传不了.下次再补充回来 如果地址下载不到,告诉我。呵呵 我上传在微软共享空间里面 在这里可以下载在这里转载于:https://www.cnblogs.com/hero82748274/archive/2009/06/06/1497771.html

研究报告:城市大脑的起源、现状与未来趋势

报告撰写人:刘锋 《互联网进化论》作者,计算机博士2009年1月,IBM公司首席执行官彭明盛首次提出“智慧地球”,建议政府投资新一代的智慧型基础设施。此后智慧城市建设在世界范围内展开,在中国有上百个地区提出建设“智慧…

Linux IO - 同步,异步,阻塞,非阻塞

From:http://blog.csdn.net/historyasamirror/article/details/5778378 同步/异步,阻塞/非阻塞概念深度解析:http://blog.csdn.net/lengxiao1993/article/details/78154467 知乎上关于 阻塞和非阻塞、同步和异步 之间区别的生动解释。 htt…

微软 AI 设计原则:成为弱者,再带来惊喜

来源:36Kr 作者:木木子编者按:AI设计的思路是什么?更完美?更能想用户之所想?本文作者Cliff Kuang在“The company studied personal assistants–human ones–to understand how to make a great machine…

vim 中的杀手级插件: vundle (vim 插件管理器)

From:http://zuyunfei.com/2013/04/12/killer-plugin-of-vim-vundle/ vundle.txt:https://github.com/VundleVim/Vundle.vim/blob/master/doc/vundle.txt Vundle 的具体介绍和配置:github repo:https://github.com/gmarik/vundl…

Spring Data JPA 从入门到精通~Auditing及其事件详解

Auditing 及其事件详解 Auditing 翻译过来是审计和审核,Spring 的优秀之处在于帮我们想到了很多繁琐事情的解决方案,我们在实际的业务系统中,针对一张表的操作大部分是需要记录谁什么时间创建的,谁什么时间修改的,并且…

未来城市的无人机送货系统是怎样的?

来源: 资本实验室 作者:李鑫Siri通过移动应用下了一盒巴克拉拉面膜的订单,电商平台收到信息,发指令给最近的送货驳船。驳船上的无人机获取货物包裹后直接飞向Siri家。在不到8分钟的飞行后,无人机来到位于12层的Siri家…

Vim自动补全神器:YouCompleteMe

From:http://www.jianshu.com/p/d908ce81017a github 地址:https://github.com/Valloric/YouCompleteMe YouCompleteMe is a fast, as-you-type, fuzzy-search code completion engine for Vim. 参考: https://github.com/Valloric/YouCom…