谷歌大脑的“世界模型”简述与启发

640?wx_fmt=jpeg

来源:David9的个人博客

摘要:我们的视觉看到什么,部分取决于大脑预测未来会看到什么。


我们的视觉看到什么,部分取决于大脑预测未来会看到什么,例如下图中,如果你预计要看到突出的球体,那也许你就会看到,如果让机器也具有了这样的能力,会带来什么了?


640?wx_fmt=jpeg


18年谷歌大脑提出“世界模型”(World Models)可以在复杂的环境中通过自我学习产生相应的策略,例如玩赛车游戏。


640?wx_fmt=png


下面是世界模型的整体架构:


640?wx_fmt=png


整个模型分为3个组件:视觉组件(V),记忆组件(M),控制组件(C)。视觉组件V用来压缩图片信息到一个隐变量z上(其实只是一个VAE编码解码器):


640?wx_fmt=png


记忆组件M的输入是一帧帧的游戏图片(论文中的一帧图像似乎叫一个rollout),输出是预测下一帧图像的可能分布,其实就是比一般LSTM更高级一些的MDN-RNN:


640?wx_fmt=png


最后控制组件C的目标,就是把前面视觉组件V和记忆组件M的输出一起作为输入,并输出这个时刻智能体agent应该做出的动作(action)。


在所谓的“世界模型”,其中的组件模型几乎没有是谷歌大脑自己创新研制的。但世界模型会很大提高强化学习训练稳定性和成绩 从而使其与其他强化学习相比有一些明显优势,如下表所示;


640?wx_fmt=png


世界模型有如下的3个特点


1. 模型拼接得足够巧妙,这个巧妙的拼接模型做到所谓的世界想象能力,就是模型在学习时,自身对环境假想一个模拟的环境,甚至可以在没有环境训练的情况下,自己想象一个环境去训练。其实就是我们人类镜像神经元的功能。


640?wx_fmt=png



2. 抓住了一些“强视觉”游戏的“痛点”。记忆组件M中的RNN是生成序列的能手,所以根据之前游戏图像再“想象”一些图像帧应该不成问题(RNN生成一些隐变量z,再根据隐变量z,由视觉组件VAE的decode生成的图像帧即可)。所以对于“强视觉”的游戏,把RNN的记忆能力用在视觉预测和控制上是个好主意 。


640?wx_fmt=jpeg



3 不同于我们常见的“不可生”智能算法,例如遗传算法和进化策略只是强调了基因的“变异”与在解空间中进行搜索,神经网络只是固定网络结构;而生物界的基因却可以指导蛋白质构成并且“生长”。如果基因可以构造自身个体,外部环境和个体情况也可以反过来影响基因,而我们的模型都太固定呆板了,模型结构不能随内部隐变量改进,当然最佳的设计形式也许谁也不知道。而世界模型做到了让在内部”幻想“的环境中产生的策略转移到外部世界中。


640?wx_fmt=png


最后简单看一下世界模型的训练过程:


640?wx_fmt=png


world models代码基于chainer计算框架,步骤如下:


1. 准备数据集,随机玩游戏生成训练帧(rollouts意思应该就是多少帧):


  1. python random_rollouts.py --game CarRacing-v0 --num_rollouts 10000


2. 训练视觉组件V,即前面提到的VAE:


  1. python vision.py --game CarRacing-v0 --z_dim 32 --epoch 1



3. 训练记忆组件M,即前面提到的RNN:


  1. python model.py --game CarRacing-v0 --z_dim 32 --hidden_dim 256 --mixtures 5 --epoch 20


4. 训练控制组件C,即前面提到的CMA-ES算法(其实就是支持更复杂输入和更新的ES):


  1. python controller.py --game CarRacing-v0 --lambda_ 64 --mu 0.25 --trials 16 --target_cumulative_reward 900 --z_dim 32 --hidden_dim 256 --mixtures 5 --temperature 1.0 --weights_type 1 [--cluster_mode]


5. 测试训练结果:


  1. python test.py --game CarRacing-v0 --z_dim 32 --hidden_dim 256 --mixtures 5 --temperature 1.0 --weights_type 1 --rollouts 100 [--record]


参考文献

https://arxiv.org/pdf/1803.10122.pdf

https://github.com/AdeelMufti/WorldModels


本文经作者授权,转载自David9的个人博客,著作权属于“David 9的博客”原创,如需转载,请联系微信: david9ml。原文地址: http://nooverfit.com/wp/谷歌大脑的世界模型world-models与基因学的一些思考/#comment-3444


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。


  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”


640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/492763.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

TensorFlow的基本介绍及Hello,world

转载自: http://www.tensorfly.cn/tfdoc/get_started/basic_usage.html https://blog.csdn.net/sarsscofy/article/details/78541836 ####基本使用: 使用(graph)来表示计算任务在被称之为 会话 (Session) 的上下文 (context) 中执行图.使用 tensor 表示…

中美首份8000字长文解析全球热点脑机接口(重磅干货)

来源:硅谷密探摘要:“我们所想象的一切,都会变为现实。”如果说当今什么技术最接近科幻,那么一定是脑机接口。脑机接口的研究已经实现了意识打字(1分钟之内平均输入39个字母),还实现了心灵控制&…

一文读懂2019年IT及大数据行业趋势

来源:智慧网点建设运营2018即将过去,今年区块链、5G、芯片、量子计算成为大家不断提及的技术重点,明年大数据科学还会有哪些发展方向,IT行业还有哪些发展趋势?众多机构针对未来产业发展做出预测,小编整理如…

openMP的简单使用

安装,参考:https://blog.csdn.net/augusdi/article/details/8808226 如图所示,右键工程名->属性->C/C>语言,找到OpenMP支持,更改设置即可。 代码编程,参考:https://blog.csdn.net/zh…

车联网系统会不会只是智能手机系统的翻版?

来源:智能相对论摘要:对于当前大热的车联网技术,各家车企都像“王婆卖瓜”一样夸赞自己,在一片叫好声中,我们需要厘清一个问题,车联网系统到底是不是“另一个”智能手机系统?在BAT集体入局车联网…

清华、中科大实现了量子版本的GAN,平均保真度98.8%

作者:Ling Hu等编译:机器之心 刘晓坤、张倩摘要:清华和中科大的研究者在 Science Advances 上发表论文,他们在超导量子电路上实现了第一个生成对抗学习的原理验证,即量子版本的 GAN。实验中生成的单个 qubit 的平均保真…

一个令人心醉的谜题——DNA和RNA是如何演化出美妙的螺旋结构?

来源:原理丨公众号在现代科学中,一直存在一个匪夷所思到令无数科学家心醉的谜题——DNA和RNA究竟是如何演化出这种美妙的螺旋结构的?最近,佐治亚理工学院的一组研究人员在超分子聚合物的形成过程中,发现了一种全然自发…

AI人才「用工荒」如何解决?看看这几家顶级公司的应对策略

来源: Forbes编译: 机器之心 太浪在未来几年,人工智能可能会成为众多行业的战略选择,但有一个重大的挑战:招人。如何避免招募 AI 人才的误区?这里有来自几家顶级公司的建议。招到 AI 人才后,可能…

AI芯片混战,谁能挑战英伟达?

来源:forbes我准备写一篇预测未来一年的AI芯片,以及英伟达如何应对挑战的文章,但我很快意识到,文章要比我预期的要长得多。由于有很多内容要介绍,我决定把文章分为3个部分。第1部分:简介,以及分…

webServices 应该支持Get和Post调用,在web.config应该增加以下代码

1 #region Tip:使用说明2 //webServices 应该支持Get和Post调用&#xff0c;在web.config应该增加以下代码3 //<webServices>4 // <protocols>5 // <add name"HttpGet"/>6 // <add nam…

VS2017安装openGL

项目名->管理NuGet程序包->浏览->搜索nupengl&#xff0c;下载安装即可。 参考博客&#xff1a;https://blog.csdn.net/HY_JT/article/details/79482556 还可以参考博客&#xff1a;https://blog.csdn.net/yinglang19941010/article/details/50166343 #include <c…

从专利数量看全球最具创新力的50家公司

来源&#xff1a;资本实验室专利&#xff0c;在很大程度上不仅代表着一家企业的技术实力&#xff0c;也代表着一个国家的长期发展潜力。很多机构也习惯用专利数量来衡量企业或国家的创新能力。为保护自身的技术发明&#xff0c;全球大型公司都会在很多国家申请专利&#xff0c;…

2019年深度学习的十大预测

来源&#xff1a;云栖社区丨公众号摘要&#xff1a;如果连思考方式都是错的&#xff0c;机器学习肯定不会有很大的进步&#xff01;2018年已结束&#xff0c;现在是开始预测2019深度学习的时候了。以下是我之前对2017年和2018年的预测和回顾&#xff1a;关于2017年预测和回顾。…

一张图看懂AR至GL数据流

转载于:https://www.cnblogs.com/wanghang/p/6299101.html

腾讯帝国的野蛮生长史

来源&#xff1a; CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09;译者&#xff1a;弯月如今的社交巨头腾讯&#xff0c;可以说是很多厂商可望而不可及的存在。手握微信和QQ这两张王牌&#xff0c;其制霸着整个国民的社交脉络。不过在腾讯成立之初&#xff0c;也是经过了漫…

[LeetCode] Plus One

Given a non-negative number represented as an array of digits, plus one to the number. The digits are stored such that the most significant digit is at the head of the list. 这题有意思啊&#xff0c;虽然是easy题但我还是折腾了很久&#xff0c;一开始做出一个逗…

六大“未来式”存储器,谁将脱颖而出?

来源&#xff1a;半导体行业观察摘要&#xff1a;最近&#xff0c;一篇回顾该领域现状的论文对六种最有前景的技术进行了盘点和解读。对神经形态计算的浓厚兴趣刺激人们研发出一系列全新的存储设备&#xff0c;这些设备可以复制生物神经元和突触功能。最近&#xff0c;一篇回顾…

cuda学习

CUDA 安装测试部分 https://blog.csdn.net/sunmc1204953974/article/details/51000970 CUDA的HelloWorld程序编写 https://www.cnblogs.com/neopenx/p/4643705.html 对多线程并行处理的解释&#xff1a;https://blog.csdn.net/sunmc1204953974/article/details/51025801 以下的…

英特尔第七任CEO敲定 斯旺为何受到董事会青睐?

来源&#xff1a;网易科技2019年1月最后一天&#xff0c;芯片巨头英特尔公司(Intel)宣布任命临时首席执行官罗伯特斯旺(Robert Swan)为正式CEO&#xff0c;从而结束了长达数月的猎头工作。此前&#xff0c;英特尔前任CEO布莱恩柯再奇(Brian Krzanich)因与员工存在“暧昧关系”而…

图灵奖得主长文报告:是什么开启了计算机架构的新黄金十年?

来源&#xff1a;AI科技评论摘要&#xff1a;2017 年图灵奖的两位得主 John L. Hennessy 和 David A. Patterson 就是这个新浪潮的见证者和引领者。近几年来&#xff0c;不论是普通消费者还是科研人员们都可以感受到两种浪潮&#xff0c;一种是CPU速度的提升越来越不显著了&…