谷歌新智能体Dreamer将亮相NeurIPS 2019,数据效率比前身PlaNet快8个小时

来源:雷锋网

在具有挑战性的环境中,一些人工智能系统通过利用过去经验所提供的世界表象来实现目标。研究人员将这些应用推广到新的情况,使它们能够在以前从未遇到过的环境中完成任务。

事实证明,强化学习——一种使用奖励来推动软件策略朝着目标前进的训练技术——特别适合学习总结agent经验的世界模型,并通过扩展来促进新行为的学习。

近日,来自Google、Alphabet子公司DeepMind和多伦多大学的研究人员发表了一篇名为《梦想控制:通过潜意识的学习行为》的新研究,他们开发了一个增强型学习智能体Dreamer,通过内化一个世界模型,并通过通过潜在的“想象力”来提前计划选择行动。

他们说,Dreamer不仅适用于任何学习目标,而且在数据效率、计算时间以及最终性能方面都超过了现有的方法。

在它的整个生命周期中,无论是交错还是并行,Dreamer都会学习一个latent dynamics model(潜在动力学模型),以预测动作和观察结果的回报。在这种情况下,“latent dynamics model”是指从图像输入中学习并执行计划以收集新经验的模型。

“潜在”表示它依赖于隐藏状态或潜在状态的紧凑序列,这使它能够学习更多抽象的表示形式,例如对象的位置和速度。使用编码器组件,有效地将来自输入图像的信息集成到隐藏状态中,然后及时地将隐藏状态向前投影以预测图像和奖励。

上图:Dreamer完成一个摆动钟摆的任务。中间显示45步预测

Dreamer使用了一个多部分的latent dynamics model,这个模型的结构有些复杂。“表示”位对观察和动作进行编码,而“过渡”位则在没有看到会引起观察的情况下预见状态。第三个组件(奖励组件)根据给定的模型状态来投影奖励,而行为模型将实施学习的策略并旨在预测可解决想象的环境的行为。最终,价值模型评估行动模型实现的预期想象奖励,而观察模型提供反馈信号。

上图:梦想家在迷宫中导航。中间显示45步预测。

在一系列实验中,研究人员测试了Dreamer在DeepMind Control Suite中的20个视觉控制任务上的效果。DeepMind Control Suite是一种用于评估机器学习驱动的代理的仿真软件。他们首先使用Nvidia V100图形芯片和10个处理器内核来训练它,每次培训运行一次,他们说控制套件上每106个环境步骤花费了9个小时。(相比之下,Google的Dreamer前身PlaNet花了17个小时才达到了类似的性能。)

上图:梦想家在玩Atari游戏(拳击)。中间显示45步预测。

他们报告说,Dreamer有效地利用了学习的世界模型来从少量经验中进行概括,并且它的成功证明了,
通过潜在的想象力进行的学习行为可以胜过顶级方法。他们还说,Dreamer的价值模型即使在短期计划中也表现良好,在20个任务中的16个(有4个打成平手)上表现优于其他模型。

研究人员写道:“未来,关于表征学习的研究可能会将潜在的想象力扩展到视觉复杂性更高的环境中,”研究人员计划在本周温哥华的NeurIPS 2019上展示他们的工作。Dreamer项目的代码可在GitHub上公开获得。


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/489138.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mysql 游标总条数_mysql 游标的使用总结

一、游标的基本概念游标:游标是一个存储在Mysql服务器上的数据库查询,它不是一条select语句,而是被该语句检索出来的结果集。本人,学习游标中,曾遇到一个问题,循环总是最后多执行一次。下面分析程序&#x…

AR行业成本拆解解析

来源:三极光电科技一、AR 产业简介(一)AR 定义AR 技术(AugmentedReality,AR)是借助光电显示技术、交互技术、多种传感技术和计算机图形与多媒体技术将计算机生成的虚拟环境与用户周围的真实环境融为一体&am…

mimo雷达信号处理_雷达学术入门脉冲雷达信号处理概述

Reviewed by :甜草莓 Robert Zhou;前置知识:概率论与统计学。面向人群:本科生、研究生/信号处理博士。 编者:对于信号处理来说,雷达和通信一直是一体两面,从MIMO通信到MIMO雷达,从OF…

人类历史十大经典物理实验,有些实验就在你身边为何你没注意到?

来源:数学职业家实验是科学研究的基本方法之一,也是人类认识自然现象、自然性质、自然规律的途径。现代实验技术的发展,不断地揭示和发现各种新的物理现象,日益加深人们对客观世界规律的正确认识,从而推动物理学的向前…

一、linux搭建jenkins+github详细步骤

事情缘由: 现在在做的主要工作是通过jenkinspostman实现api的自动化测试,想要达到的效果是,api自动化测试定时跑脚本的同时,github有新的代码提交,jenkins会自动检测部署新提交的代码,并且再次将api自动化脚…

matlab插值与拟合例题_MATLAB中数据插值和数据拟合的用法

一、数据插值:插值是在一组已知数据点的范围内添加新数据点的技术。可以使用插值来填充缺失的数据、对现有数据进行平滑处理以及进行预测等。MATLAB 中的插值技术可分为适用于网格上的数据点和散点数据点。从数学上来说,数据插值是一种函数逼近的方法。数…

半导体行业深度报告:从应用到行业的全面复苏

来源:国金证券一、2020-2021年全球半导体市场投资展望多种因素导致全球半导体市场于 2019 年同比下跌近 13%到 4,102 亿美元,而存储器行业同比下跌超过 30%,逻辑半导体同比下跌近 2%。存储器市场占全球半导体市场达到近三年低点的 27%。但受惠…

mysql 8 修改root密码忘记_忘记mysql8或者mariadb5及以上 的root密码如何更改

实验环境操作系统:lsb_release -aNo LSB modules are available.Distributor ID:UbuntuDescription:Ubuntu 20.04.1 LTSRelease:20.04Codename:focalmysql数据库版本:mysql基本信息具体步骤1. 停止mysql (sudo service mysqld stop 或者 kill -TERM mysq…

配置tomcat_Tomcat 配置必备的 10 个小技巧,让你轻松玩转Tomcat

现在开发Java Web应用,建立和部署Web内容是一件很简单的工作。使用Jakarta Tomcat作为Servlet和JSP容器的人已经遍及全世界。Tomcat具有免费、跨平台等诸多特性,并且更新得很快,现在非常的流行。你所需要做的就是:按照你的需求配置…

卫星移动通信现状与未来发展

来源:电子万花筒摘要:卫星移动通信系统具有覆盖范围广,对地面情况不敏感等优势,已经成为地面移动通信领域重要的组成部分,尤其是在空中、海洋、荒漠戈壁等地面无线网络难以覆盖的地方。随着科学技术的不断进步&#xf…

mysql load data infile 重写_mysql load data infile 命令的数据导入

文章介绍了mysql load data infile 命令的数据导入,该方式比直接的insert的效率要高,按照官方的说法是要比insert语句快上20倍,有需要的朋友可参考。使用方式如下:代码如下复制代码mysql>load data local infile "D:/ab.txt" in…

DARPA发布战略框架文件旨在 为美国国家安全创建突破性新技术能力

来源:ARPA网站/图片来自互联网12月4日,DARPA公开了于今年8月份完成的2019年度战略框架文件《面向国家安全创建技术突破和新能力》,阐述了该机构面临的威胁环境,并提出了未来几年的发展计划。1应关注的重点该框架文件指出&#xff…

rust矿洞绳子怎么爬下_rust矿洞绳子怎么爬下_打工小伙爬冰救人,每动一下都能听到冰面碎裂声...

近日,在辽宁沈阳鲁迅公园,一男子掉进湖中冰窟窿,露出脑袋不停地呼救。生死时刻,一位正在附近找零活的小伙,不顾冰面碎裂发出的咔咔声,一步步爬冰救人,最终在岸上众人帮助下,成功救出…

Python爬虫入门四之Urllib库的高级用法

1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性。 首先,打开我们的浏览器,调试浏览器F…

Magic Leap 价值 20 多亿美元的 AR 幻梦,现在醒了

来源:传感器技术那个用特效来吹出 AR 神话的 Magic Leap,终于有了新动静。 当地时间 12 月 10 日,增强现实(AR)领域的“知名”公司 Magic Leap 宣布,将 Magic Leap One Creator Edition 改名为 Magic Leap …

mysql约束_不是吧,阿Sir,MySQL约束你竟然还不懂!

以前写的太乱了,翻出来重新整理下系列目录:MySQL入门,问题不大【增删改查极速上手】(一) 引入约束(1) 约束出现在哪里? 想要讲解约束,就要知道约束用在哪里,用来干嘛?SQL 语言通过定义一个关系所…

dc持久内存与mysql_Calypso Systems推出测试软件和服务器测试傲腾数据中心级持久内存...

Calypso Systems测试Optane DCPMM(DC Persistent Memory Module 数据中心级持久性内存模块)的性能,带宽超过36500MB/s(顺序读写速度128000MB/s),每秒读写速度为3240万IOPS(顺序读取速度5000),平均响应时间达到0.11微秒。Calypso PM(持久性内存…

计算机行业研究及2020年策略:聚焦主赛道,投资真成长(84页)

来源:国元证券1、行业涨幅位居前列,个股表现精彩纷呈……2、IT 产业大变革,新机遇不断涌现近年来,以 5G、物联网、云计算、大数据、人工智能、区块链等技术为代表的信息 科技行业快速发展,新兴技术不断涌现&#xff0c…

最长回文串_第78天——第78题(最长回文串 )

今天又是阴天,不过阴天凉快,我喜欢。第78天——第78题(最长回文串)看题目!给定一个包含大写字母和小写字母的字符串,找到通过这些字母构造成的最长的回文串。在构造过程中,请注意区分大小写。比…

二进制权值计算 lsb_2020年二级计算机基础知识备考(第二章)

点击蓝字关注我们哟~2020年9月全国计算机等级考试倒计时29天,还没有好好备考的小伙伴们抓紧时间备考了~今天,跟着考无忧继续备考一下二级计算机基础知识的《第二章 信息的表示和储存》。2.1数据与信息1.数据:客观事物的符号表示,如…