Yoshua Bengio团队最新强化学习研究:智能体通过与环境交互,「分离」变化的独立可控因素

原文来源:arXiv

作者:Valentin Thomas、Emmanuel Bengio∗、William Fedus、Jules Pondard、Philippe Beaudoin、Hugo Larochelle、Joelle Pineau、Doina Precup、Yoshua Bengio


「雷克世界」编译:嗯~阿童木呀


人们普遍认为,一个良好的表征(representation)在于能够对变化的潜在可解释性因素进行分离。然而,对于什么样的训练框架可以实现这一目标,仍然是一个悬而未决的问题。


尽管以往的大多数研究重点主要集中于静态设置(例如,使用图像),但我们假设,如果允许学习者与其环境进行交互的话,就可以从中发现一些因果因素。


智能体可以尝试不同的操作并观察其所产生的效果。更具体地说,我们假设这些因素中的一些与环境的某些可独立控制的方面相对应,即对于环境中的每一个这样的方面来说,都存在一个策略和可学习的特征,从而使得该策略可以在该特征中产生相应的变化,同时对其他特征进行最小程度的更改,从而对所观察到数据中的统计变化进行解释。


我们提出了一个特定的目标函数以找到这些因素,并通过实验验证,它确实可以在没有任何外部奖励信号的情况下,对环境的独立可控制方面进行分离。


在解决强化学习问题时,想要将好的结果从随机策略中区分开来往往需要具有正确的特征表征即使使用函数近似(function approximation),相较于盲目地去尝试解决给定的问题,学习正确的特征将可能会带来更快的收敛性(Jaderberg 等人于2016年提出)。



 我们架构的计算模型。其中,st是第一个状态,由其编码ht和噪声分布z产生。φ是生成的,φ用于对在环境中运行的策略πφ进行计算。序列ht、ht’通过选择性损失和ht上的可选择性自编码器损失,用于对我们的模型进行更新。


在监督学习研究(Bengio于2009年、Goodfellow等人于2016年提出)和强化学习研究(Dayan于1993年、Precup于2000年提出)领域中存在着这样一种观点,学习一个好的,而非新的表征对于解决大多数现实世界中的问题来说具有至关重要的作用。


而另一种观点是,这些表征通常不需要被显式地进行学习,这种学习可以通过内部奖励机制来进行引导,而这种奖励机制通常称为“内在动机(intrinsic motivation)”(Barto等人、Oudeyer和Kaplan于2009年、Salge等人于2013年、Gregor等人于2017年提出)。


在以前研究成果的基础上(Thomas等人于2017年提出),我们构建了一个表征学习机制,它与内在动机机制和因果关系密切相关。该机制显式地将智能体对其环境的控制与智能体所学习到的环境表征联系起来。更具体地说,这种机制的假设是,环境中变化的潜在因素大部分可以由另一个变化的智能体独立控制。



(a)对随机可控因素φ进行采样时,对1000次变化h’—h及其核密度估计的采样。我们观察到我们的算法在4种主要模式下对这些表征进行分离,每种模式都对应于智能体所实际采取的行动


(b)潜在空间中的分离结构。x轴和y轴是分离的,这样我们就可以通过查看其潜在的编码h = f(s)来恢复任何观测值中智能体的x和y位置。当智能体位于橙色块上时,这个网格上的缺失点其所不能到达的唯一位置。


我们为这个机制提出了一个通用且容易计算的目标,可以用于任何一个使用函数近似学习潜在空间的强化学习算法中。


我们的研究结果表明,我们的机制可以推动模型学习以一种有意义的方式对输入进行分离,并学习对要采取多种行动才能得以的改变的因素进行表征,此外,研究结果还表明,这些表征可以在已学习的潜在空间中执行基于模型的预测,而不是在低级输入空间(例如像素)中。


学习分离表征


Hinton和Salakhutdinov于2006年提出的,用于学习表征的规范的深度学习框架就是一个典型的自编码框架。然而,这并不一定意味着已学习的潜在空间会对变化的不同因素进行分离。出于这些问题的考虑,我们提出了本文中所阐述的方法。



(a)智能体所实际完成的3步轨迹;


(b)空间φ(h0, z), z ∼ N (0, 1)的PCA视图。每个箭头指向由不同的φ所形成的预测Tθ(h0,φ)的重构。


(a)中的策略使用的是绿色箭头开始处的φ。需要注意的是它的预测是如何对实际的最终状态进行准确预测的。


其他作者提出了一些用于分离变化的潜在因素的机制。诸如变分自编码器(Kingma和Welling于2014年提出)、生成对抗网络(Goodfellow等人于2014年提出)或非线性版本的ICA(Dinh等人于2014年、Hyvarinen和Morioka于2016年提出)等之类的许多深度生成式模型,试图通过假设它们的联合分布(对所观察到的s进行边缘化处理)是因式分解后的结果(即它们是边缘独立的),对变化的潜在因素进行分离。


在本文中,我们沿着另一个方向进行探讨,试图利用学习智能体在环境中行动的能力,以便对表征施加进一步的约束。我们假设,交互是学习如何对智能体所面临的观察流的各种因果因素进行分离的关键所在,并且这种学习可以在一种无监督的方式下完成。


可以这样说,到目前为止,将表征延展到模型的独立可控特征中取得了一些令人鼓舞的成功。 我们的特征的可视化清楚地展示了简单环境中的不同可控方面,但是,我们的学习算法也存在一定的缺陷,即它是不稳定的。甚至可以这样说,我们方法的优势似乎也可能是它的弱点所在,因为先前的独立迫使已学习表征中的关注点进行非常严格地分离,而这些应该是可以缓和的。


与此同时,一些不稳定性的来源似乎也减缓了我们的进程:学习一个有关可控方面的条件分布,往往会产生少于预期的模式。学习随机策略,通常会非常乐观地收敛域一个单一的动作中,由于模型具有多个部分因此往往需要对许多超参数进行调整。尽管如此,对于我们目前所采取的方法和措施,我们仍然报以希望。分离会发生,但对我们的优化过程以及我们目前的目标函数进行详细的了解将是推动进一步发展的关键点所在。


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/496929.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

supervisor安装和配置

supervisor 是由python语言编写、基于linux操作系统的一款服务器管理工具,用以监控服务器的运行,发现问题能立即自动预警及自动重启等功能。 Supervisor是一个进程管理工具,官方的说法 用途就是有一个进程需要每时每刻不断的跑,但…

斯坦福联合DeepMind提出将「强化学习和模仿学习」相结合,可实现多样化机器人操作技能的学习

原文来源:arXiv作者:Yuke Zhu、Ziyu Wang、Josh Merel、Andrei Rusu、Tom Erez、Serkan Cabi、Saran Tunyasuvunakool、Janos Kram ar、Raia Hadsell、Nando de Freitas、Nicolas Heess「雷克世界」编译:嗯~阿童木呀我们提出了一种无模型的深…

大型传统企业如何向人工智能转型?

来源:FT中文网在新一波技术浪潮的冲击下,以AI、大数据、云计算、物联网、5G通信等一系列技术为代表的“技术簇”所引发的革命对人类社会的影响将是全面且深刻的。每一个商业单元都面对这样的机遇:能否通过对新技术的运用,为客户创…

linux 下载 命令 wget 和 curl

From:http://www.jb51.net/LINUXjishu/86326.html From :Linux curl 命令详解 - http://www.cnblogs.com/duhuo/p/5695256.html Linux curl 命令参数详解:http://www.aiezu.com/system/linux/linux_curl_syntax.html Linux下使用 curl &…

无人驾驶推进时间表及五大技术领域关键节点

来源:莫尼塔财新智库摘要:本文援引莫尼塔财新智库的一篇研究,系统梳理了无人驾驶各关键技术节点以及其成熟时间。”“汽车技术发展到如今,几乎没有人质疑无人驾驶会成为汽车行业变革的巨大浪潮,然而对于各项技术落地的…

背景和弹出 Panel 都带有动画效果的 modal 效果

微软Ajax control toolKit 中有 ModalPopup 控件。可以实现页面遮盖的效果。但是遮盖直接出现,十分突然。我想能不能加上渐变的效果?这样感觉会好一点,炫一点。于是又想如果弹出的对话框(Panel)也有动画效果就会更炫了。于是就有了 Animation…

2018年,这些信息通信技术将大红大紫

来源:人民邮电报、中国信息通信研究院当今,全球信息通信产业又一次面临重大技术突破、产业升级的发展机遇,人工智能、第五代移动通信、虚拟现实、增强现实等新一代技术日益成熟,产业化进程加速。通过对全球信息通信行业重点智库技…

DeepMind提出强化学习新算法,教智能体从零学控制

来源:人工智能和大数据摘要:3月2日,DeepMind发表博客文章,提出一种称为SAC-X(计划辅助控制)的新学习范式,旨在解决让AI以最少的先验知识,从头开始学习复杂控制问题的挑战。这在真实环…

中国各地AI行业政策汇总及解读

来源:数据科学与人工智能随着人工智能的快速发展,国家相继出台一系列政策支持中国人工智能的发展,推动中国人工智能步入新阶段。2017年7月20日,国务院印发了《新一代人工智能发展规划》。规划中提到分三步走:第一步&am…

常州的照片

出差去常州照的几张照片,那边的天气很暖和了。 转载于:https://www.cnblogs.com/Duiker/archive/2008/03/17/1109665.html

从Big Dog到Spot Mini:波士顿动力「四足机器人」进化史概览

来源:雷克世界丨「raicworld」公众号导语:前不久,一段视频刷爆了朋友圈,视频中一个四足机器人不顾人类的阻拦,奋力打开一扇门,最终得以顺利通过。看过视频的人无一不被机器人的“执着”所震撼,一…

重磅《美国机器智能国家战略》

来源: 学术plus2018年3月1日,美国国际战略研究所发布报告《美国机器智能国家战略报告》,提出了机器智能对国防、经济、社会等方面的广泛差异,以及美国在战略制定方面的差距,并给出了具体的意见建议。现将部分内容选编如…

盘点国内最具实力的双足仿人机器人研发团队有哪些?

来源:工业机器人之家北京理工大学 黄强教授团队北京理工大学借鉴人类长期进化所具备自然、快速、协调运动机理和灵巧结构特征,创新地研究了仿人机器人的仿生运动规划、控制与系统集成等关键技术,取得了新突破。提出了仿人机器人运动规划新方法…

数据科学研究的现状与趋势

来源:数据科学DataScience大数据时代的到来催生了一门新的学科——数据科学。本文第1节探讨数据科学的内涵、发展简史、学科地位和知识体系等四个基本问题,并提出了数据科学的两个基本类型——专业数据科学和专业中的数据科学。第2节提出现阶段数据科学研…

DataGridView直接导出EXCEL

1.直接将DataGridView显示的内容导出Excel 1publicvoidDataToExcel(DataGridView m_DataView)2{ 3 SaveFileDialog kk new SaveFileDialog(); 4 kk.Title "保存EXECL文件"; 5 kk.Filter "EXECL文件(*.xls) |*.xls |所有文…

智能的源泉,大脑从何而来?

作者:谢平 中国科学院大学教授引言:人类的神奇常常归结于一个智慧的大脑以及贯穿于其中的无比复杂的神经网络,并认为这源自上帝之手,但其实它并不是无中生有的,而是自然演化的产物,虽然是一个无与伦比的杰作…

物联网技术在智能医疗领域的应用与发展

来源: 传感器技术应对人口结构高龄化所带来的长期照护需求,各国政府纷纷拟定政策,希望利用Wi-Fi、蓝牙、3G、GPS及RFID等物联网技术,架构起移动式医疗网络;且在远距照护等议题发酵下,也带动医疗产业结合物联网进入下一…

xmlHttpRequest无刷新验证用户名

现在好多网站上的注册都用了无刷新验证用户名,这种效果咋看感觉很复杂很难实现,其实它里面用到了Ajax中的核心xmlHttpRequest这个类,如果只是单单想实现这个效果,压根就不用引用Ajax.Net中的组件,因为感觉有点大材小用,下面是具体实现这种效果的方法,希望能给初学Ajax的朋友带来…

如何理解和评价机器学习中的表达能力、训练难度和泛化性能

来源: Eric Jang 的个人博客非常感谢王家兴 (Jiaxing Wang) 把这个博客文章翻译成中文。当我在阅读机器学习相关文献的时候, 我经常思考这项工作是否:提高了模型的表达能力;使模型更易于训练; 提高了模型的泛化性能。在…

谷歌公布72位量子比特处理器,吹响量子霸权冲锋号

作者:杨晓凡谷歌量子 AI 实验室今天发布了新的 72 位量子比特的量子处理器 Bristlecone。虽然目前还没有看到具体的实验结果,但这块芯片的未来有很大潜力,很有可能达成量子计算领域内的重要里程碑。谷歌量子 AI 实验室(Google Qua…