分享丨强化学习是针对优化数据的监督学习?

来源:AI科技大本营

作者 | Ben Eysenbach、Aviral Kumar、Abhishek Gupta 

编译 | 凯隐

出品 | AI科技大本营(ID:rgznai100)

强化学习(RL)可以从两个不同的视角来看待:优化和动态规划。其中,诸如REINFORCE等通过计算不可微目标期望函数的梯度进行优化的算法被归类为优化视角,而时序差分学习(TD-Learning)或Q-Learning等则是动态规划类算法。

虽然这些方法在近年来取得了很大的成功,但依然不能很好地迁移到新任务上。相较于这些强化学习方法,深度监督学习能够很好的在不同任务之间进行迁移学习,因此我们不禁问:是否能将监督学习方法用在强化学习任务上?

在这篇博文中,我们讨论一种理论上的强化学习模型。首先我们认为强化学习可以看作是高质量数据上的监督学习,在此基础上,获取高质量数据(好数据)本身也具有挑战性(除非是模仿学习),因此强化学习可以进一步看作是针对策略和数据的联合优化问题。

从监督学习的角度来看,许多强化学习算法可以被认为是在交替地寻找更好数据 和 对数据进行监督学习。那么如何更有效地获取更好地数据呢?事实证明在多任务环境下,或者在多个问题可以相互转换的条件下更容易获取优质数据。因此,我们主要讨论如何从数据优化的角度来理解诸如hindsight relabeling数据增强法和inverse RL等技术。

接下来我们将首先回顾强化学习的两个主要研究视角,即优化和动态规划,然后将从有监督视角深入探讨强化学习。

强化学习的两个研究视角

优化视角

优化视角将强化学习看作是一个最优化问题,只不过目标函数是一个不可导的函数,具体地,期望回馈函数是参数θ在策略下的函数:

该函数不仅复杂,且往往不可导,这是因为他取决于依照策略选择的动作(action)以及当前的环境情况。虽然我们可以通过REINFORCE技巧来估计该函数的梯度,但这个梯度仍然依赖于策略参数和数据,而这些数据又通过在模拟器上运行策略得到。

动态规划视角

不同于优化视角,动态规划观点认为强化学习可以分解为包含多步,并在每一步选择正确行动的多阶段优化问题。通过现有的离散动态理论,我们可以精确地解决这个动态规划问题。例如,例如,Q-learning通过迭代以下更新来估计状态-动作值Q(s,a):

在连续空间或状态空间和动作空间较大的情况下,我们可以使用函数逼近器(如神经网络)表示q函数来近似动态规划,并将TD误差的差值最小化,TD误差是上述方程中LHS和RHS之间的平方差值:

其中TD目标函数为:,注意这是Q函数的损失函数,而不是整个策略的损失函数。

这种方法允许我们使用任何类型的数据来优化Q函数,而不依赖于高质量数据。但这种方法也存在优化结果的质量问题,即可能收敛到较差的解决方案,因此可能很难应用到新问题上。

监督学习视角

我们现在讨论另一种强化学习理论模型,其主要思想是将RL视为策略和经验的联合优化问题,即我们希望找到高质量数据和良好策略。直觉上,我们期望高质量数据满足:

(1)能够获得高回报

(2)能够充分探索环境

(3)至少能够在一定程度上代表我们的政策。

我们将好的政策简单地定义为可能产生好数据的政策。如下图:

图1 

许多旧的和新的强化学习算法可以被看作是在优化数据上进行行为克隆(即监督学习)。这里主要讨论了最近将这一想法扩展到多任务视角的工作,在多任务视角下优化数据实际上变得“更容易”了。

把“好的数据”转换成“好的策略”很容易,只需要进行监督学习即可。然而,将“好的策略”转换为“好的数据”稍微更具挑战性,我们将在下一节中讨论几种方法。事实证明,在多任务场景中,或者通过人为地稍微修改问题定义,将“好的策略”转换为“好的数据”要容易得多。倒数第二部分将讨论如何在多任务场景中重新标记目标,修改问题定义,以及通过inverse RL提取“好的数据”。

将数据与策略解耦

现在我们通过期望最大化的方式来公式化监督学习视角[Dayan 1997, Williams 2007, Peters 2010, Neumann 2011, Levine 2013]。为了简化表示,我们使用  πθ(τ) 作为策略 πθ 产生轨迹 τ 的概率,并使用 q(τ) 表示将优化的数据分布。同时我们将预期奖励目标函数以对数形式表示为logJ(θ),由于对数函数是单调递增的,因此最大化对数函数等同于最大化期望回报。然后我们应用Jensen不等式将对数移动到期望内:

Jensen不等式得到了目标函数的一个下界。这个下界的有用之处在于,它允许我们使用来自不同策略的采样数据来优化策略。同时这个下界也明确表明,强化学习是一个关于策略和经验(数据)的联合优化问题。下表将监督学习视角与优化和动态规划视角进行了比较:

因此寻找好的数据和策略等同于优化函数下限F(θ,q)。最优化下界的一个常用方法是对其参数进行坐标上升,即交替循环地对数据分布 q(τ) 和策略 πθ 进行优化,直至收敛。

优化策略

当优化策略的下界时,目标函数与监督学习完全相同:

这个观察结果令人兴奋,因为监督学习通常比RL算法稳定得多。此外,这一观察结果表明,之前使用监督学习作为子任务的RL方法[Oh20 18, Ding 2019]实际上可能在优化期望回报的下限。

优化数据分布

数据分布的优化目标是在不偏离当前策略太远的情况下最大化期望回报,因此需要一个额外的约束:

上面的KL约束使得对数据分布的优化较为保守,宁愿以略低的回报为代价保持在当前策略的附近。优化对数回报而不是期望回报,进一步降低了优化问题的风险性,因为对数log函数时一个凹函数。

有很多方法可以优化数据分布。一个直观的(如果效率低下的话)方法是用当前策略的一个来噪声版本来收集经验,并保留获得最高奖励的10%的经验。另一种方法是轨迹优化,即沿单一轨迹来优化状态。第三种方法则通过当前奖励来重新调整之前收集的数据轨迹的权重。此外,数据分布q(τ)可以有多种表示方式——根据先前的观测轨迹继非参数离散分布,或分解每一对状态-动作的分布,亦或是半参数模型。

从监督学习的角度来分析之前的工作

有许多之前的算法隐式地进行了策略优化和数据优化。例如,奖励加权回归 [Williams 2007]和优势加权回归[Neumann 2009, Peng 2019]通过对奖励数据和加权数据进行行为克隆,将这两个步骤结合起来。自我模仿学习[Oh 2018]根据奖励来对观察轨迹进行排序,并选择top-k个轨迹的平均分布来得到数据分布。MPO [Abdolmaleki 2018]通过从策略中采样动作,构建一个数据集,重新对那些预期会带来高回报(即高回报+价值)的动作进行权重分配,然后对这些动作执行行为克隆。

图2 

许多近期的多任务强化学习算法根据每个轨迹所解决的任务来整合他们。这种事后组织的过程与hindsight labeling和反向RL密切相关,是近年来基于监督学习的多任务RL算法的核心思想。

近期的一些工作可以看作是这些算法的变体,主要变化是在多任务场景中寻找好数据变得更加容易了。这些工作要么在多任务设置中直接操作,要么修改单任务设置,使其看起来像一个任务。当我们增加任务的数量时,所有的经验对于某些任务来说都是最佳的。我们可以从这个角度来分析近期的三篇工作:

条件目标模仿学习[Savinov 2018, Ghosh 2019, Ding 2019, Lynch 2020]

在一个有具体目标的任务中,我们的数据包括状态(state)和动作(action),以及尝试的目标。也许算法没有达到指令目标,但对于它的实际目标来说是成功的,因此我们可以通过用实际达到的目标替换原来的指令目标,从而优化数据分布。因此,由目标条件模仿学习[Savinov 2018, Ghosh 2019, Ding 2019, Lynch 2020]和后验经验回顾 [Andrychowicz 2017 ]进行的后验重标记,可被视为对非参数型数据分布的优化。此外,目标条件模仿可以看作是简单地在优化数据上进行监督学习(即行为克隆)。有趣的是,当这种带有重新标签的目标条件模仿过程被迭代地重复时,可以证明这是一个从头开始学习策略的收敛过程,即使根本没有提供专家数据![Ghosh 2018]这是非常有前途的方法,因为它从本质上为我们提供了一种不用明确地要求任何引导或价值函数学习的强化学习技术,显著地简化了算法和调优过程。

条件回报策略[Kumar 2019, Srivastava 2019]

有趣的是,如果我们可以将从次优政策中收集的非专家轨迹视为对某些任务类的最优监督,我们可以将上面讨论的内容扩展到单任务强化学习场景。当然,这些次优轨迹可能不会使回报最大化,但它们在匹配给定轨迹的回报时是最优的,这也是条件回报策略的含义所在。

策略提升后验推理[Eysenbach 2020]

虽然实现目标的算法和数据集优化之间的联系是清晰的,但直到最近人们还不清楚如何将类似的想法应用到更一般的多任务场景中,比如一个离散的奖励函数集,或者由奖励和惩罚条件的可变(线性)组合定义的奖励集。为了解决这个开放问题,我们从优化数据分布对应于回答以下问题的直觉开始:“如果你假设你的经验是最佳的,你试图解决什么任务?”有趣的是,这正是inverse RL所回答的问题。我们可以简单地使用inverse RL在任意多任务场景中重新标记数据,反向RL为跨任务共享经验提供了理论上的基础机制。

未来的探索方向

在本文中,我们讨论了如何将RL视为使用优化的(重新标定的)数据来解决一系列标准监督学习问题。深度监督学习在过去十年的成功表明,这种方法在实践中可能更容易使用。虽然到目前为止进展很有希望,但仍有几个尚未解决的问题。

首先,是否还有其他(更好的)方式可以获得最优化的数据? 重估或重新组合现有经验是否会在学习过程中产生偏差? RL算法应该如何探索以获得更好的数据? 在这方面取得进展的方法和分析也可能为从RL的不同角度衍生的算法提供深刻见解。

其次,这些方法可能提供了一种简单的方法,将实践技术和理论分析从深度学习转移到RL,否则由于非凸目标(如政策梯度)或优化和测试时间目标不匹配(如Bellman误差和政策回报)而难以实现。我们非常看好这些方法提供的几个可能的应用前景,例如改进的实用RL算法,改进对RL方法的理解等等。

原文链接:

https://bair.berkeley.edu/blog/2020/10/13/supervised-rl/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/486663.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

stm32l0的停止模式怎么唤醒_手把手教你怎么利用旧电脑搭建NAS组建自己的黑群晖...

手把手教你怎么利用旧电脑搭建NAS组建自己的黑群晖Synology群晖科技(Synology )创立于 2000 年,自始便专注于打造高效能、可靠、功能丰富且绿色环保的 NAS 服务器,是全球少数几家以单纯的提供网络存储解决方案获得世界认同的华人企…

有人说 GPT3 是“暴力美学”的结晶,它的工作原理你知道吗?| 动图详解

来源:CSDN如今,在科技领域掀起了一股GPT3的热潮。大规模语言模型(比如GPT3)的潜力惊艳了我们。虽然这些模型还没有成熟到大多数企业将之直接面对消费者,但却展示出一些智慧的火花,并让人坚信其将会加速自动…

git 生成ssh key_ubuntu git生成ssh key (公钥私钥)配置github或者码云

Git是分布式的代码管理工具,远程的代码管理是基于SSH的,所以要使用远程的Git则需要SSH的配置。github的SSH配置如下:设置Git的user name和email:git config --global user.name "xx"git config --global user.email &qu…

android圆形头像 demo,Android图像处理之绘制圆形头像

在Android中,绘制圆形和绘制图片都是很容易的事情,但是绘制圆形图片就有点难倒人了。以前为了偷懒就直接去github上找一个开源项目,后来才发现绘制圆形图片其实也是很简单的事。绘制圆形图片也需要两个步骤:绘制圆形和绘制图片&am…

芯片项目烂尾怎么办?国家发改委回应了!

来源:北京日报客户端芯片项目烂尾的报道近日引发关注。对此,国家发改委新闻发言人孟玮在今日(20日)上午举行的例行发布会上回应,将会同有关部门强化顶层设计,狠抓产业规划布局,努力维护产业发展…

idea中二级包为什么创建不了_IDEA通过Maven打包JavaFX工程(OpenJFX11)

1 概述 最近研究JFX,写出来了但是打包不了,这。。。尴尬。。。 IDEA的文档说只支持Java8打成jar包: 尝试过直接使用Maven插件的package,不行,也尝试过Build Artifacts,也不行,各种奇奇怪怪的问题…

鸿蒙系统发布会16号几点,华为鸿蒙手机系统正式定档发布,12月16日于我们见面...

#华为鸿蒙系统#大家都知道,华为手机已经无法预装谷歌GMS服务了,对于大部分海外用户来说,GMS服务还是相当重要的,谷歌全家桶内置了地图、搜索、视频娱乐等功能,但凡是搭载了安卓系统的智能手机,那么就无法离…

Gartner发布2021年重要战略科技趋势

来源:Gartner公司全球领先的信息技术研究和顾问公司Gartner于今日发布企业机构在2021年需要深挖的重要战略科技趋势。分析师们在本周举行的Gartner IT Symposium/Xpo大会美洲站虚拟会议上展示了自己的发现。Gartner研究副总裁Brian Burke表示:“各企业职…

pause pod 什么是pod_Kubernetes 自主式Pod清单 干货太多先马住慢慢看

在讲资源清单之前,先给大家介绍一下究竟什么是Kubernetes资源?有几种资源?① 资源分类:① 1 工作负载:pod、rs(ReplicasSet)、deploy(Deployment)、sts(StatefulSet)、ds(DaemonSet)、job、cronjob① 2 服务发现及负…

不会Python开发的运维终将被淘汰?

Python语言是一种面向对象、直译式计算机程序设计语言,由Guido van Rossum于1989年底发明。Python语法简捷而清晰,具有丰富和强大的类库,具有可扩展性和可嵌入性,是现代比较流行的语言。 一、最流行的语言 IEEE Spectrum 的数据记…

8大领域、6大机遇!读懂2020年AI医疗新风向

来源 | 工业互联网创新中心、36氪研究院编辑 | 蒲蒲蓝皮书如下未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(…

arduino uno r3单片机封装图_Arduino教程 | 初识Arduino

前一段时间偶然进入创客空间并接触到了开源硬件,小编表示十分感兴趣。于是这周打算汇总一下网络上现有的一些关于Arduino的及教程进行分享。首先感谢一下各位原作者,在此表示十分感谢~什么是Arduino?Arduino是一个能够用来感应和控制现实物理…

神经网络原来是这样和数学挂钩的

来源:遇见数学近几年,有几个被媒体大肆报道的事件,如下表所示。如上所示,深度学习作为人工智能的一种具有代表性的实现方法,取得了很大的成功。那么,深度学习究竟是什么技术呢?深度学习里的“学…

鸿蒙os开发小程序,9岁小学生展示鸿蒙OS开发:这操作太秀了

华为的鸿蒙 OS 正在迅速成熟,这背后离不开无数开发者的支持。近日,鸿蒙 OS 技术社区就向大家介绍了一位特殊的鸿蒙开发者,今年只有 9 岁,还是个小学生 ……在鸿蒙社区,这位小开发者坐在镜头前,向大家演示了…

java调用一个方法后怎么继续执行不等待该方法的返回_Java面试题大全2020版(二)...

今天给大家推送第二部分,主要的大块内容分为:多线程、反射、对象拷贝。三大块内容中涉及到的考点如下:三、多线程35. 并行和并发有什么区别?并行是指两个或者多个事件在同一时刻发生;而并发是指两个或多个事件在同一时…

城市“脑梗” 当前城市大脑面临的困境

来源:中国建设报智慧城市 作者 刘锋 吕本富2020年,城市大脑已经成为前沿科技和城市建设发展的重点,有近百个城市宣布开展城市大脑建设。数百家科技企业进入到泛城市大脑的建设领域,有数百亿的资金投入到城市大脑的建设中。面对…

html5 banner特效,HTML5特效库 CSS3遮罩banner动画特效源码

效果图各位朋友。大家早上好!今天给大家带来的是 CSS3遮罩banner动画特效源码!看倦的轮播图的,可以试试这个特效!别有一番意思!大家可以按照自己的意愿进行行修改,改成自己喜欢的样子!有想要文件…

android蓝牙通信_使用Arduino构建OLED显示屏与Android手机接口的智能手表

背景知识视频教程Arduino 训练营:通过项目学习​viadean.com通过制作Arduino UNO FM收音机接收器学习Arduino I2C​viadean.com通过构建实际应用程序来掌握Arduino - 国外课栈​viadean.com我们大多数人都熟悉162点阵液晶显示器,它在许多项目中用于向用户…

DeepMind新突破!首次用深度学习从第一性原理计算分子能量

来源:AI科技评论编译 | 青暮DeepMind发表了一项新研究,展示了深度学习如何帮助解决现实系统中的量子力学基本方程问题,相关论文发表在物理学期刊《Physical Review Research》,代码也已经开源。这种新的神经网络架构叫做Fermionic…

重磅发布:2020全球前沿技术发展趋势报告

来源:科技日报作者:刘垠、操秀英大热的脑机接口、基因编辑等前沿技术发展如何?2020年科技界关注了哪些热点?22日在浦江创新论坛上发布的《全球前沿技术发展趋势报告》带来了答案。《全球前沿技术发展趋势报告》由中国科学技术信息…