伦敦大学学院、UC伯克利联手,撰文综述深度强化学习泛化研究

9fbfc070fab26f31c9b2f39f87de05e1.png

来源:机器之心

编辑:陈萍

强化学习应用广泛,但为何泛化这么难?如果要在现实世界的场景中部署强化学习算法,避免过度拟合至关重要。来自伦敦大学学院、UC 伯克利机构的研究者撰文对深度强化学习中的泛化进行了研究。

强化学习 (RL) 可用于自动驾驶汽车、机器人等一系列应用,其在现实世界中表现如何呢?现实世界是动态、开放并且总是在变化的,强化学习算法需要对环境的变化保持稳健性,并在部署期间能够进行迁移和适应没见过的(但相似的)环境。

然而,当前许多强化学习研究都是在 Atari 和 MuJoCo 等基准上进行的,其具有以下缺点:它们的评估策略环境和训练环境完全相同;这种环境相同的评估策略不适合真实环境。

我们以下图为例:下图为三类环境(列)的可视化,涉及图模型、训练和测试分布以及示例基准(行)。经典 RL 专注于训练和测试相同的环境(单例环境,第一列),但在现实世界中,训练和测试环境不同,它们要么来自相同的分布(IID 泛化环境,第二列),要么来自不同的分布( OOD 泛化环境,第三列)。

51f683404537ab70a987e7842dce7c28.png

图 1:强化学习泛化。

经典 RL(训练和测试环境相同)与监督学习标准假设形成鲜明对比,在监督学习中,训练集和测试集是不相交的,而对于 RL 来说,RL 策略要求训练和测试环境相同,因此在评估时可能导致模型过拟合。即使在稍微调整的环境实例上 RL 表现也不佳,并且在用于初始化没见过的随机种子上失败 [7, 8, 9, 10]。

目前,许多研究者已经意识到这个问题,开始专注于改进 RL 中的泛化。来自伦敦大学学院、UC 伯克利机构的研究者撰文《 A SURVEY OF GENERALISATION IN DEEP REINFORCEMENT LEARNING 》,对深度强化学习中的泛化进行了研究。

ab88e5e915dd43fb4041cd7d28aa5ea8.png

论文地址:https://arxiv.org/pdf/2111.09794v1.pdf

本文由 7 个章节组成:第 2 节中简要描述了 RL 相关工作;第 3 节介绍了 RL 泛化中的形式(formalism)和术语;第 4 节研究者使用这种形式来描述当前 RL 中泛化基准,包括环境(第 4.1 节)和评估协议(第 4.2 节);第 5 节中研究者对泛化研究进行了分类和描述;第 6 节研究者对 RL 当前领域进行了批判性讨论,包括对未来工作关于方法和基准的建议,并总结了关键要点;第 7 节是全文总结。

本文主要贡献包括:

该研究提出了一种形式和术语,以用于讨论泛化问题,这一工作是建立在之前研究 [12, 13, 14, 15, 16] 的基础上进行的。本文将先前的工作统一成一个清晰的形式描述,这类问题在 RL 中被称为泛化。

该研究提出了对现有基准的分类方法,可用于测试泛化。该研究的形式使我们能够清楚地描述泛化基准测试和环境设计的纯 PCG(Procedural Content Generation)  方法的弱点:完整的 PCG 环境会限制研究精度。该研究建议未来的环境应该使用 PCG 和可控变异因素的组合。

该研究建议对现有方法进行分类以解决各种泛化问题,其动机是希望让从业者能够轻松地选择给定具体问题的方法,并使研究人员能够轻松了解使用该方法的前景以及可以做出新颖和有用贡献的地方。该研究对许多尚未探索的方法进行进一步研究,包括快速在线适应、解决特定的 RL 泛化问题、新颖的架构、基于模型的 RL 和环境生成。

该研究批判性地讨论了 RL 研究中泛化的现状,推荐了未来的研究方向。特别指出,通过构建基准会促进离线 RL 泛化和奖励函数进步,这两者都是 RL 中重要的设置。此外,该研究指出了几个值得探索的设置和评估指标:调查上下文效率和在持续的 RL 设置中的研究都是未来工作必不可少的领域。

以下为论文中摘取的部分内容。

论文概览

在第 3 节中,研究者提出了一种用于理解和讨论 RL 泛化问题的形式。

监督学习中的泛化是一个被广泛研究的领域,因此比 RL 中的泛化研究更深。在监督学习中,通常假设训练和测试数据集中的数据点都是从相同的底层分布中抽取的。泛化性能与测试性能是同义词,因为模型需要泛化到它在训练期间从未见过的输入。在监督学习中的泛化可定义为:

fae2d1bfb9cd4c33ebd8d8e10220cc12.png

而在 RL 中,泛化的标准形式是马尔可夫决策过程 (MDP)。MDP 中的标准问题是学习一个策略π(|s),该策略产生给定状态下的行动分布,从而使 MDP 中策略的累积奖励最大化:

8404550bb1ed7baddaa82f62ba7101a3.png

其中π^∗是最优策略,Π是所有策略的集合,R: S→R 是一个状态的返回,计算为:

4e7b3d69f4f421fbf1cd6e76a78a10be.png

强化学习中泛化基准

表 1 列出了在 RL 中可以进行测试泛化的可用环境,共 47 个,表中总结了每个环境的关键特性。

57a64d86678990f2c4f1f9f9d2789cda.png

其中,Style 列:提供了对环境类型的粗略高层次描述;Contexts 列:在文献中有两种设计上下文集的方法,这些方法之间的关键区别是 context-MDP 创建是否对研究人员可访问和可见。第一种称为 PCG,在 context-MDP 生成中依赖于单个随机种子来确定多个选择;第二种方法对 context-MDP 之间的变化因素提供了更直接的控制,称之为可控环境。Variation 列:描述了在一组 context MDP 中发生的变化。

泛化评估协议:事实上,在纯 PCG 环境中,评估协议之间变化唯一有意义的因素是上下文效率限制。PCG 环境提供了三类评估协议,由训练上下文集决定:单个上下文、一小组上下文或完整上下文集。这些分别在图 2A、B 和 C 中进行了可视化。

d81cfa0aaddf7ea3f29ceefb9abf4f8d.png

可控环境评估协议:许多环境不仅使用 PCG,并且具有变化因子,可以由环境用户控制。在这些可控环境中,评估协议范围更广。对于每个因素,我们可以为训练上下文集选择一个选项,然后在此范围内或之外对测试上下文集进行采样。选项范围如图 3 所示。

c35ca1018e1525eaa49f8fe372f4e507.png

强化学习中的归纳方法

文中对处理 RL 中泛化的方法进行分类。当训练和测试上下文集不相同时,RL 泛化问题就会出现。图 4 是分类图表。

28009214bcc7a3becdeb1893cda89a64.png

在其他条件相同的情况下,训练和测试环境越相似,RL 泛化差距越小,测试时间性能越高。通过将训练环境设计为尽可能接近测试环境,可以增加这种相似性。因此,本文在增加相似性方法中,包括数据增强和域随机;环境生成;优化目标。

处理训练和测试之间的差异:经过训练的模型会依赖训练中学习到的特征,但在测试环境中的一点改变就会影响泛化性能。在 5.2 节中,该研究回顾了处理训练和测试环境特征之间存在差异的方法。

关于 RL 特定问题和改进:前两节中的动机大多同样适用于监督学习。然而,除了来自监督学习的泛化问题之外,RL 还存在抑制泛化性能的其他问题。在 5.3 节中,该研究针对这一问题进行了讨论,并且还讨论了纯粹通过更有效地优化训练集(至少在经验上)来提高泛化的方法,这些方法不会导致网络过拟合。

更多细节,请参考原论文。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

d350cbe536bc7f1efffb497ac2508726.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482843.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

spring-security-学习笔记-02-基于Session的认证方式

spring-security-学习笔记-02-基于Session的认证方式 文章目录spring-security-学习笔记-02-基于Session的认证方式2 基于Session的认证方式2.1 认证流程2.2.创建工程2.2.1 创建maven工程2.2.2 Spring 容器配置2.2.3 servletContext配置2.2.4 加载 Spring容器2.3.实现认证功能2…

2021 年不可错过的 40 篇 AI 论文,你都读过吗?

来源:机器之心编辑:蛋酱虽然世界仍在从新冠疫情的破坏中复苏,人们无法向从前那样时常线下相聚、共同探讨交流关于学术领域的最新问题,但AI研究也没有停下跃进的步伐。转眼就是2021年底了,一年就这么就过去了&#xff0…

spring-security-学习笔记-03-spring-security快速上手

spring-security-学习笔记-03-spring-security快速上手 文章目录spring-security-学习笔记-03-spring-security快速上手3-spring-security快速上手3.1 Spring Security介绍3.2 创建工程3.2.1 创建maven工程3.2.2 spring容器配置3.2.3 Servlet Context配置3.2.4 加载 Spring容器…

所有的科学知识都是不确定的

理查德菲利普费曼(Richard Phillips Feynman),1918年5月11日—1988年2月15日,美国著名理论物理学家,1965年,因在量子电动力学方面的成就而获得诺贝尔物理学奖。来源:科学技术哲学一、不存在决定…

2.1.1物理层基本概念

2.1.1物理层基本概念 文章目录2.1.1物理层基本概念

神经网络为大脑如何运作提供新见解

来源:ScienceAI编辑:萝卜皮单细胞空间转录组学(sc-ST)有望阐明复杂组织的结构方面。此类分析需要通过将 sc-ST 数据集中的细胞类型与单细胞 RNA-seq 数据集集成来对它们进行建模。然而,这种整合并非微不足道&#xff0…

2.1.2数据通信基础知识

文章目录2.1.2数据通信基础知识0 思维导图1. 典型的数据通信模型2 数据通信相关术语3 三种通信方式4 两种数据传输方式2.1.2数据通信基础知识 0 思维导图 1. 典型的数据通信模型 2 数据通信相关术语 3 三种通信方式 4 两种数据传输方式

一文读懂MEMS技术4大主要分类及应用领域

来源:传感器专家网MEMS传感器是在微电子技术基础上发展起来的多学科交叉的前沿研究领域。经过四十多年的发展,已成为世界瞩目的重大科技领域之一。它涉及电子、机械、材料、物理学、化学、生物学、医学等多种学科与技术,具有广阔的应用前景。…

2.1.3码元、波特、速率、带宽

2.1.3码元、波特、速率、带宽 文章目录2.1.3码元、波特、速率、带宽0 思维导图1.码元2. 速率,波特,带宽练习题0 思维导图 1.码元 2. 速率,波特,带宽 练习题

模拟电路人工智能神经网络的前景

ISTOCKPHOTO来源:IEEE电气电子工程师未来驱动人工智能的一些最佳电路可能是模拟电路,而不是数字电路,世界各地的研究团队正在越来越多地开发支持此类模拟人工智能的新设备。在驱动AI当前爆炸的深层神经网络中,最基本的计算是乘法累…

CSS-盒子模型

CSS盒子模型 盒子模型解释 元素在页面中显示成一个方块,类似一个盒子,CSS盒子模型就是使用实现中盒子来做比喻,帮助我们设置元素对应的样式。盒子模型示意图如下: 把元素叫做盒子,设置对应的样式分别为: 盒…

2.1.4 ★(考察计算能力)奈氏准则和香农定理

2.1.4 奈氏准则和香农定理 文章目录2.1.4 奈氏准则和香农定理0.思维导图1. 失真2. 失真的一种现象--码间串扰3.奈氏准则(奈奎斯特定理)4. 奈氏准则(奈奎斯特定理)-练5. 香农定理6. 香农定理-例题7. “nice”和“香浓”对比0.思维导图 1. 失真 2. 失真的一种现象–码间串扰 3.奈…

未来哲学的六个问题域

来源:中科院哲学所作者:约翰R塞尔(John R. Searle)译者:GTY约翰塞尔生于1932年,当代著名哲学家,现为美国加州大学伯克利分校Slusser哲学教授,在语言哲学、心灵哲学和社会哲学领域贡献…

2.2_ 4_ FCFS、SJF、 HRRN调度算法

文章目录知识总览先来先服务短作业优先高响应比优先知识回顾和重要考点知识总览 先来先服务 短作业优先 高响应比优先 知识回顾和重要考点

当AI学会高数:解题、出题、评分样样都行

来源:AI科技评论“高等数学里程碑式的研究”,114页论文让AI文理双修,也许不久后机器出的高数试卷就会走进高校课堂,这下可以说“高数题不是人出的了”。人工智能虽然给我们带来了诸多便利,但也不免受到了各种质疑。在互…

2.3_ 1_ 进程同步、进程互斥

2.3_ 1_ 进程同步、进程互斥 文章目录2.3_ 1_ 进程同步、进程互斥1.知识概览2.什么是进程同步?2.什么是进程互斥3.知识回顾1.知识概览 2.什么是进程同步? 2.什么是进程互斥 3.知识回顾

IEEE Fellow李世鹏 :人工智能与机器人前沿研究之思考

来源:AI科技评论作者:维克多编辑:青暮2021年12月9日,由粤港澳大湾区人工智能与机器人联合会、雷峰网合办的第六届全球人工智能与机器人大会(GAIR 2021)在深圳正式启幕,140余位产学领袖、30位Fel…

2.3.2. 进程互斥的软件实现方法

2.3.2. 进程互斥的软件实现方法 文章目录2.3.2. 进程互斥的软件实现方法1.知识总览2.单标志法3.双标志先检查法4.双标志后检查法5. perterson算法6. 知识回顾1.知识总览 2.单标志法 3.双标志先检查法 4.双标志后检查法 5. perterson算法 6. 知识回顾

哲学的终极解释:48张图了解48种主义

来源:今日头条编辑:nhyilin哲学家建立了事物的基本概念,我们在讨论中遵循它,有时误用它,有时颠覆它。以下48个基本概念常常出现在公共讨论里,伦敦设计师Genis Carreras用最简单的线条、形状和色块对它们进行…

2.1.5编码与调制(1)

文章目录2.1.5编码与调制(1)1.基带信号与宽带信号2. 编码与调制2.1.5编码与调制(1) 1.基带信号与宽带信号 2. 编码与调制