学界 | 量化深度强化学习算法的泛化能力

640?wx_fmt=jpeg

来源:AI 科技评论


OpenAI 近期发布了一个新的训练环境 CoinRun,它提供了一个度量智能体将其学习经验活学活用到新情况的能力指标,而且还可以解决一项长期存在于强化学习中的疑难问题——即使是广受赞誉的强化算法在训练过程中也总是没有运用监督学习的技术,例如 Dropout 和 Batch Normalization。但是在 CoinRun 的泛化机制中,OpenAI 的研究人员们发现这些方法其实有用,并且他们更早开发的强化学习会对特定的 MDP 过拟合。 CoinRun 在复杂性方面取得了令人满意的平衡:这个环境比传统平台游戏如《刺猬索尼克》要简单得多,但它仍是对现有算法的泛化性的有难度的挑战。

640?wx_fmt=gif

640?wx_fmt=gif


泛化挑战


任务间的泛化一直是当前深度强化学习(RL)算法的难点。虽然智能体经过训练后可以解决复杂的任务,但他们很难将习得经验转移到新的环境中。即使人们知道强化学习智能体倾向于过拟合——也就是说,不是学习通用技能,而更依赖于他们环境的细节——强化学习智能体始终是通过评估他们所训练的环境来进行基准测试。这就好比,在监督学习中对你的训练集进行测试一样!


之前的强化学习研究中已经使用了 Sonic 游戏基准、程序生成的网格世界迷宫,以及通用化设计的电子游戏 AI 框架来解决这个问题。在所有情况下,泛化都是通过在不同级别集合上的训练和测试智能体来进行度量的。在 OpenAI 的测试中,在 Sonic 游戏基准中受过训练的智能体在训练关卡上表现出色,但是如果不经过精细调节(fine-tuning)的话,在测试关卡中仍然会表现不佳。在类似的过拟合显示中,在程序生成的迷宫中训练的智能体学会了记忆大量的训练关卡,而 GVG-AI 智能体在训练期间未见过的难度设置下表现不佳。


游戏规则


CoinRun 是为现有算法而设计的一个有希望被解决的场景,它模仿了 Sonic 等平台游戏的风格。CoinRun 的关卡是程序生成的,使智能体可以访问大量且易于量化的训练数据。每个 CoinRun 关卡的目标很简单:越过几个或静止或非静止的障碍物,并收集到位于关卡末尾的一枚硬币。 如果碰撞到障碍物,智能体就会立即死亡。环境中唯一的奖励是通过收集硬币获得的,而这个奖励是一个固定的正常数。 当智能体死亡、硬币被收集或经过1000个时间步骤后,等级终止。


640?wx_fmt=jpeg

每个关卡的 CoinRun 设置难度从 1 到 3 .上面显示了两种不同的关卡:难度-1(左)和难度-3(右)


评估泛化


OpenAI 训练了 9 个智能体来玩 CoinRun,每个智能体都有不同数量的可用训练关卡。其中 8 个智能体的训练关卡数目从 100 到 16000 不等,最后一个智能体的关卡数目不受限制,因此它也永远不会经历相同的训练关卡。OpenAI 使用一个常见的 3 层卷积网络架构(他们称之为Nature-CNN),在其上训练智能体的策略。他们使用近端策略优化(PPO)对智能体进行了训练,总共完成了 256M 的时间步骤。由于每轮训练平均持续 100 个时间步骤,具有固定训练集的智能体将会看到每个相同的训练级别数千到数百万次。而最后那一个不受限制的智能体,经过不受限制的集合训练,则会看到约 200 万个不同的关卡,每个关卡一次。


OpenAI 收集了数据并绘制出了下面的图,每个点表示智能体在 10000 轮训练中的表现的平均值。在测试时使用智能体进行从未见过的关卡。他们发现,当训练关卡数目低于 4000 时,就会出现严重的过拟合。事实上,即使有 16000 个关卡的训练,仍会出现过拟合现象!不出所料,接受了不受限水平训练的智能体表现最好,因为它可以访问最多的数据。这些智能体用下图中的虚线表示。


他们将 Nature-CNN 基线与 IMPALA 中使用的卷积网络进行了比较,发现 IMPALA- cnn 智能体在任何训练集下的泛化效果都要好得多,如下所示。



640?wx_fmt=jpeg

(左)最终训练和测试cnn - nature agent的性能,经过256M的时间步长,横轴是训练关卡数目。
(右)最终训练并测试IMPALA-CNN agent的性能,经过256M的时间步长,横轴是训练关卡数目


提高泛化性能


在接下来的实验中,OpenAI 使用了 500 个CoinRun级别的固定训练集。OpenAI 的基准智能体在如此少的关卡数目上泛化,这使它成为一个理想的基准训练集。他们鼓励其他人通过在相同的 500 个关卡上进行训练来评估他们自己的方法,直接比较测试时的性能。 利用该训练集,他们研究了几种正则化技术的影响:


  • dropout (当一个复杂的前馈神经网络在小的数据集上训练时容易造成过拟合。为了防止这种情况的发生,可以通过在不同的时候让不同的特征检测器不参与训练的做法来提高神经网络的性能)和 L2 批量正则化(就是在深度神经网络训练过程中,让每一层神经网络的输入都保持相同分布的批标准化):两者都带来了更好的泛化性能,而 L2 正则化的影响更大

  • 数据增强和批量标准化:数据增强和批量标准化都显著改善了泛化。

  • 环境随机性:与前面提到的任何一种技术相比,具有随机性的训练在更大程度上改善了泛化(详见论文 https://arxiv.org/abs/1812.02341)。

640?wx_fmt=jpeg


额外的环境


OpenAI 还开发了另外两个环境来研究过拟合:一个名为 CoinRun-Platforms 的 CoinRun 变体和一个名为 RandomMazes 的简单迷宫导航环境。 在这些实验中,他们使用了原始的 IMPALA-CNN 架构和 LSTM,因为他们需要足够的内存来保证在这些环境中良好地运行。


在 CoinRun-Platforms 中,智能体试图在 1000 步时限内收集几个硬币。硬币被随机地分散在关卡的不同平台上。在 CoinRun-Platforms 中,关卡更大、更固定,因此智能体必须更积极地探索,偶尔还要回溯其步骤。

640?wx_fmt=jpeg


在 CoinRun-Platforms 上经过 20 亿个时间步骤后的最终训练和测试性能,横轴是训练关卡数目


当他们在基线智能体实验中测试运行 CoinRun-Platforms 和 RandomMazes 时,智能体在所有情况下都非常严重过拟合。在 RandomMazes 中,他们观察到特别强的过拟合,因为即使使用 20,000 个训练关卡是,仍然与无限关卡的智能体存在相当大的泛化差距。

640?wx_fmt=jpeg

RandomMazes中的一个级别,显示智能体的观察空间(左)。横轴是训练关卡数目

下一步


OpenAI 的结果再次揭示了强化学习中潜在的问题。使用程序生成的 CoinRun 环境可以精确地量化这种过拟合。有了这个度量,研究人员们可以更好地评估关键的体系结构和算法决策。他相信,从这个环境中吸取的经验教训将适用于更复杂的环境,他们希望使用这个基准,以及其他类似的基准,向具有通用泛化能力的智能体迭代前进。

对于未来的研究,OpenAI 建议如下:

  • 研究环境复杂性与良好泛化所需的关卡数量之间的关系

  • 调查不同的循环体系结构是否更适合在这些环境中进行泛化

  • 探索有效结合不同正则化方法的方法


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。


  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”


640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/493189.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《科学》评出2018年度十大科学突破事件

来源:科学大院《科学》杂志每年会评出在即将过去的一年里最为重要的十大科学突破(Science Breakthrough)。今年,夺得年度突破桂冠的是“单细胞水平细胞谱系追踪技术”,帮助破获多起悬案的法医系谱技术、#MeToo 运动等也…

递归理解以及时间复杂度计算

一.复杂度分析: 可以理解为递归的深度就是空间复杂度,时间复杂度就是O(T*depth),其中T是每个递归函数的时间复杂度,depth是递归深度. #空间复杂度O(1) def sum1_(n):res 0for i in range(n1):resireturn res#递归 空…

性价比高出英特尔45%,亚马逊的云服务器芯片如何做到?| 解读

来源:TheNextPlatform编译:机器之能 张玺摘要:到目前为止,亚马逊和其他大型云运营商几乎全部使用英特尔的 Xeon 芯片。虽然在服务器芯片市场,英特尔市场占有率非常高,但亚马逊正使用折扣策略来赢得客户。亚…

GIOU loss+DIOU loss+CIOU loss

一.IOU 1.GIOU解决没有交集的框,IOU为0,其损失函数导数为0,无法优化的问题。 图1 GIOU,IOU,l2范数差异 a)可看出 l2值一样,IOU值是不一样的,说明L1,L2这些Loss用于回归任务时,不能等价于最后用于评测检测的IoU. b)可看出当框有包含关系,GIOU就退化为IOU 其是找…

《科学》十大年度科学突破反映的新动向

来源:新华网摘要:从测定分子结构到宇宙探索,从发现远古动物到揭示细胞的秘密,美国权威学术刊物《科学》杂志评选的2018年十大科学突破,在时间和空间尺度上拓宽着人类认知的边界,也反映了近年来科学发展的三…

ctpn论文阅读与代码

代码地址: https://github.com/zonghaofan/ctpn_torch 1.通用的目标检测是封闭的,而文字是封闭且连续 2. 构造一系列宽度相等的小文本,回归中心y坐标和高度 3. 对于边界回归x坐标,在进一次修正 4.整个模型就是backbone提取特征,将每个像素点的相邻3*3像素拉成行向量,利用空间…

yum配置与使用

yum配置与使用(很详细) yum的配置一般有两种方式,一种是直接配置/etc目录下的yum.conf文件,另外一种是在/etc/yum.repos.d目录下增加.repo文件。一、yum的配置文件$ cat /etc/yum.conf [main]cachedir/var/cache/yum #yum下载的RPM包的缓存目录k…

新技术不断涌现,下一代云计算的突破口在哪里?

来源:日知录技术社区这是一个IT技术飞速发展的时代,在硬件基础设施的不断升级以及虚拟化网络等技术的日益成熟下,云厂商也正面临着各种新技术带来的巨大挑战。从数据中心的基础建设到云平台的系统构建再到产品底层的技术改革,该如…

生成高斯热力图(craft中有使用)+2d heatmap+3d heatmap

一.生成高斯热力图 from math import exp import numpy as np import cv2 import osclass GaussianTransformer(object):def __init__(self, imgSize512, region_threshold0.4,affinity_threshold0.2):distanceRatio 3.34scaledGaussian lambda x: exp(-(1 / 2) * (x ** 2))…

POP动画[1]

POP动画[1] pop动画是facebook扩展CoreAnimation的,使用及其方便:) 1:Spring系列的弹簧效果(两个动画kPOPLayerBounds与kPOPLayerCornerRadius同时运行) #import "RootViewController.h" #import "YXEasing.h" #import "POP.h" #import "YX…

远比5G发展凶猛!物联网2018白皮书,国内规模已达1.2万亿

来源:智东西摘要:研判物联网的技术产业进展情况,梳理消费物联网、智慧城市物联网、生产性物联网三类物联网应用现状及驱动因素 。在供给侧和需求侧的双重推动下,物联网进入以基础性行业和规模消费为代表的第三次发展浪潮。 5G、 低…

收缩分割多边形(PSENet中有使用)

目的:为了解决密集文本的分割问题 代码: # -*- codingutf-8 -*- import os import cv2 import Polygon as plg import pyclipper import numpy as npdef dist(a, b):return np.sqrt(np.sum((a - b) ** 2))#计算周长 def perimeter(bbox):peri 0.0for i in range(bbox.shape[…

Android 3D emulation 架构理解

Android Emulator 给用户提供 GPU on 选项,意思是利用 Host ( 就是执行 Emulator 的PC机) 的 GPU. 当然PC机必须把 OpenGL 的驱动装好 在实现上就是把 libGLESv1_CM.so libGLESv2.so 替换掉,当system调用 gl的函数的时候,把调用打包为strea…

年度回顾:2018年的人工智能/机器学习惊喜及预测19年的走势

来源:网络大数据考虑到技术变革的速度,我认为让专业IT人士分享他们对2018年最大惊喜及2019年预测的看法会很有趣。以下是他们对人工智能(AI),机器学习( ML)和其他数据科学迭代的看法:CLARA分析公司首席执行官兼创始人:…

利用dbnet分割条形码与文字(代码+模型)+知识蒸馏+tensorrt推理+利用pyzbar和zxing进行条形码解析

一.DBnet 1.代码链接 分割条形码与文字代码:github链接:GitHub - zonghaofan/dbnet_torch: you can use dbnet to detect word or bar code,Knowledge Distillation is provided,also python tensorrt inference is provided.(提供模型) 2.论文阅读 …

全球值得关注的11家人脸识别公司与机构

来源:资本实验室根据美国国家标准与技术研究院(NIST)的2018年全球人脸识别算法测试(FRVT)最新结果,今年共有来自全球的39家企业和机构参与本次竞赛。在最新排名中,前五名算法被中国公司包揽&…

图论基础知识--最小生成树算法kruskal(克鲁斯克尔)和普里姆算法(Prim算法);最短路径算法Dijkstra(迪杰斯特拉)和Floyd(弗洛伊德)

一.基础知识 有向图 无向图 以无向图为例: 邻接矩阵: 度矩阵(对角矩阵): 二.最小生成树 应用:将网络顶点看着城市,边看着城市之间通讯网,边的权重看着成本,根据最小生成树可以构建城市之间成本最低的通讯网&#x…

算法偏见侦探

来源:AI 科技评论摘要:随着越来越多的算法不断渗透入社会的层层面面,如医疗机构、政府部门,对算法偏见的讨论越来越多。这个月,Nature 杂志评选出 2018 年最受欢迎的十大科学长篇专题报道,其中,…

pytorch实现常用的一些即插即用模块(长期更新)

1.可分离卷积 #coding:utf-8 import torch.nn as nnclass DWConv(nn.Module):def __init__(self, in_plane, out_plane):super(DWConv, self).__init__()self.depth_conv nn.Conv2d(in_channelsin_plane,out_channelsin_plane,kernel_size3,stride1,padding1,groupsin_plane)…

硅片行业:过剩背景下的寡头市场

来源:乐晴智库精选▌竞争格局:过剩背景下的寡头市场,规模壁垒初步形成光伏产业总体处于产能过剩的状态,硅片环节的过剩尤为突出。根据PVInfolink的统计数据,截至2018年2季度末,全球硅片总产能超过160GW,年化…