Online RL + IL : Active Policy Improvement from Multiple Black-box Oracles

ICML 2023
paper
code
紧接上一篇MAMBA,本文在同种问题设定下的在线模仿学习方法。

Intro

文章提出了一种新的模仿学习算法,名为 MAPS(Max-aggregation Active Policy Selection)和其变体 MAPS-SE(Max-aggregation Active Policy Selection with Active State Exploration),用于从多个次优的黑盒专家(oracle)中进行策略改进。这些专家在所有状态下并不总是相互超越,这就带来了一个挑战:如何主动决定使用哪个oracle,以及在哪个状态下使用。
文章的主要贡献包括:

  1. 提出了 MAPS 和 MAPS-SE 算法,它们通过主动选择要模仿的oracle并改进它们的价值函数估计来执行模仿学习。
  2. MAPS-SE 算法额外利用了一个主动状态探索标准,根据其状态值的不确定性来决定应该探索哪些状态。
  3. 提供了对 MAPS 和 MAPS-SE 的全面理论分析,并证明了它们在样本效率方面比现有的策略改进算法有优势。
  4. 通过在 DeepMind Control Suite 中的广泛控制任务上的实验,展示了 MAPS-SE 如何通过从多个 oracle 进行状态模仿学习显著加速策略优化。

Method

首先采用和MAMBA相同的对max-aggregations baseline的定义
在这里插入图片描述
MAMBA一个主要的问题其高样本复杂度。MAMBA 基于 f ^ max ⁡ \hat{f}^{\max} f^max 估计策略梯度,并且策略随机均匀地采样oracle,导致算法需要长时间的episode识别给定状态的最佳oracle,因为它的策略是在随机均匀地采样预言机。因此,MAMBA 容易出现大量误差累积。此外,MAMBA 在选择状态进行roll-out时没有控制梯度估计的逼近误差。因此,本工作旨在通过主动选择oracle并通过主动状态探索来控制状态的不确定性来减少估计器的逼近误差。

算法的两个主要组件:主动策略选择和主动状态探索。在主动策略选择中,MAPS 利用上置信界限(UCB)的概念来决定在线学习过程中应该选择哪个oracle进行展开。在主动状态探索中,MAPS-SE 基于当前状态的不确定性来决定是否继续使用学习者策略或切换到选定的oracle。

Active Policy Selection

提出结合UCB选择Oracle,在离散空间下有
k ⋆ = arg ⁡ max ⁡ k ∈ [ K ] V ^ k ( s t ) + 2 H 2 log ⁡ 2 δ N k ( s t ) , ( 4 ) k_{\star}=\arg\max_{k\in[K]}\hat{V}^{k}(s_{t})+\sqrt{\frac{2H^{2}\log\frac{2}{\delta}}{N_{k}\left(s_{t}\right)}}, (4) k=argk[K]maxV^k(st)+Nk(st)2H2logδ2 ,(4)
对连续空间下有
k ⋆ = arg ⁡ max ⁡ k ∈ [ K ] V ^ k ( s t ) + σ k ( s t ) . ( 5 ) k_{\star}=\arg\max_{k\in[K]}\hat{V}^{k}(s_{t})+\sigma_{k}\left(s_{t}\right). (5) k=argk[K]maxV^k(st)+σk(st).(5)
其中 V ^ π k ( s t ) ≐ 1 N k ( s t ) ∑ i = 1 N k ( s t ) ∑ j H λ j r ( s j , a j ) , ( 6 ) \hat{V}^{\pi_k}\left(s_t\right)\doteq\frac{1}{N_k\left(s_t\right)}\sum_{i=1}^{N_k\left(s_t\right)}\sum_{j}^{H}\lambda^jr\left(s_j,a_j\right), (6) V^πk(st)Nk(st)1i=1Nk(st)jHλjr(sj,aj),(6)

Active State Exploration

MAMBA 的第二个限制是没有对哪种状态下进行探索给出理由。在 MAPS 的基础上,提出了一种基于当前状态的不确定性度量的 MAPS (MAPS-SE) 主动状态探索变体,它决定是否在当前学习器策略中继续滚动或切换到最有希望的预言机,类似于 MAPS。这样,MAPS-SE 旨在主动选择最小化不确定性的状态。

在离散环境下由公式4选择出最优oracle.,连续空间下N无法计算,因此采用ensemble的价值网络估计,那么状态的不确定度由网络预测的标准差定义
Γ k ⋆ ( s t ) = { 2 H 2 log ⁡ 2 δ N k ⋆ ( s t ) discrete σ k ⋆ ( s t ) continuous \Gamma_{k_\star}\left(s_t\right)=\begin{cases}\sqrt{\frac{2H^2\log\frac{2}{\delta}}{N_{k_\star}\left(s_t\right)}}&\text{discrete}\\\sigma_{k_\star}\left(s_t\right)&\text{continuous}\end{cases} Γk(st)={Nk(st)2H2logδ2 σk(st)discretecontinuous

在当前状态下是否执行最优oracle由 Γ k ⋆ \Gamma_{k_\star} Γk与阈值 Γ s \Gamma_s Γs相关
Γ s = α ⋅ ( 2 H 2 log ⁡ 2 δ K + ( ∑ i 1 Δ i 2 ) log ⁡ ( K δ ) ) \Gamma_s=\alpha\cdot\left(\sqrt{\frac{2H^2\log\frac2\delta}{K+\left(\sum_i\frac1{\Delta_i^2}\right)\log\left(\frac K\delta\right)}}\right) Γs=α K+(iΔi21)log(δK)2H2logδ2
若不确定度大于阈值则采用oracle策略,小于则采用智能体策略进行rollout.

伪代码

在这里插入图片描述
其中第十行的优化目标与MAMBA中的目标相同
∇ ℓ ^ n ( π n ; λ ) = − H E s ∼ d π n , a ∼ π n ( ⋅ ∣ s ) [ ∇ log ⁡ π n ( a ∣ s ) A λ f ^ max ⁡ , π n ( s , a ) ] , (9) \nabla\hat{\ell}_{n}\left(\pi_{n};\lambda\right)=-H\mathbb{E}_{s\sim d^{\pi_{n}},a\sim\pi_{n}(\cdot|s)}\Big[\nabla\log\pi_{n}\left(a|s\right)A_{\lambda}^{\hat{f}^{\max},\pi_{n}}\left(s,a\right)\Big], \quad \text{(9)} ^n(πn;λ)=HEsdπn,aπn(s)[logπn(as)Aλf^max,πn(s,a)],(9)

Results

在这里插入图片描述

其他

霍夫丁不等式给出有界随机变量靠近其均值的概率有多大,也用来对算法的样本复杂度进行分析。
在这里插入图片描述

Hoeffding’s inequality
cs229
机器学习数学原理(8)——霍夫丁不等式

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/838727.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SSL证书对于网络安全的重要作用

SSL证书是一种数字证书,它通过加密技术确保了客户端(如浏览器)与服务器之间的数据传输安全。当一个网站安装了SSL证书后,用户在浏览器地址栏中可以观察到HTTPS(超文本传输安全协议)前缀和挂锁图标&#xff…

点量云流分享:关于实时渲染云推流技术

提到云串流或者云推流很多人可能和游戏关联起来,其实这个技术的应用领域不仅仅是游戏,还有云上旅游、考古、智慧园区、智慧城市、虚拟仿真等等行业。其解决的问题是将一些大型的3D应用程序放在云端,程序在运行的时候也是在云端,这…

可视化大屏C位图:生产线,状态一目了然。

在可视化大屏中,将生产线作为C位图(核心位图)具有以下价值: 实时监控 生产线作为C位图可以实时展示生产线上的各个环节和工艺的运行状态。通过C位图,操作员可以直观地了解生产线的整体运行情况,及时发现异…

数仓建模理论 之 维度建模

说起维度建模,你不得不知道以下几个概念:事实表、维度表、星型模型、雪花模型、星座模型 维度建模 Ralph Kimball推崇数据集市的集合为数据仓库,同时也提出了对数据集市的维度建模,将数据仓库中的表划分为事实表、维度表两种类型…

uniapp微信小程序使用vscode代替HBuilderX开发uniapp微信小程序并且vscode改动代码微信开发者工具能实时更新

前言 最近公司开发新的小程序项目,经调研综合所有人员考虑,用uni-app Vue3tsvite技术栈开发;而官方推荐使用HBuilderX开发,而考虑到目前公司所有前端人员对VsCode更熟悉,故此总结了一下uniapp项目使用vscode代替HBuild…

网站开发初学者指南:2024年最新解读

在信息交流迅速的时代,网页承载着大量的信息,无论你知道还是不知道,所以你知道什么是网站开发吗?学习网站开发需要什么基本技能?本文将从网站开发阶段、网站开发技能、网站开发类型等角度进行分析,帮助您更…

Java 自动生成数据库设计文档

背景&#xff1a;有时候急需要数据库设计文档&#xff0c;手写太麻烦&#xff0c;这里介绍一款开源组件&#xff0c;可以自动根据数据库连接生成数据库设计文档 废话不多说&#xff0c;直接上代码 导入maven包 <dependency><groupId>org.freemarker</groupId>…

数据分析案例-印度美食数据可视化分析

&#x1f935;‍♂️ 个人主页&#xff1a;艾派森的个人主页 ✍&#x1f3fb;作者简介&#xff1a;Python学习者 &#x1f40b; 希望大家多多支持&#xff0c;我们一起进步&#xff01;&#x1f604; 如果文章对你有帮助的话&#xff0c; 欢迎评论 &#x1f4ac;点赞&#x1f4…

“安”网守护,“乐享”服务——革新教育行业运维与安全体验,锐捷发布两大创新方案

5月11日,锐捷网络举办以“’安‘网联动, ’乐享‘运维”为主题的线上发布会,正式发布了锐捷乐享教育订阅服务方案,以及以新一代智能安全网关为核心的安全防护解决方案。 锐捷网络教育系统部总经理马雪峰为发布会致开场辞,他指出,在数字化浪潮席卷全球的今天,教育行业正进来前所…

未来已来:Spring Cloud引领微服务新纪元

文章目录 1. 引言1.1 微服务架构的兴起与挑战1.2 引入Spring Cloud作为微服务解决方案的重要性 2. 背景介绍2.1 微服务架构概述2.2 Spring Cloud的定位2.3 Spring Cloud特性概览 3. Spring Cloud核心组件3.1 Eureka - 服务发现3.2 Hystrix - 断路器3.3 Ribbon - 客户端负载均衡…

Vue框架—快速入门

目录 &#x1f516; 认识VUE &#x1f516; 第一个Vue程序 &#x1f516; Vue指令 &#x1f3f7;️v-text &#x1f3f7;️v-html &#x1f3f7;️v-model &#x1f3f7;️v-bind &#x1f3f7;️v-on &#x1f3f7;️v-if / v-show &#x1f516; 认识VUE ▐ 在学习…

Spring Security实现用户认证一:简单示例

Spring Security实现用户认证一&#xff1a;简单示例 1 原理1.1 用户认证怎么进行和保存的&#xff1f;认证流程SecurityContext保存 2 创建简单的登录认证示例2.1 pom.xml依赖添加2.2 application.yaml配置2.3 创建WebSecurityConfig配置类2.4 测试 1 原理 Spring Security是…

【AI绘画】Stable diffusion初级教程08——提示词(prompt)该如何写

今天是一篇干货&#xff0c;干的喝水的那种…… 写之前呢&#xff0c;先给大家打个比方&#xff1a;现在刚入门学习SD的相当于刚上学的小学生&#xff0c;提示词就相当于作文&#xff0c;还是英语作文&#xff0c;如果你总是抄抄抄&#xff0c;不知道作文的要点&#xff0c;语法…

全球知名哲学家思想家颜廷利:将人生黑暗视为一种机遇

在时间的长河中&#xff0c;我们短暂的人生不过是眨眼间的光景。然而&#xff0c;正是这短暂的旅程给予了我们无限的可能性和转变的契机。我们应该勇敢地面对生活中的暗夜&#xff0c;将其视作成长的土壤&#xff0c;让自我在其中焕发出独特的光辉。 当我们在生命的历程中暂停脚…

React 状态管理库深度对比:在做技术选型的时候如何选择合适的状态库,nolan出品

掘金链接&#xff1a;https://juejin.cn/post/7368288987642232872 1,简介 在状态共享这方面&#xff0c;不像 Vuex&#xff0c;React 的官方并没有强力推荐某种封装方案&#xff0c;所以 React 的状态管理工具五花八门&#xff0c;百花齐放&#xff0c; react-redux、dva、C…

【Python】语句与众所周知【自我维护版】

各位大佬好 &#xff0c;这里是阿川的博客 &#xff0c; 祝您变得更强 个人主页&#xff1a;在线OJ的阿川 大佬的支持和鼓励&#xff0c;将是我成长路上最大的动力 阿川水平有限&#xff0c;如有错误&#xff0c;欢迎大佬指正 本篇博客是在之前的基础上进行的维护 目录 条…

Find My资讯|苹果 iOS 17.5 率先执行跨平台反跟踪器标准

苹果和谷歌公司于 2023 年 5 月宣布推出“检测预期外位置追踪器”&#xff08;Detecting Unwanted Location Trackers&#xff09;行业标准&#xff0c;经过 1 年多的打磨之后&#xff0c;该标准目前已通过 iOS 17.5 部署到 iPhone 上。谷歌也将为运行 Android 6.0 或更高版本的…

多版本cuda安装与切换

本教程默认你熟练安装cuda&#xff0c;不清楚怎么安装可以看其他安装教程 1.确定下载需要的版本 找到你要安装的版本&#xff0c;不能高于你显卡支持的高版本 相关链接&#xff1a; CUDA Toolkit Archive | NVIDIA Developer NVIDIA控制面板--帮助--组件 NVCUDA64.DLL表示…

React 第三十八章 React 中的位运算

位运算是一种计算机编程中常用的操作&#xff0c;它直接对二进制位进行操作。二进制&#xff0c;指的就是以二为底的一种计数方式&#xff0c;常见的还有八进制、十进制、十六进制。 十进制0123456789101112131415二进制0000000100100011010001010110011110001001101010111100…

职业生涯第一课---“Redis分布式锁优化:确保唯一性与效率“

前言 最近因为刚入职公司开启自己的实习生涯&#xff0c;工作和毕设论文同步进行&#xff0c;导致有段时间没更新博客了&#xff0c;今天来分享一下最近学到的一些知识。 场景介绍 BOSS让我写一些接口&#xff0c;他提出这样一个需求&#xff0c;该接口的参数有多个&#xf…