Predictable MDP Abstraction for Unsupervised Model-Based RL

ICML 2023
paper
code

Intro

文章提出了一种用于无监督基于模型强化学的方法,称为可预测MDP抽象(Predictable MDP Abstraction, PMA)。在MBRL中,一个关键部分是能够准确建模环境动力学动态模型。然而,这个预测模型误差可能会降低策略性能,并且在复杂的马尔可夫决策过程中(MDPs),准确的预测可能非常困难。

为了缓解这个问题,作者提出了PMA,它不是在原始MDP上训练预测模型,而是在一个变换后的MDP上训练模型,这个变换后的MDP通过学习动作空间中可预测和易于建模的动作,同时尽可能覆盖原始的状态-动作空间。这样,模型学习变得更容易和更准确,从而允许鲁棒、稳定的基于模型的规划或基于模型的RL。这种变换是在无监督的方式下学习的,在用户指定任何任务之前。然后,可以零样本(zero-shot)解决下游任务,而无需额外的环境交互。作者从理论上分析了PMA,并通过一系列基准环境证明了PMA相对于以前的无监督MBRL方法有显著的改进。

Method

PMA 所构建的MDP过程结构如下
在这里插入图片描述

而对于可预测的MDP抽象需要满足三个需求

  1. 基于隐变量的状态转移函数 p ( s ′ ∣ s , z ) p(s'|s,z) p(ss,z)得到的状态能够尽可能被预测到, 即最小化预测不确定性
  2. 潜在动作的结果应该彼此尽可能不同(即最大化动作多样性以保持原始 MDP 的大部分表现力)
  3. 潜在 MDP 中的转换应尽可能覆盖原始转换(即最小化认知不确定性来鼓励探索)

基于上述需求构建如下信息论目标
max ⁡ π z , π e I ( S ′ ; ( Z , Θ ) ∣ D ) , \max_{\pi_z,\pi_e}I(S';(Z,\Theta)|\mathcal{D}), πz,πemaxI(S;(Z,Θ)D),
其中D表示训练数据集以及Z, Θ \Theta Θ表示潜在预测模型 p ^ z ( s ′ ∣ s , z ; θ ) \hat{p}_z(s^{\prime}|s,z;\theta) p^z(ss,z;θ)参数。该式子进一步分解为:
在这里插入图片描述
这三项就分别满足上述的三个需求。特别的是第三项中,在已知状态转移后最小化参数的不确定性。

原始的互信息估计计算困难,因此对等式(4)第一项做如下近似估计
在这里插入图片描述
而对于information gain部分则是采用对ensemble model的不确定性估计近似
在这里插入图片描述
上述两个部分相加得到额外的奖励函数。结合基于模型的算法训练策略以及潜在动力学模型。而在下游任务进行zero-shot的实验,因为出现OOD的问题,这里加入了集成模型间最大分歧作为惩罚项
u ( s , z ) = − λ ⋅ max ⁡ i , j ∈ [ E ] ∥ μ ( s , z ; θ i ) − μ ( s , z ; θ j ) ∥ 2 . ( 11 ) u(s,z)=-\lambda\cdot\max_{i,j\in[E]}\|\mu(s,z;\theta_i)-\mu(s,z;\theta_j)\|^2.(11) u(s,z)=λi,j[E]maxμ(s,z;θi)μ(s,z;θj)2.(11)

伪代码

在这里插入图片描述

结果

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/840092.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【SQL国际标准】ISO/IEC 9075:2023 系列SQL的国际标准详情

目录 🌊1. 前言 🌊2. ISO/IEC 9075:2023 系列SQL的国际标准详情 🌊1. 前言 ISO(国际标准化组织,International Organization for Standardization)是一个独立的、非政府间的国际组织,其宗旨是…

IPKISS ------ AMF 添加自定义层

IPKISS ------ AMF 添加自定义层 正文 正文 很多时候,我们想要添加属于我们自己的层,此时我们需要向 AMF pdk 中的 gdsii.py 和 layers.py 文件添加层的信息。这两个文件的目录如下: 在 gdsii.py 文件下的 TECH.GDSII.LAYERTABLE 字典中我们…

工业大模型带来智能生产新范式

在当前工业行业的发展背景下,大模型技术展现出广阔的应用前景,在提升专业知识的可获取性和传承、优化软件技术的应用、提高数据驱动决策的准确性和效率等方面拥有显著潜力。 ‍‍‍‍‍‍‍‍‍‍据了解,蓝卓“基于supOS工业操作系统的工业大…

查看目录或文件的磁盘使用情况

在排查问题过程中,会遇到磁盘占满,需要排查具体哪个文件占用比较大,此时可以使用du 命令 du [选项] [文件或目录...] 常用的选项包括: -h 或 --human-readable:以人类可读的格式(如 K、M、G)…

WAF绕过(下)

过流量检测 这里的流量检测就是在网络层的waf拦截到我们向webshell传输的数据包,以及webshell返回的数据 包,检测其中是否包含敏感信息的一种检测方式。如果是大马的情况下,可以在大马中添加多处判断代码,因此在执行大马提供的功…

吉林大学软件工程易错题

1.【单选题】软件工程方法是( )。 A、为开发软件提供技术上的解决方法 (软件工程方法 ) B、为支持软件开发、维护、管理而研制的计算机程序系统(软件工程工具) …

Vue 3 的 setup语法糖工作原理

前言 我们每天写vue3项目的时候都会使用setup语法糖,但是你有没有思考过下面几个问题。setup语法糖经过编译后是什么样子的?为什么在setup顶层定义的变量可以在template中可以直接使用?为什么import一个组件后就可以直接使用,无需…

KDE-Ambari-Metrics-Collector问题排查解决手册

文档说明 本文档是为了解决KDE平台的Ambari-Metrics-Collector服务在运行时遇到的问题而提供的问题排查和解决方法的参考文档 说明: 当前的Ambari-Metrics-Collector服务包括了ams-collector和ams-hbase两个程序,在Ambari-Metrics-Collector安装的节点执行ps -elf|grep am…

远动通讯屏具体干啥作用

远动通讯屏具体干啥作用 远动通讯屏主要用于电力系统中的各类发电厂、变电站、光伏电站、开闭所、配电房等,具有实时传输数据和远程控制功能。它的主要作用包括: 数据采集:远动通讯屏能够采集各种模拟量、开关量和数字量等信息&#xff0c…

pod介绍之 容器分类与重启策略

目录 一 pod 基础概念介绍 1,pod 是什么 2,Pod使用方式 3,如何解决一个pod 多容器通信 4,pod 组成 5, k8s 中的 pod 二 pause容器 1,pause容器 是什么 2,pause容器作用 3&#xff…

Vue开发实例(十三)用户登录功能

使用Vue实现登录具有以下几个好处: 响应式界面:Vue框架的响应式特性可以帮助开发者轻松地实现用户登录界面的交互效果,包括表单验证、实时错误提示等,从而提升用户体验。组件化开发:Vue框架支持组件化开发,…

最新版npm详解

如:npm中搜索 jQuery image.png image.png 接地气的描述:npm 类似于如下各大手机应用市场 image.png image.png 查看本地 node 和 npm 是否安装成功 image.png image.png 或 npm install -g npm image.png image.png image.png image.png image.…

【数据库】MySQL

文章目录 概述DDL数据库操作查询使用创建删除 表操作创建约束MySqL数据类型数值类型字符串类型日期类型 查询修改删除 DMLinsertupdatedelete DQL基本查询条件查询分组查询分组查询排序查询分页查询 多表设计一对多一对一多对多设计步骤 多表查询概述内连接外连接 子查询标量子…

这所211专硕22408复试线310分,学硕收调剂!辽宁大学计算机考研考情分析!

辽宁大学信息学院下设计算机科学与技术、电子信息科学与技术、通信工程、信息管理与信息系统、软件工程5个本科专业,有计算机软件与理论、计算机应用技术2个硕士学位授权点,软件工程和计算机技术两个专业硕士学位点,1个计算机应用研究所、1个…

案例题(第一版)

案例题目 软件架构设计考点(历年必考) 软件架构设计通常在每年的第一题,该题必考 必备概念 必备概念即考试必须要默写出来的概念 概念描述软件架构风格是指描述特定软件系统组织方式和惯用模式。组织方式描述了系统的组成构件和这些构件的组…

在Spring Boot项目中通过自定义注解实现多数据源以及主备数据库切换

在现代的企业应用开发中,使用多数据源是一个常见的需求。尤其在关键应用中,设置主备数据库可以提高系统的可靠性和可用性。在这篇博客中,我将展示如何在Spring Boot项目中通过自定义注解实现多数据源以及主备数据库切换。 在此说明&#xff…

【HTML】制作一个跟随鼠标的流畅线条引导页界面(可直接复制源码)

目录 前言 HTML部分 CSS部分 JS部分 效果图 总结 前言 无需多言,本文将详细介绍一段HTML代码,图中线条可跟随鼠标移动,具体内容如下: 开始 首先新建一个HTML的文本,文本名改为[index.html],创建好后右…

第十一节 SpringBoot Starter 面试题

一、面试题 很多同学的简历都写着熟悉 SpringBoot, 而 Starter 的实现原理被当作的考题的的情况越来越多。 来源牛客网关于 starter 的一些面试题 情景一、路虎一面 情景二、蔚来 情景三、同花顺 Starter 频频出现,因此在面试准备时,这道题…

mdm 推送证书制作教程

第一步点击获取,点击以后会下载一个zip压缩包 解压以后:会得到四个文件,请务必保存好,待会需要使用 登录apple开发者官网 https://developer.apple.com/account/resources/certificates/list 点击添加证书 找到mdm csr 然后点击…

用Python代码批量提取PDF文件中的表格

PDF文档中常常包含大量数据,尤其是官方报告、学术论文、财务报表等文档,往往包含了结构化的表格数据。表格作为承载关键信息的载体,其内容的准确提取对于数据分析、研究论证乃至业务决策具有重大意义。然而,PDF格式虽保证了文档的…