Offline：IQL

Offline：IQL

web/2025/4/19 20:32:21/文章来源:https://blog.csdn.net/wdnmdwsmsa/article/details/138543652

ICLR 2022 Poster

Intro

部分离线强化学习的对价值函数采用的是最小化均方bellman误差。而其中误差源自单步的TD误差。TD误差中对target Q的计算需要选取一个max的动作，这就容易导致采取了OOD的数据。因此，IQL取消max,，通过一个期望回归算子实现利用数据集中数据去逼近最优的Q。

method

期望回归(Expectile Regression)

$\arg\min_{m_\tau}\mathbb{E}_{x\sim X}[L_2^\tau(x-m_\tau)],$
其中 $L_2^\tau(u)=|\tau-\mathbb{1}(u<0)|u^2.$ 函数如下所示
在这里插入图片描述
最右边的图可以看出，越大的 $\tau$ 使得预测值逼近上界。

IQL

IQL将上述的 $L_2^{\tau}$ 替换掉MSE来优化Q
$L(\theta)=\mathbb{E}_{(s,a,s',a')\sim\mathcal{D}}[L_2^\tau(r(s,a)+\gamma Q_{\hat{\theta}}(s',a')-Q_\theta(s,a))].$
然而上式存在一个问题。 $Q_{\hat{\theta}}$ 中采样的下一个动作具有一定的随机性，即使由较大的target Q也无法代表这是一个最优动作。因此这里来利用状态价值函数去并逼近这个Q:
$L_V(\psi)=\mathbb{E}_{(s,a)\sim\mathcal{D}}[L_2^\tau(Q_{\hat{\theta}}(s,a)-V_\psi(s))].$
采用均值就有效增加鲁棒性。而得到 V 后将通过MSE来优化Q网络：
$L_Q(\theta)=\mathbb{E}_{(s,a,s')\sim\mathcal{D}}[(r(s,a)+\gamma V_\psi(s')-Q_\theta(s,a))^2].$

AWR

价值函数完成优化后便是优化策略。这里采用的是AWR方法
$L_\pi(\phi)=\mathbb{E}_{(s,a)\sim\mathcal{D}}[\exp(\beta(Q_{\hat{\theta}}(s,a)-V_\psi(s)))\log\pi_\phi(a|s)]$

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/web/7885.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Mybatis进阶4-权限管理

Mybatis进阶4-权限管理

权限管理 1.权限 //相当于职责 2.用户 //相当于职员（职员就职于一个职位） 3.角色 //相当于职位（有多个职责） 权限管理基础表：权限表，用户表，角色表问题1：…

阅读更多...

无法添加以供审核，提交以供审核时遇到意外错误。如果问题仍然存在，请联系我们

无法添加以供审核，提交以供审核时遇到意外错误。如果问题仍然存在，请联系我们

遇到问题： 无法添加以供审核要开始审核流程，必须提供以下项目： 提交以供审核时遇到意外错误。如果问题仍然存在，请联系我们。解决办法： 修改备案号为小写， 例如：京ICP备2023013223号-2A 改…

阅读更多...

自己动手为wordpress注册一个Carousel轮播区块

自己动手为wordpress注册一个Carousel轮播区块

要为WordPress注册一个Carousel轮播区块，你可以创建一个自定义Gutenberg块。以下是一个简单的示例，说明如何创建一个Carousel轮播区块： 1. 在你的主题目录中创建一个名为carousel-block的子文件夹。在这个文件夹中，创建一个名为c…

阅读更多...

NumPy及Matplotlib基本用法

NumPy及Matplotlib基本用法

NumPy及Matplotlib基本用法导语NumPy导入与生成算术运算N维数组广播元素访问 Matplotlib简单图案绘制多函数绘制图像显示参考文献导语深度学习中经常需要对图像和矩阵进行操作，好在python提供了Numpy和Matplotlib库，前者类似一个已经定义的数组类&am…

阅读更多...

Error Code: 1449. The user specified as a definer (‘admin‘@‘%‘) does not exist

Error Code: 1449. The user specified as a definer (‘admin‘@‘%‘) does not exist

前言在进行MySQL数据库迁移或存储过程部署时，您可能会遇到错误 [Err] 1449 - The user specified as a definer (admin%) does not exist。这篇文章将为您提供一个详细的解决方案，帮助您顺利解决这一问题。错误背景此错误通常发生在尝试执行一个存…

阅读更多...

扫描反代Cloudflare的IP 给网站CDN加速免费制作自己的CDN加速

扫描反代Cloudflare的IP 给网站CDN加速免费制作自己的CDN加速

Cloudflare的CDN系统基本上每个站长都家喻户晓，大家都知道大陆对于搭建网站的审核力度，以至于Cloudflare并没有大陆的泛播节点，有也是只有香港节点。但是这些节点对于海外是加速效果，对于大陆就是一个字慢，晚高峰的情况…

阅读更多...

JavaScript异步编程——02-Ajax入门和发送http请求

JavaScript异步编程——02-Ajax入门和发送http请求

同步和异步回顾同步和异步的简单理解同步：必须等待前面的任务完成，才能继续后面的任务。异步：不受当前任务的影响。拿排队举例： 同步：在银行排队时，只有等到你了，才能够去处理业务。异…

阅读更多...

【C/C++】设计模式——单例模式

【C/C++】设计模式——单例模式

创作不易，本篇文章如果帮助到了你，还请点赞关注支持一下♡>𖥦<)!! 主页专栏有更多知识，如有疑问欢迎大家指正讨论，共同进步！ 🔥c系列专栏：C/C零基础到精通 🔥 给大…

阅读更多...

如何去官网下载windows10操作系统iso镜像

如何去官网下载windows10操作系统iso镜像

文章目录一、先从微软中国官网https://www.microsoft.com/zh-cn/进去二、然后按图示一步步点进去三、点击下载工具这个工具会帮你生成windows操作系统iso文件四、下载好后一步步按图示要求成功操作一、先从微软中国官网https://www.microsoft.com/zh-cn/进去二、然后按图示一…

阅读更多...

分享三维地理模型制作实践

分享三维地理模型制作实践

前言地理信息系统（GIS）是一种用于捕获、存储、检查和显示与地球表面位置相关的数据的计算机系统。GIS可以在一张地图上显示许多不同类型的数据，如街道、建筑物和植被。这使人们能够更容易地看到、分析和理解模式和关系。 GIS可以使用包括位…

阅读更多...

Nginx从入门到精通速成

Nginx从入门到精通速成

文章目录一. **Nginx** **的简介**1.1 什么是 **nginx**1.2 正向代理1.3 反向代理1.4 **负载均衡**1.5 动静分离二. **Nginx** **的安装**三. **Nginx** **的常用的命令**四. **Nginx** **的配置文件**五. **Nginx** **配置实例**反向代理实例**1**5.1 实现效果5.2 准备工作5…

阅读更多...

织梦云端：网络信号原理的艺术解码

织梦云端：网络信号原理的艺术解码

hello ！大家好呀！ 欢迎大家来到我的Linux高性能服务器编程系列之《织梦云端：网络信号原理的艺术解码》，在这篇文章中，你将会学习到网络信号原理以及应用，并且我会给出源码进行剖析，以及手绘UML图…

阅读更多...

道可云元宇宙每日资讯｜《元宇宙医学》创刊

道可云元宇宙每日资讯｜《元宇宙医学》创刊

道可云元宇宙每日简报（2024年5月6日）讯，今日元宇宙新鲜事有： 《元宇宙医学》创刊 4月25日至28日，第19届国际呼吸病研讨会（ISRD）暨第3届国际元宇宙医学协会（IAMM）联合会议…

阅读更多...

Elasticsearch：使用 MongoDB connector 同步数据到 Elasticsearch

Elasticsearch：使用 MongoDB connector 同步数据到 Elasticsearch

MongoDB 是一个基于分布式文件存储的数据库。由 C 语言编写。旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。MongoDB 是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。Elasticsearch 是一个高效强…

阅读更多...

速卖通卖家Tips：从入驻平台到开店费用

速卖通卖家Tips：从入驻平台到开店费用

速卖通（AliExpress）不仅是全球最大的出口B2C平台之一，也是无数中小企业出海的跳板。了解速卖通开店流程、入驻条件，以及如何有效经营你的在线店铺，是你成功的关键第一步。入驻速卖通并不是一个复杂的过程&#xff0c…

阅读更多...

Windows Server 2019虚拟机安装

Windows Server 2019虚拟机安装

目录第一步、准备工作第二步、部署虚拟机第三步、 Windows Server 2019系统启动配置第一步、准备工作下载Windows Server 2019系统镜像官网下载地址：Windows Server 2019 | Microsoft Evaluation Center VMware Workstation 17下载地址： 链…

阅读更多...

Python机器学习项目开发实战：在数据分析竞赛平台遴选最佳算法模型

Python机器学习项目开发实战：在数据分析竞赛平台遴选最佳算法模型

注意：本文的下载教程，与以下文章的思路有相同点，也有不同点，最终目标只是让读者从多维度去熟练掌握本知识点。下载教程：Python机器学习项目开发实战-在数据分析竞赛平台遴选最佳的算法模型-编程案例实例教程.pdf 1、详细阐述在Python机器学习项目开发实战中，数据分析竞…

阅读更多...

excel如何将多列数据转换为一列？

excel如何将多列数据转换为一列？

这个数据整理借用数据透视表也可以做到： 1.先将数据源的表头补齐，“姓名” 2.点击插入选项卡，数据透视表，在弹出对话框中，数据透视位置选择现有工作表，（实际使用时新建也没有问题）…

阅读更多...

Spring的基本应用

Spring的基本应用

概述：Spring是由Rod Johnson组织开发的一个分层的java SE/EE一站式的轻量级开源框架，以IOC(控制反转)和AOP（面向切面）为核心，的开发模式。注：喜欢的朋友可以关注公众号“JAVA学习课堂”系统学习相关技术&a…

阅读更多...

Python自动化实战 —— 使用Selenium进行Web自动化！

Python自动化实战 —— 使用Selenium进行Web自动化！

为了完成一项重复的任务，你需要在网站上进行大量的点击和操作，每次都要浪费大量的时间和精力。Python的Selenium库就可以自动化完成这些任务。在本篇文章中，我们将会介绍如何使用Python的Selenium库进行Web自动化，以及如何将它应…

阅读更多...

最新文章