PPO系列2 - GAE优势函数

PPO系列2 - GAE优势函数

bicheng/2025/4/27 1:40:03/文章来源:https://blog.csdn.net/smartcat2010/article/details/144442658

策略梯度：

痛点：

1. t时刻的动作 $a^{t}$ ，其只会影响t时刻之后得到的Reward，和之前的无关。

2. t时刻的动作 $a^{t}$ ，对接下来邻近的几个Reward关系较大，跟远的关系小。

改进：

1. 只累加t时刻之后的Reward。

2. 加入衰减r

得到：

痛点：好的局势下，所有action产生的轨迹，都拿到正的reward；坏的局势下，都拿到负的reward；训练收敛速度会慢。

解决：Return减去"平均Return"，用这个"差异"（"优势"），代替纯的Return。

得到：

B是"平均Return"

动作价值函数、状态价值函数、优势函数：

得到：

展开动作价值函数Q:

将Q带入优势A:

从而消掉了Q，只用V即可了。

多进行一步采样：（注意是约等于了）

进行不同步数的采样，得到不同的优势A:

为了式子简洁，加入中间变量：(第t步进行某动作得到的优势)

代入A:

GAE优势函数：

综合了不同采样步数，折中考虑了方差和偏差

例如：

推导：

汇总：

训练：

可以让状态价值函数V的计算网络，和动作action a的计算网络，共用前面的网络层；只在最后一层不同。

V的label，可以使用t时刻之后的return值。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/bicheng/63931.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

subList与原始List相互影响

subList与原始List相互影响

在 Java 中，List#subList(int fromIndex, int toIndex) 方法返回的是原始列表的一个视图（view），而不是一个独立的副本。这意味着对 subList 的任何修改都会反映到原始列表中，反之亦然。这可能会导致意外的行为&#xf…

阅读更多...

pytest入门三：setup、teardown

pytest入门三：setup、teardown

https://zhuanlan.zhihu.com/p/623447031 function对应类外的函数，每个函数调用一次 import pytest def setup_module():print(开始 module)def teardown_module():print(结束 module)def setup_function():print(开始 function)def teardown_function():print(结…

阅读更多...

React+Antd修改Table组件滚动条样式

React+Antd修改Table组件滚动条样式

版本 Antd 5.x.x React 18.x.x Tsx <TabledataSource{SocrePaMing.length > 0 ? SocrePaMing : []}columns{tableScoreColumns}rowKey"attribute"pagination{false}className"custom-table"scroll{{ y: 400 }} /> Css .ant-table-body …

阅读更多...

一、使用 mdadm 工具在 Ubuntu 上创建 RAID 1（镜像）

一、使用 mdadm 工具在 Ubuntu 上创建 RAID 1（镜像）

在 Ubuntu 上创建 RAID 1（镜像）可以使用 mdadm 工具。以下是详细的步骤，包括安装必要的工具、创建 RAID 阵列、格式化并挂载 RAID 设备。步骤一：安装 mdadm 首先确保你已经安装了 mdadm 包，这是管理软件 RAID 所需的…

阅读更多...

webstorm开发uniapp（从安装到项目运行）

webstorm开发uniapp（从安装到项目运行）

1、下载uniapp插件下载连接：Uniapp Tool - IntelliJ IDEs Plugin | Marketplace （结合自己的webstorm版本下载，不然解析不了） 将下载到的zip文件防在webstorm安装路径下，本文的地址为： 2、安装uniapp插…

阅读更多...

Tomcat的下载和使用，配置控制台输出中文日志

Tomcat的下载和使用，配置控制台输出中文日志

目录 1. 简介2. 下载3. 使用3.1 文件夹展示3.1.1 控制台输出乱码 3.2 访问localhost:80803.3 访问静态资源 4. 总结 1. 简介 Tomcat，全称为Apache Tomcat，是一个开源的Web应用服务器和Servlet容器，由Apache软件基金会的Jakarta项目开发。它实…

阅读更多...

低功耗视频监控丨4G无线太阳能监控系统在林业场景中如何发挥作用？

低功耗视频监控丨4G无线太阳能监控系统在林业场景中如何发挥作用？

在林业领域，4G无线太阳能监控系统的引入标志着向绿色、智能管理迈出的重要一步。视频监控太阳能供电通过集成太阳能供电、4G无线通信、视频监控和物联网技术，为林业监控提供了一个绿色、智能、高效的解决方案。它不仅能够实现对森林资源的实时监控&#…

阅读更多...

硬链接方式重建mysql大表

硬链接方式重建mysql大表

硬链接方式重建mysql大表操作步骤选择数据库 select datadir; 进入数据文件目录 cd /data/mysql/mydata/testdb 创建硬连接 ln test_trans_msg_xx.ibd test_service_trans_msg_xx.ibd.bak ll test_trans_msg_xx* 进库删除表 DROP TABLE test_trans_msg_xx; 重建表 CREATE T…

阅读更多...

dolphinscheduler服务RPC框架源码解析(二)RPC核心注解@RpcService和@RpcMethod设计实现

dolphinscheduler服务RPC框架源码解析(二)RPC核心注解@RpcService和@RpcMethod设计实现

1.工程目录从3.2.1版本之后这个dolphinscheduler中的RPC框架工程就从原来的dolphinscheduler-remote工程重构到了dolphinscheduler-extract工程。 dolphinscheduler 父项目 dolphinscheduler-extract RPC服务项目 dolphinscheduler-extract-alert 监控告警服务RPC接口定义、…

阅读更多...

解析 .proto 文件

解析 .proto 文件

我这里仅仅是介绍了proto这个库解析.proto文件后的参数我也有个小demo对解析的数据进行使用，具体代码可以看这know-bay 下面解析不是很全面，但是对于现在我的来说是够用的，关于更加详细和全的，看以后是否有机会补充了假设 .prot…

阅读更多...

grpc的负载均衡

grpc的负载均衡

grpc的负载均衡分为client-side load balance和server-side load balance。所谓的“客户端负载均衡”是指主调方调用被调方的时候，在grpc.DialContext里需要指定grpc.WithDefaultServiceConfig，这个DefaultServiceConfig默认是用pick-first策略。也支持…

阅读更多...

太速科技-622-基于ADRV9002 +ZYNQ7020 的软件无线电 SDR（升级AD9361）

太速科技-622-基于ADRV9002 +ZYNQ7020 的软件无线电 SDR（升级AD9361）

基于ADRV9002 ZYNQ7020 的软件无线电 SDR（升级AD9361） 一、板卡概述板卡由ADI ADRV9002Xilinx XC7Z020-CLG484芯片设计的整板，包含双路射频输入输出通道，支持千兆网络，RS232，触摸屏等接口&#xff…

阅读更多...

如何计算kv cache的缓存大小

如何计算kv cache的缓存大小

符号定义首先，定义一些符号： ( B )：批大小（Batch Size） ( L )：序列长度（Sequence Length） ( N )：Transformer 层数（Number of Transformer Layers&#xf…

阅读更多...

SpringBoot 手动实现动态切换数据源 DynamicSource （上）

SpringBoot 手动实现动态切换数据源 DynamicSource （上）

大家好，我是此林。在实际开发中，经常可能遇到在一个SpringBoot Web应用中需要访问多个数据源的情况。下面来介绍一下多数据源的使用场景、底层原理和手动实现。一、多数据源经典使用场景场景一：业务复杂，数据量过大 1. 业务…

阅读更多...

SQLServer定时备份到其它服务器上

SQLServer定时备份到其它服务器上

环境 Microsoft SQL Server 2019 (RTM) - 15.0.2000.5 (X64) SQL Server Management Studio 15.0.18384.0 SQL Server 管理对象 (SMO) 16.100.46367.54 Microsoft .NET Framework 4.0.30319.42000 本地操作系统（SQLServer环境） Windows 11 远程操作系统…

阅读更多...

PaddleOCR模型ch_PP-OCRv3文本检测模型研究（二）颈部网络

PaddleOCR模型ch_PP-OCRv3文本检测模型研究（二）颈部网络

上节研究了PaddleOCR文本检测v3模型的骨干网，本文接着研究其颈部网络。文章目录研究起点残注层颈部网络代码实验小结研究起点摘取开源yml配置文件，摘取网络架构Architecture中颈部网络的配置如下 Neck:name: RSEFPNout_channels: 96shortcut: True可…

阅读更多...

IEEE T-RO 软体机器人手指状态估计实现两栖触觉传感

IEEE T-RO 软体机器人手指状态估计实现两栖触觉传感

摘要：南方科技大学戴建生院士、林间院士、万芳老师、宋超阳老师团队近期在IEEE T-RO上发表了关于软体机器人手指在两栖环境中本体感知方法的论文。近日，南方科技大学戴建生院士、林间院士、万芳老师、宋超阳老师团队在机器人顶刊IEEE T-RO上以《Propri…

阅读更多...

Java 环境变量配置全解析

Java 环境变量配置全解析

一、Java 环境变量配置的重要性程序运行基础确保 Java 应用能够在操作系统中被正确识别和启动，否则将无法执行任何 Java 代码。为 Java 运行时环境（JRE）提供必要的路径信息，使其能找到所需的类库和资源。使得系统可以定位到 Jav…

阅读更多...

AutoMQ x Iceberg SG Meetup: Table Topic 新特性统一流与分析首次公开

AutoMQ x Iceberg SG Meetup: Table Topic 新特性统一流与分析首次公开

活动介绍 Apache Iceberg 已经成为数据湖表格式的事实标准，为存储在S3上的数据提供了统一的格式。随着 AWS 在 2024 年的 re:invent 大会上宣布支持 Iceberg Table 的 S3 Table 新特性，Iceberg 再一次受到全球开发者的关注和讨论。AutoMQ 是基于云优先理…

阅读更多...

java-多线程的创造方式（自用笔记）

java-多线程的创造方式（自用笔记）

方式一：继承父类thread 1、定义一个子类，继承父类thread 2、重写父类的run方法 3、创建线程类的“对象” 4、启动线程 package week14;public class ThreadDemo {public static void main(String[] args) {//3、创建线程类的“对象”Thread t1 new…

阅读更多...

最新文章