强化学习（五）-Deterministic Policy Gradient (DPG) 算法及公式推导

强化学习（五）-Deterministic Policy Gradient (DPG) 算法及公式推导

news/2025/4/12 19:00:25/文章来源:https://blog.csdn.net/weixin_42529756/article/details/135175448

针对连续动作空间，策略函数没法预测出每个动作选择的概率。因此使用确定性策略梯度方法。

0 概览

1 actor输出确定动作
2 模型目标：
actor目标：使critic值最大
critic目标：使TD error最大
3 改进：
使用两个target 网络减少TD error自举估计。

1 actor 和 critic 网络

确定性策略网络
actor: a= $\pi(s;\theta)$ 输出为确定性的动作a
动作价值网络
critic Q=q(s,a;w) ,用于评估动作a的好坏

2 critic网络训练

观察一组数据 $s_t,a_t,r_t,s_{t+1})$
即在状态 $s_t$ 时，执行动作 $a_t$ ,得到奖励 $r_t$ ，和下一状态 $s_{t+1}$
$a_t时刻Q值: q_t=q(s_t,a_t,w)$
$a_{t+1}时刻Q值: q_{t+1}=q(s_{t+1},a_{t+1},w)$ ，其中 $a_{t+1}=\pi(s_{t+1};\theta)$
即TD Target = $r_t+\gamma * q_{t+1}$
目标：使t时刻的TD error最小
TD error： $\delta_t=q_t-(r_t+\gamma * q_{t+1})$
$w=w-\alpha *\delta_t* \frac{\partial q(s_t,a_t;w)}{\partial w}$

3 actor 网络训练

actor 网络目标是时critic值最大，所以要借助critic网络，将actor值带入critic网络，使critic最大。

a= $\pi(s;\theta)$ ,带入q(s,a;w)中得到 q(s, $\pi(s;\theta)$ ;w)
即使 q(s, $\pi(s;\theta)$ ;w) 最大
对 $\theta$ 求导:
$g=\frac{\partial q(s,\pi(s;\theta);w)}{\partial \theta}=\frac{\partial a }{\partial \theta} *\frac{\partial q(s,a;w) }{\partial a}$
参数更新
$\theta=\theta + \beta* g$

4 训练改进

4.1 主网络actor和critic更新

critic 网络更新时，在计算TD error时，使用了自举，会导致数据过高估计或者过低估计。
关键在于 $t + 1$ 时刻的 $a_{t+1}和q_{t+1}怎么生成$
和其他方法一样，可以使用两个actor和两个critic网络，减少自举带来的估计。

t+1 时的 $a_{t+1}$ 使用另一个target 策略网络actor生成
$a_{t+1}=\pi(s_{t+1};\bar\theta)$
同样t+1时 $q_{t+1}$ 使用另一个target critic网络生成
$q_{t+1}=q(s_{t+1},a_{t+1};\bar w)$

actor 参数更新方式不变。
critic更新方式变化，使用了target网络产生的 $a_{t+1}和q_{t+1}$
在这里插入图片描述

4.2 target网络actor和critic更新

target 网络初始时来自主网络，后期更新时，部分来自主网络，部分来自自己。
$\bar w= \tau *w +(1-\tau) * \bar w$
$\bar \theta= \tau *\theta +(1-\tau) * \bar \theta$

5 其他改进措施

添加经验回放， Experience replay buffer
多步TD target
target networks

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/241022.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Ceph存储体系架构？

Ceph存储体系架构？

Ceph体系架构主要由RADOS和RADOS GW和RBD以及CephFS构成。 RADOS（Reliable, Autonomic Distributed Object Store）是Ceph的底层核心，RADOS本身也是分布式存储系统，CEPH所有的存储功能都是基于RADOS实现。RADOS由两个组件组成&…

阅读更多...

【接口测试】JMeter调用JS文件实现RSA加密

【接口测试】JMeter调用JS文件实现RSA加密

📢专注于分享软件测试干货内容，欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正！📢交流讨论：欢迎加入我们一起学习！📢资源分享：耗时200小时精选的「软件测试」资…

阅读更多...

Vue.js实战：构建现代单页应用程序（SPA）的实用指南

Vue.js实战：构建现代单页应用程序（SPA）的实用指南

欢迎来到《Vue.js实战指南》！本博客将深入探讨如何通过Vue.js构建现代单页应用程序（SPA）。无论你是初学者还是有一定经验的开发者，这里都有关键的实用指南，帮助你从概念到实际应用中构建强大的SPA。准备好迎接Vue.js的…

阅读更多...

SQL分类

SQL分类

SQL分类 DDL 查询库查询表创建表修改表 DML 添加数据修改数据删除数据 DQL 基本查询条件查询聚合函数分组查询排序查询分页查询执行顺序 DCL 管理用户管理权限数据类型数值类型字符串类型日期类型

阅读更多...

【Py/Java/C++三种语言OD2023C卷真题】20天拿下华为OD笔试之【模拟】2023C-结队编程【欧弟算法】全网注释最详细分类最全的华为OD真题题解

【Py/Java/C++三种语言OD2023C卷真题】20天拿下华为OD笔试之【模拟】2023C-结队编程【欧弟算法】全网注释最详细分类最全的华为OD真题题解

文章目录题目描述与示例题目描述输入描述输出描述示例一输入输出说明示例二输入输出说明解题思路代码PythonJavaC时空复杂度华为OD算法/大厂面试高频题算法练习冲刺训练题目描述与示例题目描述某部门计划通过结队编程来进行项目开发，已知该部门有 N 名员工…

阅读更多...

startUML6.0.1破解方法

startUML6.0.1破解方法

startUML6.0.1破解方法文章目录 startUML6.0.1破解方法1.startUML6.0.1快速破解2.概述3.安装Nodejs4.安装asar5.修改app.asar中的源码6.将修改后的源码重新压缩7.覆盖官方的asar文件8.重启startUML9.参考文档 1.startUML6.0.1快速破解后绪步骤可以不看，直接下载我…

阅读更多...

使用@jiaminghi/data-view实现一个数据大屏

使用@jiaminghi/data-view实现一个数据大屏

<template><div class"content bg"><div class"module-box" style"align-items: start; margin-top: 10px">…

阅读更多...

1162字符串逆序

1162字符串逆序

一：题目二.思路分析 1.如果不用递归，可以输入字符串后，再逆序输出，但是题目要求使用递归 2.使用递归： 2.1输入字符，直到输入的字符是‘！’，停止输入，否则继续输入&…

阅读更多...

自学华为鸿蒙开发？一般人我还是劝你算了吧！！！

自学华为鸿蒙开发？一般人我还是劝你算了吧！！！

本人纯屌丝一枚，在学编程之前对电脑的认知也就只限于上个网，玩个办公软件。这里不能跑题，我为啥说自学鸿蒙开发，一般人我还是劝你算了吧。因为我就是那个一般人。基础真的很简单，是个人稍微认点真都能懂，…

阅读更多...

Java八股文面试全套真题【含答案】- MyBatis Plus 篇

Java八股文面试全套真题【含答案】- MyBatis Plus 篇

MyBatis Plus 是什么？它与 MyBatis 有什么区别？ 答：MyBatis Plus 是基于 MyBatis 进行扩展的一款持久层框架，它提供了一系列增强功能，简化了 MyBatis 的使用。与 MyBatis 相比，MyBatis Plus 提供了更多的便…

阅读更多...

【vscode插件】之点击指令，顶部弹出输入框可以输入指令，获取输入的内容

【vscode插件】之点击指令，顶部弹出输入框可以输入指令，获取输入的内容

ChatgGPT4.0国内站点: 海鲸AI-支持AI会话，文件分析，AI绘图在Visual Studio Code（VSCode）中创建一个插件，使得当用户点击一个指令时，顶部会弹出一个输入框并允许用户输入内容，可以通过使用VSCo…

阅读更多...

win10下使用fastdds

win10下使用fastdds

参照网址：https://www.cnblogs.com/edkong/p/16522836.html 需要安装的软件和用处： Visual Studio，用于打开和编译fastdds示例工程。下载地址：下载 Visual Studio Tools - 免费安装 Windows、Mac、LinuxCmake，用于将…

阅读更多...

【String str = new String(“hollis“) 创建了几个对象？】

【String str = new String(“hollis“) 创建了几个对象？】

✅典型解析创建的对象数应该是1个或者2个。首先要清楚什么是对象? Java是一种面向对象的语言，而Java对象在JVM中的存储也是有一定的结构的，在HotSpot虚机中，存储的形式就是oop-klass model，即ava对象模型。我们在Java代码中&am…

阅读更多...

FastGPT+ChatGLM3-6b搭建知识库

FastGPT+ChatGLM3-6b搭建知识库

前言：我用fastgpt直接连接chatglm3，没有使用oneai，不是很复杂，只需要对chatglm3项目代码做少量修改就能支持使用embeddings，向量模型用的m3e，效果还可以我的配置： 处理器：i5-13500 …

阅读更多...

VideoPoet: Google的一种用于零样本视频生成的大型语言模型

VideoPoet: Google的一种用于零样本视频生成的大型语言模型

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领…

阅读更多...

【C++进阶02】多态

【C++进阶02】多态

一、多态的概念及定义 1.1 多态的概念多态简单来说就是多种形态同一个行为，不同对象去完成时会产生出不同的状态多态分为静态多态和动态多态静态多态指的是编译时在程序编译期间确定了程序的行为比如：函数重载动态多态指的是运行时在程序运行…

阅读更多...

【Java异常】聊聊异常可能带来的坑

【Java异常】聊聊异常可能带来的坑

一个活生生的案例本周帮同事排查了一个问题，比较诡异的是他通过测试，并没有找到根本原因，只是发现有对应的错误日志。但是其实并没有将堆栈信息打印出来。很难看出问题。添加了 e.printStackTrace(); get exception in exter: / by zero显…

阅读更多...

Electron执行本地cmd命令

Electron执行本地cmd命令

javascript执行本地cmd命令,javascript代码怎么执行_js调用本机cmd-CSDN博客使用 Node.js 打开本地应用_nodejs启动应用-CSDN博客笔记:nodejs脚本唤醒本地应用程序或者调用命令-CSDN博客 electron调起本地应用_electron 调用本地程序-CSDN博客命令行打开vscode 你可以使用…

阅读更多...

HP笔记本电脑进入BIOS的方法主要有两种，它们使用场合不同

HP笔记本电脑进入BIOS的方法主要有两种，它们使用场合不同

BIOS（基本输入输出系统）是一种实用程序，它在你按下电源按钮后启动并加载操作系统。无论是要更新HP笔记本电脑的BIOS系统，还是清除前一个系统中的错误，第一步都是进入BIOS实用程序。在按键输入BIOS设置并对其进行修改…

阅读更多...

循环神经⽹络中的梯度算法GRU

循环神经⽹络中的梯度算法GRU

1. 什么是GRU 在循环神经⽹络中的梯度计算⽅法中，我们发现，当时间步数较⼤或者时间步较小时，**循环神经⽹络的梯度较容易出现衰减或爆炸。虽然裁剪梯度可以应对梯度爆炸，但⽆法解决梯度衰减的问题。**通常由于这个原因&#xff0…

阅读更多...

最新文章