【强化学习】第02期:动态规划方法

笔者近期上了国科大周晓飞老师《强化学习及其应用》课程,计划整理一个强化学习系列笔记。笔记中所引用的内容部分出自周老师的课程PPT。笔记中如有不到之处,敬请批评指正。

文章目录

  • 2.1 动态规划:策略收敛法/策略迭代法
  • 2.2 动态规划:值迭代法


总的来说,DP方法就是在已知bellman方程的环境参数(回报R和转移概率P)的情况下,求取最优策略 u ∗ u^* u和最优值 v ∗ v^* v

2.1 动态规划:策略收敛法/策略迭代法

总体思路:算V --> 算Q --> 策略改进 (不断重复)
初始化最优策略 u,
Step1 策略评估: 确定当前策略 𝜋 的值函数 V π V^π Vπ,可通过下面的式子求解。

Step2 计算动作值函数Q: 使用值函数 V π V^π Vπ来计算每个状态-动作对的动作值函数 Q π ( s , a ) Q^π(s,a) Qπ(s,a)。这一步是为了计算在当前策略 𝜋 下,每个状态-动作对的期望回报。

Step3 策略改进: 对每个状态 𝑠 选择能使 Q π ( s , a ) Q^π(s,a) Qπ(s,a)最大的动作𝑎,从而形成新的策略 𝜋′。这一步是为了更新策略,使其更接近最优策略。
在这里插入图片描述
Step4: goto Step1, 直到最优策略u不变。
在这里插入图片描述

2.2 动态规划:值迭代法

值迭代(Value Iteration)是一种用于求解马尔可夫决策过程(MDP)的经典动态规划算法。它通过迭代地更新值函数,逐步逼近最优值函数 V ∗ V^* V ,最终得到最优策略 π ∗ π^* π
在这里插入图片描述

值迭代一般分为这几个步骤:
step1 初始化:设定初始值函数 V ( s ) V(s) V(s)为零或其他任意值。
step2 迭代更新:对于每个状态 𝑠 ,根据当前值函数 V k V_k Vk计算新的值函数 V k + 1 V_{k+1} Vk+1。这个更新过程通过遍历所有状态和所有可能的动作,计算在每个状态下采取每个动作所能获得的期望累计奖励,并选择其中的最大值作为新的值函数值。
在这里插入图片描述
step3 收敛判定:当值函数的变化小于某个预设的阈值 𝜃 时,认为值函数已经收敛,可以停止迭代。
在这里插入图片描述
step4 策略提取:在值函数收敛后,通过值函数 V ∗ V^* V 提取最优策略 π ∗ π^* π
在这里插入图片描述

关于值迭代,也有很多处理技巧,这里简单介绍三种。
(1)In-place Dynamic Programming
在标准的值迭代过程中,我们通常会维护两个值函数,一个用于保存当前迭代的结果,另一个用于保存上一次迭代的结果。而在 In-place Dynamic Programming 中,我们只使用一个值函数数组,在每次更新时直接覆盖旧的值。
特点:只需要一个数组来存储值函数,减少了内存消耗。

(2)Prioritized Sweeping
是一种加速值迭代的方法,通过优先更新那些对值函数变化影响较大的状态,从而提高收敛速度。

(3)Real-time Dynamic Programming (RTDP)
是一种在实际运行过程中更新值函数的方法,适用于在线学习。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/37334.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GD32F4时钟配置

1.前言 硬件:GD32F450 最高时钟频率200MHZ(外部晶振8MHZ) 软件:KEIL(V5.35) 固件包:GD32F4xx_Firmware_Library_V3.2.0 2.时钟树 时钟配置大概流程如下图红线指示,GD32F470的最高频率可以到240MHZ,GD32F450最高…

【frp】cron定时检查zfrpc.service是否启动成功

zfrpc 经常自动启动失败cron定时检查zfrpc.service是否启动成功 ChatGPT 要使用 cron 定期检查 zfrpc.service 是否启动成功,并在服务未运行时尝试启动它,你可以按照以下步骤进行操作: 创建脚本 首先,你需要创建一个脚本,这个脚本将检查 zfrpc.service 的状态,并在服务未…

字符串反转字符串单词(1)

大家好,今天我们来探讨一道经典的编程问题——翻转字符串里的单词。这个问题要求我们编写一个函数,将输入字符串中的所有单词进行翻转,但单词内部的字符顺序保持不变。 问题分析: 1. 首先,我们需要理解翻转字符串里的…

Codeforces Round 143 (Div. 2) C. To Add or Not to Add 题解 前缀和 二分

To Add or Not to Add 题目描述 A piece of paper contains an array of n n n integers a 1 , a 2 , . . . , a n a_{1},a_{2},...,a_{n} a1​,a2​,...,an​. Your task is to find a number that occurs the maximum number of times in this array. However, before l…

点云压缩配置开发环境遇到一些bug

1、配置基于cuda的计算库,Chamfer3D和pointops 编译chamfer3D时候会遇到一个cub版本的校验错误。 解决方法:根据错误提示,进入cuda的config配置文件中,使用#define将校验功能关闭 编译pointops,会遇到报错:…

C++Primer Plus 第十四章代码重用:14.4.4 数组模板示例和非类型参数2

14.4.4 数组模板示例和非类型参数 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加 例如:第一章 Python 机器学习入门之pandas的使用 提示:写完文章后,目录可以自动生成,如何生成可参考右…

《分析模式》漫谈08-单继承不是“唯一继承”

DDD领域驱动设计批评文集 做强化自测题获得“软件方法建模师”称号 《软件方法》各章合集 《分析模式》第2章这一段: 划线处的single inheritance,2004中译本的翻译: 翻译为“单继承”,是正确的。 2020中译本的翻译&#xff1a…

Java NIO(一) 概述

NIO主要用于以少量线程来管理多个网络连接,处理其上的读写等事件。在大量连接情况下,不管是效率还是空间占用都要优于传统的BIO。 Java NIO 由以下几个核心部分组成: Channel Buffer Selector Selector 如果你的应用打开了多个连接&#x…

分页插件 count有数据,代码不往下执行

如下:如果打印了sql那么当row>0时会有图2下面sql详情的输出 问题出在了分页参数上,pageNum为1,并且pageSize>2才能打印出图二的结果,图一为pageNum值是0,注意,查询第一页,分页应该传入的是1而不是0

大数据批处理系统和业务系统是两种不同类型的系统,它们在目的、设计、功能和使用场景上有所区别

大数据批处理系统和业务系统是两种不同类型的系统,它们在目的、设计、功能和使用场景上有所区别。以下是大数据批处理系统和业务系统之间的一些主要差异: 1. **目的**: - **大数据批处理系统**:主要用于处理和分析大量数据&am…

MySQL高级1.0

目录 📌MySQL存储过程和函数 ✏️存储过程和函数介绍 ✏️存储过程的创建和调用 ✏️存储过程的查看和删除 ✏️存储过程语法-变量 ✏️存储过程语法-if语句 ✏️存储过程语法-参数传递 ✏️存储过程语法-while循环 ✏️存储过程语法-存储函数 &#x1f4…

Linux高并发服务器开发(六)线程

文章目录 1. 前言2 线程相关操作3 线程的创建4 进程数据段共享和回收5 线程分离6 线程退出和取消7 线程属性(了解)8 资源竞争9 互斥锁9.1 同步与互斥9.2 互斥锁 10 死锁11 读写锁12 条件变量13 生产者消费者模型14 信号量15 哲学家就餐 1. 前言 进程是C…

【FFmpeg】avio_open2函数

【FFmpeg】avio_open2函数 1.avio_open21.1 创建URLContext(ffurl_open_whitelist)1.1.1 创建URLContext(ffurl_alloc)1.1.1.1 查找合适的protocol(url_find_protocol)1.1.1.2 为查找到的URLProtocol创建UR…

影响Cache命中率的因素有哪些?

缓存命中率(Cache Hit Rate)是指处理器访问缓存时,所需数据已经在缓存中找到的次数与总访问次数的比例。提高缓存命中率可以显著提升系统性能,因为缓存访问速度远快于主存访问速度。影响缓存命中率的关键因素包括: 1.…

C语言异常处理就机制setjmp()和longjmp()

C语言setjmp()和longjmp()实现异常处理机制。 setjmp() 用于保存当前的程序执行状态。 longjmp() 用于在后面的某个时刻返回到setjmp()点的状态。 类似goto。但goto是本地的,只能在函数内部跳转。 setjmp()和longjmp()是非局部跳转语句,可在调用栈上&a…

通信系统网络架构_3.移动通信网络架构

移动通信网为移动互联网提供了强有力的支持,尤其是5G网络为个人用户、垂直行业等提供了多样化的服务。以下从业务应用角度给出面向5G网络的组网方式。 1.5GS与DN互连 5GS(5G System)在为移动终端用户(User Equipment,…

CSRF的其他防范措施?

一般情况下,我们可以通过各种防护策略来防御CSRF,对于QA、SRE、安全负责人等,我们可以做哪些事情来提升安全性呢? 一、CSRF测试 CSRFTester是一款CSRF漏洞的测试工具,CSRFTester工具的测试原理大概是这样的&#xff…

BLACKBOX.AI:解锁开发新纪元,加速编程学习的AI神器!

文章目录 💯BLACKBOX.AI 官网🍁1 BLACKBOX.AI 工具使用教程🍁2 BLACKBOX.AI工具使用界面介绍🍁3 Chat(聊天)功能🍁4 Explore (探索)功能💎4.1 Terminal(终端)功能💎4.2 Discover(发现)功能&…

STM32 IWDG(独立看门狗)

1 IWDG简介 STM32有两个看门狗:一个是独立看门狗(IWDG),另外一个是窗口看门狗。独立看门狗也称宠物狗,窗口看门狗也称警犬。本文主要分析独立看门狗的功能和它的应用。 独立看门狗用通俗一点的话来解释就是一个12位的…

关于转BigDecimal对象时,精度问题

//浮点型数值Double d 0.0003d;//转BigDecimal对象BigDecimal a new BigDecimal(d);System.out.println(String.format("浮点类型数字:%.4f创建BigDecimal对象并且保留多位小数并且保留多位小数时,精度会变多,结果为%s",d,a.setScale(8, BigDecimal.ROUND_DOWN)));…