西湖大学赵世钰老师【强化学习的数学原理】学习笔记2节

强化学习的数学原理是由西湖大学赵世钰老师带来的关于RL理论方面的详细课程,本课程深入浅出地介绍了RL的基础原理,前置技能只需要基础的编程能力、概率论以及一部分的高等数学,你听完之后会在大脑里面清晰的勾勒出RL公式推导链条中的每一个部分。赵老师明确知道RL创新研究的理论门槛在哪,也知道视频前的你我距离这个门槛还有多远。

本笔记将会用于记录我学习中的理解,会结合赵老师的视频截图,以及PDF文档Book-Mathematical-Foundation-of-Reinforcement-Learning进行笔记注释,之后也会补充课程相关的代码样例,帮助大家理解

笔记合集链接(排版更好哦🧐):《RL的数学原理》

记得点赞哟(๑ゝω╹๑)

  • State-Value除了表示状态的价值大小以外,也是判断这个状态好坏的标准

Q:return和state-value的关系是什么?

A:return是对单个trajectory求得,而state-value是对多个trajectory求return再平均,当我们从一个state出发,能够产生多个trajectory时,两者就出现了差别。

3. Bellman euation:Derivation

贝尔曼公式描述了不同的state-value之间的关系

首先,我们现将Gt同之前的V一样分解两个部分,本阶段的即时奖励Rt+1,与γ相乘的下一个阶段以后的Gt+1,随后把期望拆分为两个式子,我们将分别讨论该如何计算。

3.1. 第一项

首先补充一个知识点:条件期望与全期望公式

我们对第一个式子继续进行拆分:

  • 由于在当前states可以有多个不同的action达成后一个RewardRt+1(即均为离散型随机变量),因此可以拆出状态s条件下所有动作a的策略概率与对应条件期望(值)的乘积之和。
  • 而对于同样的状态s和动作a,所产生的奖励r同样会有所不同(即也均为离散型随机变量),因此又可以拆分出在态s和动作a的条件下的所有奖励r的概率与对应期望(只剩下r了)的乘积之和

第一项得到了immediate reward的一个mean(expectation),即立即奖励的期望

3.2. 第二项

  • 从当前s出发,我们将下一个可能到达的状态称为s’,由于依然离散,我们再一次拆分出s转移到s’的概率和对应条件下的期望
  • 又根据马尔科夫性质,我们发现St=s这一条件信息是没有价值的,将其省略
  • 此时的期望恰好就是s'状态下的state_value
  • 最后我们再根据所采取的不同动作,再进行一次分解

第二项得到了future rewards的一个期望

3.3. 合并以及进一步推导

贝尔曼公式链接了状态之间的state-value

其包含了即时奖励与未来奖励

对状态空间中所有的状态都成了,即有n个状态,就会有n个式子,从而能够解方程获得state_value

现在,方程中的未知数是各个Vπ(S),为了求解他们,我们需要明确其余参数的值

  • π(a|s)就是一个给定的策略
  • p(r|s,a)``p(s'|s,a)则是在环境中所给出的信息,但是无论知道与否,我们都有求解state_value的方法(未知的时候,称为model-free reinforcement learning算法)
3.3.1. Policy1

3.3.2. Policy2


最后发现Vπ(s4)``Vπ(s3)``Vπ(s2)都同样为10,但Vπ(s1)为8.5<9,因此策略一更好

4. Bellman equation:Matrix-vector form

为了求解贝尔曼方程,我们需要用所有状态的等式,组成方程组,于是加入了线性代数的逻辑形式,引入矩阵向量形式

虽然前面好不容易才拆开,接着就又要合上啦🙃

  • 首先我们将括号中前一项取出,相乘化简,其实际意义是计算从状态s出发,按照策略π的概率选择动作a,所带来的即时奖励reward的平均
  • 随后是另一项,它的实际意义是将在状态s,通过动作a,到达状态s'的概率×在状态s,按照策略选择动作a的概率,获得了从状态s到状态s'的总概率
  • 然后我们就会获得一个相对简单一些的式子

Vπ=rπ+γPπVπ


4.1. 两个policy的例子

5. Bellman euation:Solve the state values

Q:为什么要求解贝尔曼公式?

A:求解贝尔曼公式,进而获得state-value才能够实现policy-evaluation

我们将先前的等式进行一次变化,对I-γPπ 取逆

关于I-γPπ 的证明见下(本蒟蒻没有看懂)

但是在实际当中,当状态空间比较大是,求逆矩阵的运算量过大,因此更加常用的方式是迭代(iteration)

通过对有限数量的公式反复迭代后,我们可以发现Vk最终将近似于Vπ

通过极限推导可以证明δ->0


5.1. 两个好策略的例子

体现出的特征有:

  • 所有state values均为正数
  • 靠近target-area的state value会越大,反之则会越小
  • 不同的policy能够产生相同的state value

5.2. 两个坏策略的例子

体现出的特征有:

  • 所有state values均为负数

state value可以用来判断policy的好坏

6. ✨Action value

  • state value指agent从一个状态出发,所得到的average return
  • action value指agent从一个状态出发,并且选择了一个action之后,所得到的average return

根据action value更高的action来获得更高的reward


我们使用qπ(s,a)来表示Action value

  • qπ(s,a)是(s,a)的函数(由s和a共同决定)
  • qπ(s,a)同样依赖于策略π,因为不同的策略导致的action的期望并不相通

6.1. Example

  1. Action value直接决定了我们选择哪一种action
  2. 可以通过state value以贝尔曼公式推出action value,或是通过数据直接计算(不依赖模型)

7. Summary

  1. 本节主要讲述了State value与Action value
  2. 贝尔曼公式描述了State value之间的关系,并提供了一种求解的工具,另外右联立起了State value与Action value
  3. 我们还介绍了贝尔曼公式的矩阵形式
  4. 两种求解贝尔曼公式的方法:closed-form solution(矩阵求解法),iterative solution(迭代法)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/4453.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

BKP备份寄存器RTC实时时钟

文章目录 BKP简介相关引脚BKP基本结构 RTC简介RTC框图三种时钟源RTC基本结构 硬件电路RTC操作注意事项 BKP简介 BKP&#xff08;Backup Registers&#xff09;备份寄存器BKP可用于存储用户应用程序数据。当VDD&#xff08;2.0~ 3.6V&#xff09;电源被切断&#xff0c;他们仍然…

【QT】ROS2 Humble联合使用QT教程

【QT】ROS2 Humble联合使用QT教程 文章目录 【QT】ROS2 Humble联合使用QT教程1. 安装ROSProjectManager插件2. 创建ROS项目3.一个快速体验的demoReference 环境的具体信息如下&#xff1a; ubunt 22.04ros2 humbleQt Creator 13.0.0ROS ProjectManager 13.0.0 本文建立在已经…

MT3030 天梯赛

跟MT3029战神小码哥类似&#xff0c;都是贪心堆。注意开long long 这里的堆顶为战斗力最小的&#xff0c;便于贪心的反悔操作。先按容忍度从大到小排序&#xff08;q中总容忍度取决于最小的容忍度&#xff09;&#xff0c;再向q中存数&#xff0c;存到不能容忍之后再把堆顶踢出…

深度学习-线性回归+基础优化算法

目录 线性模型衡量预估质量训练数据参数学习训练损失最小化损失来学习参数显式解 总结基础优化梯度下降选择学习率 小批量随机梯度下降选择批量大小 总结线性回归的从零开始实现实现一个函数读取小批量效果展示这里可视化看一下 线性回归从零开始实现线性回归的简洁实现效果展示…

静态住宅IP代理VS动态住宅IP代理,该如何选择?

在网络安全和数据采集领域&#xff0c;代理服务已经成为一个必不可少的工具。在IP代理服务中&#xff0c;静态住宅代理和动态住宅代理是两种常见的代理类型。今天就为大家详细介绍静态住宅代理与动态住宅代理的差异。 首先我们来看什么是静态住宅IP&#xff0c;这种IP地址可以被…

硅酸盐玻璃反应离子刻蚀在光学微系统的应用前景

引言 微光学元件和复杂光学微系统需要超精密制造工艺。最大容许粗糙度由所用波长λ的分数定义&#xff0c;例如λ或更好&#xff0c;而元件的整体尺寸和形状可以容易地达到毫米或厘米范围。在RIE过程中&#xff0c;材料传输是通过离子和反应气体与等离子体反应器表面的物理和化…

Spring Boot项目中的ASCII艺术字

佛祖保佑&#xff1a; ${spring-boot.formatted-version} ———————————————————————————————————————————————————————————————————— // _ooOoo_ …

分享爱,分享精彩瞬间,分享5款实用软件

分享爱&#xff0c;分享时光&#xff0c;分享精彩瞬间&#xff0c;大家好&#xff0c;我是互联网的搬运工&#xff0c;今天继续给大家带来几款好用的软件。 1. 数据分析——Chartistic ​ Chartistic是一款功能强大的数据分析可视化工具&#xff0c;它提供了丰富的图表类型和…

C语言操作符和关键字

文章目录 操作符单目操作符sizeof&#xff08;类型&#xff09;强制类型转换 关系操作符、逻辑操作符、条件操作符逗号表达式 常见关键字typedefstaticstatic修饰局部变量static修饰全局变量static修饰函数 register寄存器关键词define定义常量和宏 操作符 单目操作符 C语言中…

R-Tree原理及实现代码

目录 一.引言 二.R-Tree的基本原理 插入操作 查询操作 删除操作 平衡操作 三. 节点分裂 线性分裂 二次分裂 增量分裂 四.查询 范围查询 最近邻查询 五.最新研究进展 六.C语言实现示例 七. 实际案例分析 八.总结 一.引言 在计算机科学领域&#xff0c;R-Tree是…

基于 Spring Boot 博客系统开发(一)

基于 Spring Boot 博客系统开发&#xff08;一&#xff09; 本系统是简易的个人博客系统开发&#xff0c;为了更加熟练地掌握SprIng Boot 框架及相关技术的使用。&#x1f913;&#x1f913;&#x1f913; 基于 Spring Boot 博客系统开发&#xff08;二&#xff09;&#x1f4…

聊聊.NET Core处理全局异常有那些方法

简述 处理全局异常的方法有IExceptionFilter&#xff08;异常处理&#xff09;&#xff0c;使用中间件异常处理&#xff0c;使用框架自带异常中间件等。考点 考察对异常处理方式的熟悉程度和广度&#xff0c;以及对中间件、过滤器熟练程度。 下面分别具体介绍三种处理异常的…

Spring Cloud学习笔记(Feigh):简介,实战简单样例

这是本人学习的总结&#xff0c;主要学习资料如下 - 马士兵教育 1、Netflix Feign简介2、Open Feign的简单样例2.1、dependency2.2、代码样例 1、Netflix Feign简介 Netfilx Feign是用来帮助发送远程服务的&#xff0c;它让开发者觉得调用远程服务就像是调用本地方法一样&…

计算机系列之进程调度、死锁、存储管理、设备管理、文件管理

11、进程调度-死锁-存储管理-固定分页分段 1、进程调度 进程调度方式是指当有更高优先级的进程到来时如何分配CPU。分为可剥夺和不可剥夺两种&#xff0c;可剥夺指当有更高优先级进程到来时&#xff0c;强行将正在运行进程的CPU分配给高优先级进程&#xff1b;不可剥夺是指高…

分享一些常用的内外网文件传输工具

内外网隔离后的文件传输是网络安全领域中一个常见而又重要的问题。随着信息技术的快速发展&#xff0c;网络安全问题日益凸显&#xff0c;内外网隔离成为了许多企业和组织保护内部信息安全的重要手段。然而&#xff0c;内外网隔离后如何有效地进行文件传输&#xff0c;成为了摆…

专利视角下的量子竞赛:《2024全球专利格局白皮书》

2024年1月&#xff0c;欧洲量子产业联盟&#xff08;QuIC&#xff09;发布了题为《全球量子技术专利格局描述》的综合白皮书。 该文件以透明的视角展示了当今的知识产权格局&#xff0c;包括知识产权持有人的地理分布。该文件由 QuIC 知识产权&#xff08;IP&#xff09;与贸易…

3DTiles特性与内容解析

一篇19年整理的比较老的笔记了。更多精彩内容尽在数字孪生平台。 瓦片种类 3DTiles瓦片有多种类型&#xff1a; b3dm(Batched 3D Model&#xff0c;批量3D模型) b3dm瓦片存储了多个个体&#xff0c;b3dm中的glb代表的实际对象应该具有相同的种类但是可能数据内容不同。b3dm…

ABAP开发:SAPscript表单设计及打印简介

在SAP ERP系统应用中&#xff0c;通常利用Forms表单来定制诸如发票、支票及标签之类的特殊文档的打印格式。这些Forms用来描述文档页面中的信息结构&#xff0c;比如地址抬头、item行、页脚等等&#xff0c;Forms设计就是要确定这些文档的输出格式。 利用SAPscript工具进行Form…

html+css 选择器优先级

1.基本选择器优先级 id>class>tagname(标签选择器)>*(通配符选择器) <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>基本选择器的优先级</title><style type"text/css"…

ShaderLab的混合命令

文章目录 示例原理混合因子混合操作参考 示例 Pass {Tags{"LightMode" "ForwardBase"}// 关闭深度写入ZWrite Off// 设置Pass的混合模式&#xff0c;SrcAlpha: 片元着色器产生的颜色的混合因子// OneMinusSrcAlpha 已经存在于颜色缓冲中的颜色的混合因子…