强化学习的数学原理:贝尔曼公式

大纲

这一节课程的大纲:

在这里插入图片描述

重点

对于这次课,重点是两个东西:

在这里插入图片描述

Motivating examples(为什么需要贝尔曼公式)

首先要明白,为什么 return 是重要的?

在这里插入图片描述

之前其实就说过,return 能够帮助我们评价一个策略是好还是坏,因此 return 的概念是非常重要的。

对于上图中的三种不同的策略,我们能够得到各个策略下所得到的 return 值:

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

此时我们比较一下三个 return :

在这里插入图片描述

刚刚我们计算 return 使用的是 return 的本质定义,但实际上我们有更好的方法,来看下面的例子:

在这里插入图片描述

可以看见共有四个状态,然后每个状态 s 都有对应的策略(绿色箭头)和其对应的 return 值。

方法一就是使用我们刚刚的方式,也就是从定义出发,我们计算 return 的方式如下,引入 vi 用以表示 return 值:

在这里插入图片描述

而方法二就有意思多了:

在这里插入图片描述

从上式可以看出,从不同状态出发得到的 return,它是依赖于从其它状态出发所得到的 return 的,而这个 idea 在强化学习当中被称为 Bootsstrapping。

Bootsstrapping在不同的历史阶段有不同的含义,但现在的含义大概是表示 从自己出发然后去不断地迭代所得到的一些结果。
在这里插入图片描述
Bootstrapping使得强化学习算法能够在不完全依赖真实回报的情况下进行价值函数的更新,从而提高了算法的效率和灵活性。
然而,Bootstrapping也可能引入误差,因为价值函数的更新是基于之前的估计值,如果这些估计值本身就存在误差,那么误差可能会累积并影响算法的性能。

但此时有一个问题,我们要求解的就是 v,但居然还要事先知道 v?这怎么可能呢?

然而从数学的角度上看,是可以解决的。

在这里插入图片描述

注意:上图左侧中的关于 γv 这个矩阵的形式并不是顺序的v1、v2、v3、v4,因此我们需要使用一个矩阵(上图右侧的形式)来对其进行变换,变换后的结果就是顺序的了。

这个过程可以数学化为上图中的公式。

这个公式解也很容易解,只要具备一点线性代数的知识就能够求解,我们将 γPv 移动左边,然提出相同项 v,将(1-γP)求逆放到右边式子就可以进行求解了(γ、r 以及 P 我们都是已知的)。

而所得到的这个公式,就是我们本节课要提到的 贝尔曼公式:

在这里插入图片描述

但是这个贝尔曼公式是针对非常简单的、特别是 deterministic (确定性的过程)的一个情况,后面会介绍更加泛化的贝尔曼公式。

State value(什么是状态价值)

在介绍概念之前,需要先引入一些符号:

在这里插入图片描述

上图是一个简单的单步过程,St 表示当前状态,在当前状态下采取 At 的动作后得到的下一个 reward 就是 R(t+1),然后状态也跳转到了 S(t+1) 。

值得注意的是,有时候 R(t+1) 也会写成 Rt,从数学上来说没有什么本质区别,只是一个习惯问题,一般都是 R(t+1)。

另外在这个转换过程当中,所有的这些跳跃,它们都是由条件概率来决定的:

在这里插入图片描述

对于这样的单步过程如果连续起来,就成了多步的过程,也就形成了之前所说的 trajectory 的概念:

在这里插入图片描述

对于上图这样的 trajectory,我们当然可以对其求 discounted return,使用 G(t) 来表示。

有了这些准备,那么我们现在可以正式开始定义 State value 了:

在这里插入图片描述

State value 就是 G(t) 的 expectation 期望值,或者也可以叫 expected value 或者叫 mean,或者叫 average ,它们实际上都代表同一个意思,就是平均值。

,“期望”(expectation)通常指的是数学上的期望值,即随机变量的平均值或者是在概率分布下的加权平均
期望一直是定量,它与总体的均值相等。但是均值可以是变量,因为取不同样本的时候均值可以不同。

实际上 State value 的全程是 State value function,我们使用 VΠ(s) 来代替 state value,其数学定义就是对 Gt 求 expectation 。但注意这是一个 条件期望,也就是当前的状态应该取一个具体的值 s。

return 和 state value 的联系

那么 return 和 state value 有什么区别和联系呢?

其实非常简单,return 是针对单个 trajectory 所求的,而 state value 则是对多个 trajectory 所求得的 return 和后再求平均值之后的结果。

如果从一个状态出发有可能得到多个 trajectory,这时候 return 和 state value 显然是有区别的;但是如果从一个状态出发一切都是确定性的,那么只能够得到一条 trajectory,那这时候从该状态出发所得到的 return 和 state value 就是一样的。

Bellman equation(贝尔曼公式)

贝尔曼公式推导

在这里插入图片描述

刚刚我们已经知道了 state value 是非常重要的,但是怎么计算 state value 呢?

贝尔曼公式就是用来计算 state value 的,其用一句话来阐述就是:它描述了不同状态的 state value 之间的关系。

接下来我们来推到 贝尔曼公式:

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

dynamic model 也称为 environment model,这又分为两种情况,一种是我们知道这个 model 进行求解(在本节以及下面几节课都是基于已知 model 的),还有一种是不知道 model,即使不知道 model 我们仍可以求出来 state value,这又被称为 model-free 的强化学习算法(这将在未来的课程当中介绍)。

接下来举一个例子来深入理解一下这个 贝尔曼公式:

我们考虑这样一个例子,在下图中我们由一个策略 Π(绿色箭头),我们要做的就是把这个问题当中所有的贝尔曼公式全部写出来:

在这里插入图片描述

说白了就是确定对于 s1 这个状态来说,其贝尔曼公式中各个概率项需要分析并且确定出来。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

当我们计算出来 state value 之后,下一步实际上就可以去改进这个策略,这样慢慢地我们就可以得到最优的策略。

另一个例子:

在这里插入图片描述

在这里插入图片描述

贝尔曼公式:矩阵向量形式

在这里插入图片描述

之前说过,对于 n 个 state 那么就会有 n 个这样的贝尔曼公式。那么把所有的这些公式放在一起就能得到一组,这一组就可以整理成矩阵向量的形式,进而完成 贝尔曼公式 中对 state value 的求解。

如何得到这些公式的 矩阵向量形式:

在这里插入图片描述

在这里插入图片描述

举个例子来看一下,当有 4 个状态时所得到的 矩阵向量 形式如何:

在这里插入图片描述

另一个例子:

在这里插入图片描述

贝尔曼公式:求解 state values

首先回答一个问题,为什么需要求解 state value?

实际上给定一个 policy,然后我们会列出其贝尔曼公式,再进一步求解这个贝尔曼公式得到 state value。这么一个过程称为:policy evaluation。

在这里插入图片描述

policy evaluation 是 RL 中非常关键的一个问题,是非常基础的一个工具,只有能够去评价一个策略是好还是不好我们才能够去改进它最后才能找到最优策略。

因此求解贝尔曼公式进而得到 state value 是非常重要的问题。

在这里插入图片描述

上图中的第一行表达式就是我们刚刚推出的贝尔曼公式的 矩阵向量形式,求解有两种方式,一种是求解析解,如上图第二行表达式所示(通过第一行表达式,我们很容易能够推导出第二行表达式),但是这样做是复杂的,因为有一个求逆的过程,在状态空间非常大的时候,这种计算是困难且复杂的。

因此我们一般使用 迭代 的方式来完成求解,即上图中第三行表达式(左边是V(k+1),右边是 Vk )。假如带入 V0,那么自然就能得到 V1,然后带入 V1,则又能得到 V2,这样迭代下去就能得到一个序列,可以从数学上证明,当 K 趋向于无穷大的时候,Vk 就收敛到了 VΠ,而这个 VΠ 就是真实的 state value。

在这里插入图片描述

来看个例子,先看两种比较好的策略得到的 state values:

在这里插入图片描述

从上图的两种不同策略可以看出,对于不同的策略是能够得到相同的 state value 值的。

再来看两种不好的策略所导致的结果:

在这里插入图片描述

通过这些例子,我们明白了可以通过计算 state value 来评价一个策略究竟是好还是不好。

Action value(什么是行为价值)

在学习了 state value 之后学习 action value 就会容易一些,下面是二者之间的区别与联系:

在这里插入图片描述

action value 的定义:

在这里插入图片描述

action value 依赖于从哪个状态出发、以及是哪一个 action 来出发,另外它也依赖于策略 Π。

在这里插入图片描述

一个例子:

在这里插入图片描述

在这里插入图片描述

因此 action value 是非常重要的,因为在未来会关注在某一个状态其不同的 action,比较这些不同的 action,我们会选一个 action value 值最大的那个。

action value 如何计算?

第一种方法是知道了 state value,比如求解了一个 贝尔曼公式,然后从 state value 中计算出来 action value;

第二种方式是不计算 state value 而直接计算 action value,比如说通过数据的方式,此时就不再依赖于这个模型了(在未来都会介绍):

在这里插入图片描述

Summary(总结)

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/38666.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LVGL实现字库的下载和使用

1 字库 字库的概念:相应文字或字符的合集。 点阵字库:按字库顺序排列的字符/汉字字模的合集。 LVGL中字库使用Unicode编码,Unicode 是全球文字统一编码。它把世界上的各种文字的每一个字符指定唯一编码,实现跨语种、跨平台的应…

大数据开发助手:Coze平台上一款致力于高效解决大数据开发问题的智能Bot!

大数据开发助手:Coze平台上一款致力于高效解决大数据开发问题的智能Bot 核心技术揭秘1. **自然语言处理(NLP)**2. **知识图谱构建**3. **个性化推荐算法** 功能特色概览1. **即时问题解答**2. **最佳实践分享**3. **个性化学习路径**4. **社区…

哪个牌子的超声波清洗器好?精选四大超强超声波清洗机力荐

生活中戴眼镜的人群不在少数,然而要维持眼镜的干净却不得不每次都需要清洗,只是通过手洗的方式实在太慢并且容易操作不当让镜片磨损更加严重!所以超声波清洗机就诞生了!超声波清洗机能够轻松清洗机眼镜上面的油脂污渍,…

synchronized 锁优化原理

目录 一、轻量级锁 二、锁膨胀 三、自旋优化 四、偏向锁 五、锁消除 一、轻量级锁 1. 会创建一个锁记录 Lock Record(保存在线程栈中),尝试 CAS 修改 Mark Word 中的对象头,是一种乐观锁的思想,而不是将 Java 对…

机器学习——强化学习状态值函数V和动作值函数Q的个人思考

最近在回顾《西瓜书》的理论知识,回顾到最后一章——“强化学习”时对于值函数部分有些懵了,所以重新在网上查了一下,发现之前理解的,包括网上的大多数对于值函数的描述都过于学术化、公式化,不太能直观的理解值函数以…

macos Automator自动操作 app, 创建自定义 应用程序 app 的方法

mac内置的这个 自动操作 automator 应用程序,可以帮助我们做很多的重复的工作,可以创建工作流, 可以录制并回放操作, 还可以帮助我们创建自定的应用程序,下面我们就以创建一个自定义启动参数的chrome.app为例&#xff…

cube-studio 开源一站式云原生机器学习/深度学习/大模型训练推理平台介绍

全栈工程师开发手册 (作者:栾鹏) 一站式云原生机器学习平台 前言 开源地址:https://github.com/tencentmusic/cube-studio cube studio 腾讯开源的国内最热门的一站式机器学习mlops/大模型训练平台,支持多租户&…

绘图黑系配色

随便看了几篇小论文,里面的黑配色挺喜欢的,虽然平时SCI系配色用的多,但看到纯黑配色与黑加蓝配色,那就是我最心上的最优style。

一文了解IP地址冲突的起因与解决方案

IP 地址冲突是困扰网络管理员影响网络的正常运行的常见因素。深入理解并有效解决 IP 地址冲突故障对于维护网络的高效稳定运行具有重要意义。 一、IP 地址冲突的原因 (一)人为配置错误 网络用户在手动配置 IP 地址时,对网络配置了解不多用户…

OpenGL3.3_C++_Windows(23)

伽ga马校正 物理亮度 光子数量 线性空间:光子数(亮度)和颜色值的线性关系人眼感知的亮度:对比较暗的颜色变化更敏感,感知亮度基于人的感觉非线性空间:光子数(亮度)和 颜色值^2.2,恰好符合屏幕…

为什么我学个 JAVA 就已经耗尽所有而有些人还能同时学习多门语言

在开始前刚好我有一些资料,是我根据网友给的问题精心整理了一份「JAVA的资料从专业入门到高级教程」, 点个关注在评论区回复“888”之后私信回复“888”,全部无偿共享给大家!!!我的入门语言是C&#xff0c…

互联网场景下人脸服务基线方案总结

1.简介 1.1目的 在过去的一段时间里,因为听见业务对人脸服务方案的需求,针对网络视频中关键人物定位的检索任务,完成了基于互联网场景的人脸基线服务的构建。本文档是对当前基线服务以后之后解决方案的优化进行总结。 1.2范围 本文档描述的人…

c++读取文件时出现中文乱码

原因:UTF-8格式不支持汉字编码 解决:改成ANSI,因为ANSI编码支持汉字编码

Python学习路线图(2024最新版)

这是我最开始学Python时的一套学习路线,从入门到上手。(不敢说精通,哈哈~) 一、Python基础知识、变量、数据类型 二、Python条件结构、循环结构 三、Python函数 四、字符串 五、列表与元组 六、字典与集合 最后再送给大家一套免费…

KVB App:中国制造业数据支撑澳元,分析师预计挑战0.6750阻力

摘要: 中国6月财新制造业PMI上升至51.8,反映出制造业生产经营活动的持续扩张。这一数据不仅高于预期,还为澳元提供了强有力的支撑。技术分析显示,澳元/美元可能会在短期内挑战0.6750阻力水平。 中国制造业数据解析 6月&#xff0…

python异常、模块与包

目录 了解异常异常的捕获方法python模块python包安装第三方包 了解异常 什么是异常 当检测到一个错误时,python解释器就无法继续执行了,反而出现了一些错误的提示,这就是所谓的“异常”,也就是我们常说的BUG bug单词的诞生 早期…

Python tkinter: 开发一个目标检测GUI小程序

程序提供了一个用户友好的界面,允许用户选择图片或文件夹,使用行人检测模型进行处理,并在GUI中显示检测结果。用户可以通过点击画布上的检测结果来获取更多信息,并使用键盘快捷键来浏览不同的图片。 一. 基本功能介绍 界面布局&am…

智芯开发板----时钟的使用

一、开发板时钟概述 介绍 Z20K11xM 的时钟结构,分布以及各个外设时钟源的选择。SCC 模块用于选择系统时钟,产生 core clock、bus clock 和 flash clock,分 别用于驱动 core 及高速外设、普通外设和 flash。PARCC 模块用于单独设置 每个外设的…

中霖教育怎么样?税务师通过率高吗?

中霖教育怎么样?税务师通过率高吗? 我们在税务师考试培训方面有着不错的成绩,这都是老师与学员共同努力的结果。 采用小班教学模式,确保每位学员都能得到足够的关注和指导,在学习过程中针对学员的薄弱环节进行专项突破。 因为大部分学员…

【C语言】常见的字符串函数

©作者:末央& ©系列:C语言初阶(适合小白入门) ©说明:以凡人之笔墨,书写未来之大梦 目录 strlen函数模拟实现 strstr子串查找函数模拟实现 strtok字符串分割 strlen函数 strlen函数是一个用于求字符串长度的库函数。它的参数是被求长度的字…