《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch9 策略梯度方法 Box 8.1 马尔可夫决策过程的平稳分布

Box 8.1: 马尔可夫决策过程的平稳分布

整理自 链接

分析平稳分布的关键工具是 P π ∈ R n × n P_\pi \in {\mathbb R}^{n\times n} PπRn×n,它是给定策略 π π π 下的概率转移矩阵。
如果状态被索引为 s 1 , ⋯ , s n s_1,\cdots, s_n s1,,sn,则定义 [ P π ] i j [P_\pi]_{ij} [Pπ]ij 为 agent 从 s i s_i si 转换成 s j s_j sj 的概率。
P π P_\pi Pπ 的定义可以在 2.6 节 中找到。
在这里插入图片描述

关于 P π k ( k = 1 , 2 , 3 , ⋯ ) P_\pi^k(k=1,2,3,\cdots) Pπk(k=1,2,3,)

p i j ( k ) = Pr ( S t k = j ∣ S t 0 = i ) p_{ij}^{(k)}=\text{Pr}(S_{t_k}=j|S_{t_0}=i) pij(k)=Pr(Stk=jSt0=i): agent 从 s i s_i si s j s_j sj 恰好经过 k k k 个时间步的概率。

  • t 0 t_0 t0 t k t_k tk 分别表示初始 和 第 k k k 个时间步

[ P π ] i j = p i j ( 1 ) [P_\pi]_{ij}=p_{ij}^{(1)} [Pπ]ij=pij(1) [ P π ] i j [P_\pi]_{ij} [Pπ]ij 表示 agent 从 s i s_i si s j s_j sj 恰好经过一个时间步的概率。

[ P π 2 ] i j = [ P π P π ] i j = ∑ q = 1 n [ P π ] i q [ P π ] q j = p i j ( 2 ) [P_\pi^2]_{ij}=[P_\pi P_\pi]_{ij}=\sum\limits_{q=1}^n[P_\pi]_{iq}[P_\pi]_{qj}=p_{ij}^{(2)} [Pπ2]ij=[PπPπ]ij=q=1n[Pπ]iq[Pπ]qj=pij(2): agent 从 s i s_i si s j s_j sj 恰好经过两个时间步的概率。

类似的, [ P π k ] i j = p i j ( k ) [P_\pi^k]_{ij}=p_{ij}^{(k)} [Pπk]ij=pij(k): agent 从 s i s_i si s j s_j sj 恰好经过 k k k 个时间步的概率。

平稳分布的定义

d 0 ∈ R n d_0 \in {\mathbb R}^n d0Rn 表示初始时间步状态概率分布的向量。
例如,如果总是选择 s s s 作为起始状态,则 d 0 ( s ) = 1 d_0(s) = 1 d0(s)=1, d 0 d_0 d0 的其他条目为 0。
d k ∈ R n d_k\in {\mathbb R}^n dkRn 为表示从 d 0 d_0 d0 开始 k k k 步后得到的概率分布的向量。然后,我们有

d k ( s i ) = ∑ j = 1 n d 0 ( s j ) [ P π k ] j i , i = 1 , 2 , ⋯ d_k(s_i)=\sum\limits_{j=1}^nd_0(s_j)[P_\pi^k]_{ji}, ~~i=1,2,\cdots dk(si)=j=1nd0(sj)[Pπk]ji,  i=1,2,

这个方程表明,智能体在第 k k k 个时间步访问 s i s_i si 的概率等于智能体恰好 在 第 k k k 个时间步从 { s j } j = 1 n \{s_j\}_{j=1}^n {sj}j=1n 过渡到 s i s_i si 的概率之和。上式的矩阵向量形式为:

d k T = d 0 T P π k ( 8.7 ) d_k^T=d_0^TP_\pi^k~~~~~~~~~~~~(8.7) dkT=d0TPπk            (8.7)

考虑马尔可夫过程的长期行为,有 lim ⁡ k → ∞ P π k = 1 n d π T ( 8.8 ) \textcolor{blue}{\lim\limits_{k\to\infty}P_\pi^k={\bf 1}_nd_\pi^T}~~~~~~~~~~~~(8.8)~~ klimPπk=1ndπT            (8.8)   !!!后面证明要用

其中 1 n = [ 1 , ⋯ , 1 ] T ∈ R n {\bf 1}_n =[1,\cdots,1]^T \in {\mathbb R}^n 1n=[1,,1]TRn
1 n d π T {\bf 1}_nd_\pi^T 1ndπT 是一个所有行都等于 d π T d_\pi^T dπT 的常数矩阵。(8.8)成立的条件将在后面讨论。将 (8.8) 代入 (8.7) 得到

lim ⁡ k → ∞ d k T = d 0 T lim ⁡ k → ∞ P π k ⏟ 式  ( 8.7 ) = 代入式  ( 8.8 ) d 0 T 1 n ⏟ 1 d π T = d π T ( 8.9 ) \underbrace{\lim\limits_{k\to\infty}d_k^T=d_0^T\lim\limits_{k\to \infty}P_\pi^k}_{式~(8.7)}\xlongequal{代入 式 ~(8.8)} \underbrace{d_0^T{\bf 1}_n}_{1}d_\pi^T=d_\pi^T~~~~~~~~~~~~(8.9)  (8.7) klimdkT=d0TklimPπk代入式 (8.8) 1 d0T1ndπT=dπT            (8.9)

式 (8.9) 表示状态分布 d k d_k dk 收敛于恒定值 d π d_\pi dπ,称为极限分布
极限分布取决于 系统模型 和 策略 π \pi π

  • 与初始分布 d 0 d_0 d0 无关。也就是说,无论 agent 从哪个状态开始,在足够长的一段时间后,智能体的概率分布总是可以用极限分布来描述。

d π T = d π T P π ( 8.10 ) \textcolor{blue}{d_\pi^T=d_\pi^TP_\pi}~~~~~~~~~~~~(8.10) dπT=dπTPπ            (8.10) !!!后面证明要用

因此, d π d_\pi dπ 是与特征值 1 相关联的 P π P_\pi Pπ 的左特征向量。
式 (8.10) 的解称为平稳分布
它认为对于所有 s ∈ S , ∑ s ∈ S d π ( s ) = 1 s \in {\cal S}, \sum_{s\in {\cal S}} d_\pi(s) = 1 sSsSdπ(s)=1 d π ( s ) > 0 d_\pi(s) > 0 dπ(s)>0。【!!!没有等于 0】

如果存在一个有限的整数 k k k,使得 [ P π ] i j k > 0 [P_\pi]_{ij}^k> 0 [Pπ]ijk>0,则从状态 s i s_i si 到 状态 s j s_j sj 是可达的,这意味着从 s i s_i si 开始的智能体经过有限次转移后可能到达 s j s_j sj

如果两个状态 s i s_i si s j s_j sj 是可相互访问的,那么这两个状态就被称为通信。communicate

如果马尔可夫过程的所有状态相互通信,则称其为 不可约irreducible。
换句话说,从任意状态出发的代理可以在有限的步数内到达任何其他状态。
数学上,它表明,对于任意 s i s_i si s j s_j sj,存在 k ≥ 1 k\geq 1 k1 使得 [ P π k ] i j > 0 ( k [P_\pi^k]_{ij} > 0 (k [Pπk]ij>0(k 的值可以随 i , j i, j i,j 的不同而变化)。

如果一个马尔可夫过程对所有 i , j > 0 i,j > 0 i,j>0, 存在 k ≥ 1 k\geq1 k1 使得 [ P π k ] i j [P_\pi^k]_{ij} [Pπk]ij,则称为正则regular。
同样地,存在 k > 1 k > 1 k>1 使得 P π k > 0 P_\pi^k > 0 Pπk>0,其中 > 是元素级。
因此,每个状态都可以在最多 k k k 步内从任何其他状态到达。
正则马尔可夫过程也是不可约的,但反之则不成立。
然而,如果一个马尔可夫过程不可约且存在 i i i 使得 [ P π ] i i > 0 [P_\pi]_{ii} > 0 [Pπ]ii>0,那么它也是正则的。
而且,如果 P π k > 0 P_\pi^k > 0 Pπk>0,由于 P π ≥ 0 P_\pi\geq 0 Pπ0,则对任意 k ′ ≥ k k' \geq k kk,有 P π k ′ > 0 P_\pi^{k^\prime} > 0 Pπk>0。由式 8.9 可知,对于每一个 s s s d π ( s ) > 0 d_π(s) > 0 dπ(s)>0

可能导致唯一平稳分布的策略。
一旦策略给定马尔可夫决策过程就成为马尔可夫过程,其长期行为是由给定的策略系统模型共同决定的。
那么,一个重要的问题是什么样的策略可以导致规则的马尔可夫过程?
一般来说,答案是探索性策略,如 ϵ \epsilon ϵ-贪婪策略。
这是因为探索性策略在任何状态下采取任何行动的概率都是正的
因此,当系统模型允许时,状态可以相互通信。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/54912.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

idea2021git从dev分支合并到主分支master

1、新建分支 新建一个名称为dev的分支,切换到该分支下面,输入新内容 提交代码到dev分支的仓库 2、切换分支 切换到主分支,因为刚刚提交的分支在dev环境,所以master是没有 3、合并分支 点击push,将dev里面的代码合并到…

图片尺寸不合适?这3款免费好用的AI绘图神器帮你免费无缝拓展!一键扩展画面之外的内容,真的泰裤啦!

大家好,我是灵魂画师向阳 在处理图片素材时,大家有没有遇到过尺寸不合适但又不能裁切的情况?是不是也想过图像要是能自己“长”出一块就好了?这种要求在以前或许很难实现,但生产式 AI 技术出现后它就不再是问题了&…

基于GIKT深度知识追踪模型的习题推荐系统源代码+数据库+使用说明,后端采用flask,前端采用vue

基于GIKT深度知识追踪模型的习题推荐系统 目录结构 Flask-BackEnd flask后端 app 后端主体文件 alg 深度学习模块 data 数据集data_process.py 数据预处理gikt.py GIKT模型pebg.py PEBG模型params.py 一些参数train.py 仅模型训练train_test.py 模型训练和测试-五折交叉验证t…

WebGIS开发四大开源框架对比

本篇文章主要介绍GIS开发四大地图框架的差异和特点。 Cesium: Cesium是目前主流的一款三维地图框架,支持桌面端、web端、移动端等多平台。Mapbox:高清经纬度矢量瓦片,个性化前端表达,前端矢量绘制,支持海量地名地址。…

数据库实验2—1

10-1 查询重量在[40,65]之间的产品信息 本题目要求编写SQL语句&#xff0c; 检索出product表中所有符合40 < Weight < 65的记录。 提示&#xff1a;请使用SELECT语句作答。 表结构: CREATE TABLE product (Pid varchar(20), --商品编号PName varchar(50), --商品名称…

仓颉编程入门2,启动HTTP服务

上一篇配置了仓颉sdk编译和运行环境&#xff0c;读取一个配置文件&#xff0c;并把配置文件简单解析了一下。 前面读取配置文件&#xff0c;使用File.readFrom()&#xff0c;这个直接把文件全部读取出来&#xff0c;返回一个字节数组。然后又创建一个字节流&#xff0c;给文件…

C语言实现常见的数据结构

栈 栈是一种后进先出&#xff08;LIFO, Last In First Out&#xff09;的数据结构 #include <stdio.h> #include <stdlib.h>#define MAX 100typedef struct {int data[MAX];int top; } Stack;// 初始化栈 void init(Stack *s) {s->top -1; }// 判断栈是否为空…

VBA技术资料MF204:右键多按钮弹出菜单中使用图标

我给VBA的定义&#xff1a;VBA是个人小型自动化处理的有效工具。利用好了&#xff0c;可以大大提高自己的工作效率&#xff0c;而且可以提高数据的准确度。“VBA语言専攻”提供的教程一共九套&#xff0c;分为初级、中级、高级三大部分&#xff0c;教程是对VBA的系统讲解&#…

【python】【绘制小程序】动态爱心绘制

背景介绍 参考链接&#xff1a;https://blog.csdn.net/Python_HUHU/article/details/139703289点的背景颜色在开始修改&#xff1b;文字的颜色在最后修改。文字内容可以修改。 python 代码 import tkinter as tk import random from math import sin, cos, pi, log from PIL…

Cocos 3.8.3 实现外描边效果(逃课玩法)

本来想着用Cocos 的Shader Graph照搬Unity的思路来加外描边&#xff0c;发现不行&#xff0c;然后我就想弄两个物体不就行了吗&#xff0c;一个是放大的版本&#xff0c;再放大的版本上加一个材质&#xff0c;这个材质面剔除选择前面的面剔除就行了&#xff0c;果不其然还真行。…

如何使用ssm实现基于java web的防疫工作志愿者服务平台的设计与实现

TOC ssm693基于java web的防疫工作志愿者服务平台的设计与实现jsp 绪论 1.1 研究背景 当前社会各行业领域竞争压力非常大&#xff0c;随着当前时代的信息化&#xff0c;科学化发展&#xff0c;让社会各行业领域都争相使用新的信息技术&#xff0c;对行业内的各种相关数据进…

详细解读,F5服务器负载均衡的技术优势

在现代大规模、高流量的网络使用场景中&#xff0c;为应对高并发和海量数据的挑战&#xff0c;服务器负载均衡技术应运而生。但凡知道服务器负载均衡这一名词的&#xff0c;基本都对F5有所耳闻&#xff0c;因为负载均衡正是F5的代表作&#xff0c;换句通俗易懂的话来说&#xf…

makefile和CMakeLists/C++包管理器

make 大家可能会很奇怪&#xff0c;都什么年代了&#xff0c;还学makefile&#xff0c;cmake都有些过时了&#xff0c;为什么还要再学这个呢&#xff1f; 我是这么看待这个问题的&#xff0c;cmake跨平台性还是很有有优势的&#xff0c;有着多年积累的底蕴&#xff0c;借助大模…

基于springboot的驾校预约管理系统的设计与实现 (含源码+sql+视频导入教程)

&#x1f449;文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1 、功能描述 基于springboot的驾校预约管理系统5拥有三种角色&#xff1a;管理员、教练、学员 管理员&#xff1a;学员管理、教练管理、车辆管理、车辆关联、维修管理等 教练&#xff1a;学员查看/毕…

再次重温 Spring 中 Bean 的生命周期

Bean的生命周期 Spring中的bean的生命周期主要包含四个阶段&#xff1a;实例化Bean --&#xff1e; Bean属性填充 --&#xff1e; 初始化Bean --&#xff1e;销毁Bean 首先是实例化Bean&#xff0c;当客户向容器请求一个尚未初始化的bean时&#xff0c;或初始化bean的时候需要…

hive-拉链表

目录 拉链表概述缓慢变化维拉链表定义 拉链表的实现常规拉链表历史数据每日新增数据历史数据与新增数据的合并 分区拉链表 拉链表概述 缓慢变化维 通常我们用一张维度表来维护维度信息&#xff0c;比如用户手机号码信息。然而随着时间的变化&#xff0c;某些用户信息会发生改…

SpringSecurity-用户认证

1、用户认证 1.1 用户认证核心组件 我们系统中会有许多用户&#xff0c;确认当前是哪个用户正在使用我们系统就是登录认证的最终目的。这里我们就提取出了一个核心概念&#xff1a;当前登录用户/当前认证用户。整个系统安全都是围绕当前登录用户展开的&#xff0c;这个不难理…

大数据新视界 --大数据大厂之HBase 在大数据存储中的应用与表结构设计

&#x1f496;&#x1f496;&#x1f496;亲爱的朋友们&#xff0c;热烈欢迎你们来到 青云交的博客&#xff01;能与你们在此邂逅&#xff0c;我满心欢喜&#xff0c;深感无比荣幸。在这个瞬息万变的时代&#xff0c;我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的…

如何进行Ubuntu磁盘空间深度清理?

近期使用AutoDL算力云&#xff0c;发现系统盘只有30G&#xff0c;数据盘只有50G&#xff0c;跑一个稍微大一点的模型&#xff0c;马上空间就拉爆了&#xff0c;现在做一个磁盘深度清理操作&#xff0c;看看效果。 清理前磁盘占用如下&#xff1a; 在 Ubuntu 系统中进行磁盘深度…

LabVIEW软件出现Bug如何解决

在LabVIEW开发中&#xff0c;程序出现bug是不可避免的。无论是小型项目还是复杂系统&#xff0c;调试与修复bug都是开发过程中的重要环节。下文介绍如何有效解决LabVIEW软件中的bug&#xff0c;包括常见错误类型、调试工具、错误处理机制。 1. 常见Bug类型分析 在LabVIEW中&am…