强化学习——马尔可夫过程的理解

在这里插入图片描述

目录

  • 一、马尔可夫过程
    • 1.随机过程
    • 2.马尔可夫性质
    • 3.马尔可夫过程
    • 4.马尔可夫过程示例
  • 参考文献

一、马尔可夫过程

1.随机过程

  随机过程是概率论的“动态”版本。普通概率论研究的是固定不变的随机现象,而随机过程则专注于那些随时间不断变化的情况,比如天气怎样变化或者城市的交通如何流动。在随机过程中,我们把某一时刻发生的事情视为一组可能结果的集合,并且这些结果随时间不断变化。

  这个过程的特点是,一个时间点的情况往往会受到前一个时间点情况的影响。例如,如果我们知道现在的天气状况,我们就可以预测接下来天气变化的可能性。随机过程就是这样一种工具,帮助我们理解和预测那些随时间变化的复杂情况。

2.马尔可夫性质

  马尔可夫性质是一种特殊的规则,用于描述一些随机过程,例如天气变化或股市波动。这个规则的核心是:在这种过程中,下一步会发生什么,只取决于现在的状态,而和之前发生的事情无关。

  举个例子,如果你在玩一个掷骰子的游戏,那么下一次掷出什么数字只取决于你这一次掷的结果,和之前的掷骰子结果没有关系。这就是马尔可夫性质的一个简单应用。

虽  然看起来像是我们不用管历史,但实际上,现在的状态是由过去的状态一步步演变而来的。所以,通过现在的状态,我们其实间接地获得了历史的信息。这就像是只需要看最新的新闻标题,而不必去读整篇文章,你就能知道发生了什么事。

  这种性质让分析和预测变得更简单,因为你只需要关注现在,就能有理由推测未来会发生什么。马尔可夫性质在科学和工程中非常有用,因为它帮助我们用简洁的方式处理复杂的信息。

3.马尔可夫过程

  马尔可夫过程,又称为马尔可夫链,是一种特殊的随机过程,其核心特性是未来的状态仅由当前的状态决定,而不受之前状态的影响。我们通常用一个包含两个元素的组合 < S , P > <S, P> <S,P> 来描述马尔可夫过程: S S S 是有限的状态集合, P P P 是状态转移矩阵。

  状态集合就是该过程可能达到的所有不同状态。状态转移矩阵则是一个表格,记录了从任一状态转移到另一状态的概率。比如,如果一个过程有 n n n 个状态,此时 S = S= S={ s 1 , s 2 , . . . , s n s_{1},s_{2},...,s_{n} s1,s2,...,sn},状态转移矩阵 P P P 就会是一个 n × n n×n n×n 的表格,表中的每个数字表示从一行的状态转到一列状态的概率,即:

P = [ P ( s 1 ∣ s 1 ) ⋯ P ( s n ∣ s 1 ) ⋮ ⋱ ⋮ P ( s 1 ∣ s n ) ⋯ P ( s n ∣ s n ) ] P=\begin{bmatrix} P(s_{1}|s_{1}) & \cdots & P(s_{n}|s_{1}) \\ \vdots & \ddots & \vdots \\ P(s_{1}|s_{n}) & \cdots & P(s_{n}|s_{n}) \end{bmatrix} P= P(s1s1)P(s1sn)P(sns1)P(snsn)

  矩阵 P P P 中第 i i i 行第 j j j 列元素 P ( s j ∣ s i ) = P ( S t + 1 = s j ∣ S t = s i ) P(s_{j}|s_{i}) =P(S_{t+1}=s_{j}|S_{t}=s_{i}) P(sjsi)=P(St+1=sjSt=si),表示从状态 s i s_{i} si 转移到状态 s j s_{j} sj 的概率。从某个状态出发,到达其他状态的概率和必须为 1,即状态转移矩阵的每一行的和为 1。

  简单来说,马尔可夫过程就像是一个决策地图,指导你如何根据当前位置预测下一步的位置。每一步的决策只依赖于你现在所在的“地点”,而与你之前的路径无关。这种性质使得马尔可夫过程在预测和决策制定中非常有用,尤其是在那些变化快速且需要即时反应的场景中。

4.马尔可夫过程示例

在这里插入图片描述

图1 马尔可夫过程示例

  图1展示了一个包含6个状态的简单马尔可夫过程。图中的每个绿色圆圈代表一个状态,每个状态都可以按照一定的概率(包括零概率)转移到其他状态。特别的,状态 s 6 s_{6} s6 通常被称为终止状态,因为它不再转移到其他状态,而是永远以1.0的概率转移到自己。

  状态之间的转移通过虚线箭头表示,箭头旁边的数字显示了转移发生的概率。对于每个状态,从它出发到其他状态的转移概率之和必须等于1。例如,状态 s 1 s_{1} s1 有90%的概率保持在当前状态,10%的概率转移到另一个特定状态 s 2 s_{2} s2。状态 s 2 s_{2} s2有50%的概率返回先前的状态 s 1 s_{1} s1,有50%的概率前往另一个新状态 s 3 s_{3} s3

  这个马尔可夫过程的状态转移矩阵:

P = [ 0.9 0.1 0 0 0 0 0.5 0 0.5 0 0 0 0 0 0 0.6 0 0.4 0 0 0 0 0.3 0.7 0 0.2 0.3 0.5 0 0 0 0 0 0 0 1 ] P=\begin{bmatrix} 0.9 & 0.1 &0 &0 &0 &0 \\ 0.5 & 0 & 0.5 & 0 & 0 & 0\\ 0 & 0 & 0 & 0.6 & 0 & 0.4\\ 0 & 0 & 0 & 0 & 0.3 & 0.7\\ 0 & 0.2 & 0.3 & 0.5 & 0 & 0\\ 0 & 0 & 0 & 0 & 0 & 1 \end{bmatrix} P= 0.90.500000.10000.2000.5000.30000.600.500000.300000.40.701

  给定一个马尔可夫过程后,我们可以从某个特定的初始状态出发,按照状态转移矩阵中规定的概率,逐步生成一个状态序列。这个过程被称为采样。通过采样,我们能够模拟出从一个初始状态开始,状态如何随机地转移和变化,形成一系列连续事件,这有助于我们理解和预测该马尔可夫过程的行为特征。例如,从 s 1 s_{1} s1 出发,可以生成序列 s 1 → s 2 → s 3 → s 6 s_{1} \to s_{2} \to s_{3} \to s_{6} s1s2s3s6 或序列 s 1 → s 1 → s 2 → s 3 → s 4 → s 5 → s 3 → s 6 s_{1} \to s_{1} \to s_{2} \to s_{3} \to s_{4} \to s_{5} \to s_{3} \to s_{6} s1s1s2s3s4s5s3s6

参考文献

[1] 动手学强化学习

[2] 强化学习(Reinforcement Learning)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/11842.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

R语言两种方法实现随机分层抽样

为了减少数据分布的不平衡&#xff0c;提供高样本的代表性&#xff0c;可将数据按特征分层一定的层次&#xff0c;在每个层次抽取一定量的样本&#xff0c;为分层抽样。分层抽样的特点是将科学分组法与抽样法结合在一起&#xff0c;分组减小了各抽样层变异性的影响&#xff0c;…

C语言指针详解(三)

目录 前言 一. 回调函数是什么&#xff1f; 1.定义 2. 代码示例&#xff1a;计数器 2.1 使用回调函数改造前 2.2 使用回调函数改造后 二. qsort使用举例 1. qsort介绍 2. 使用qsort函数排序整型数据 3. 使用qsort排序结构体数据 三. qsort函数的模拟实现 四. sizeo…

代码随想录:螺旋矩阵II相关题目推荐(54、LCR146)

59.螺旋矩阵II 题目 给你一个正整数 n &#xff0c;生成一个包含 1 到 n2 所有元素&#xff0c;且元素按顺时针顺序螺旋排列的 n x n 正方形矩阵 matrix 。 示例 1&#xff1a; 输入&#xff1a;n 3 输出&#xff1a;[[1,2,3],[8,9,4],[7,6,5]] 代码&#xff08;新解法&am…

MyBatis——MyBatis 参数处理

一、单个简单类型参数 简单类型包括&#xff1a; byte short int long float double char Byte Short Integer Long Float Double Character String java.util.Date java.sql.Date parameterType 属性&#xff1a;告诉 MyBatis 参数的类型 MyBatis 自带类型自动推断机制…

LLM应用-prompt提示:生成搜索相关问题、生成回答格式包含参考资料

参考: https://isou.chat/ (AI回答与相关问题都是根据问题的搜索引擎结果结合大模型生成的) prompt参考: https://github.com/yokingma/search_with_ai/blob/6d32aa8f05f5f6ee12b5204787035b3f7797c22a/src/prompt.ts#L8 ##rag 根据搜索结果知识回答RagQueryPrompt = ` …

程控水冷阻性负载主要工作方式

程控水冷阻性负载是一种先进的电力设备&#xff0c;主要用于电力系统的测试和研究。它的主要工作方式是通过控制水冷系统的温度&#xff0c;来模拟不同的阻性负载条件&#xff0c;从而对电力设备进行各种性能测试。 首先&#xff0c;我们需要了解什么是阻性负载。阻性负载是指那…

代码随想录算法训练营Day 42| 动态规划part04 | 01背包问题理论基础I、01背包问题理论基础II、416. 分割等和子集

代码随想录算法训练营Day 42| 动态规划part04 | 01背包问题理论基础I、01背包问题理论基础II、416. 分割等和子集 文章目录 代码随想录算法训练营Day 42| 动态规划part04 | 01背包问题理论基础I、01背包问题理论基础II、416. 分割等和子集01背包问题理论基础一、01背包问题二、…

Redis教程——哨兵

在上篇文章我们学习了Redis教程——主从复制&#xff0c;这篇文章我们学习Redis教程——哨兵监控。 在主从复制中如果主机发生宕机&#xff0c;从机Redis会一直等到主机的恢复&#xff0c;这样会导致只能进行读操作&#xff0c;不能进行写操作&#xff0c;这大大降低了系统的高…

资料同化 | 搭建docker环境-1

Community Gridpoint Statistical Interpolation (GSI) system DTC 是一个分布式设施&#xff0c;NWP 社区可以在这里测试和评估用于研究和操作的新模型和技术。 DTC的目标包括&#xff1a; 链接研究和操作社区 研究成果转化为实际操作的速度 加快改善天气预报 开发和测试有…

Cocos Creator 3.8.x 透明带滚动功能的容器

ScrollView 是一种带滚动功能的容器 1、删除ScrollView下Sprite组件的SpriteFrame 2、ScrollView下scrollBar的Sprite组件的Color设为&#xff1a;FFFFFF00 3、ScrollView下view的Graphics组件的FillColor设为&#xff1a;FFFFFF00

IP代理如何帮助SEO进行优化?

IP代理在SEO优化中扮演着重要的角色&#xff0c;它通过多种方式帮助提升网站的搜索排名和可见性。以下是IP代理如何帮助SEO进行优化的详细阐述&#xff1a; 第一点&#xff0c;数据采集与分析&#xff1a;在SEO过程中&#xff0c;大量的数据是必不可少的。通过使用IP代理&…

c++ std::shared_ptr学习

背景 c中智能指针shared_ptr用于自动管理资源&#xff0c;通过引用计数来记录资源被多少出地方使用。在不使用资源时&#xff0c;减少引用计数&#xff0c;如果引用计数为0&#xff0c;表示资源不会再被使用&#xff0c;此时会释放资源。本文记录对c中std::shared_ptr的源码学习…

攻防世界PHP2

1、打开靶机链接http://61.147.171.105:49513/&#xff0c;没有发现任何线索 2、尝试访问http://61.147.171.105:49513/index.php&#xff0c;页面没有发生跳转 3、尝试将访问 尝试访问http://61.147.171.105:49513/index.phps index.php 和 index.phps 文件之间的主要区别在于…

GNU Radio创建时间戳 C++ OOT块

文章目录 前言一、创建自定义的 C OOT 块1、创建 timestamp_sender C OOT 模块①、创建 timestamp_sender OOT 块②、修改 C 代码 2、创建 timestamp_receiver C OOT 模块①、创建 timestamp_receiver OOT 块②、修改 C 代码 3、创建 delayMicroSec C OOT 模块①、创建 delayMi…

Vue3实战笔记(20)—封装头部导航组件

文章目录 前言一、封装头部导航栏二、使用步骤总结 前言 Vue 3 封装头部导航栏有助于提高代码复用性、统一风格、降低维护成本、提高可配置性和模块化程度&#xff0c;同时还可以实现动态渲染等功能&#xff0c;有利于项目开发和维护。 一、封装头部导航栏 封装头部导航栏&am…

HFSS学习-day4-建模操作

通过昨天的学习&#xff0c;我们已经熟悉了HFSS的工作环境&#xff1b;今天我们来讲解HFSS中创建物体模型的县体步骤和相关操作。物体建模是HFSS仿真设计工作的第一步&#xff0c;HFSS中提供了诸如矩形、圆面、长方体圆柱体和球体等多种基本模型(Primitive)&#xff0c;这些基本…

新书速览|MATLAB科技绘图与数据分析

提升你的数据洞察力&#xff0c;用于精确绘图和分析的高级MATLAB技术。 本书内容 《MATLAB科技绘图与数据分析》结合作者多年的数据分析与科研绘图经验&#xff0c;详细讲解MATLAB在科技图表制作与数据分析中的使用方法与技巧。全书分为3部分&#xff0c;共12章&#xff0c;第1…

精英都是时间控!职场精英的完美一天~~~谷歌FB都在用的时间管理术!

如何超高效使用24小时 每个人的一天都只有24小时&#xff0c;使用时间的方法将决定整个人生。时间管理术并不提倡把自己忙死榨干&#xff0c;而是通过在合适的时间做合适的事情&#xff0c;把大脑机能发挥到极致&#xff0c;从而提高效率&#xff0c;节省下更多时间用于生活与…

(项目)-KDE巡检报告(模板

金山云于12月26日对建行共计【30】个KDE集群,合计【198】台服务器进行了巡检服务。共发现系统风险【135】条,服务风险【1912】条,服务配置风险【368】条。 一、系统风险 1、风险分析(图片+描述) (1)磁盘使用率高 问题描述多个集群的多台服务器磁盘使用率较高,远超过…

答辩PPT模版如何选择?aippt快速生成

这些网站我愿称之为制作答辩PPT的神&#xff01; 很多快要毕业的同学在做答辩PPT的时候总是感觉毫无思路&#xff0c;一窍不通。但这并不是你们的错&#xff0c;对于平时没接触过相关方面&#xff0c;第一次搞答辩PPT的人来说&#xff0c;这是很正常的一件事。一个好的答辩PPT…