目录
- 一、马尔可夫过程
- 1.随机过程
- 2.马尔可夫性质
- 3.马尔可夫过程
- 4.马尔可夫过程示例
- 参考文献
一、马尔可夫过程
1.随机过程
随机过程是概率论的“动态”版本。普通概率论研究的是固定不变的随机现象,而随机过程则专注于那些随时间不断变化的情况,比如天气怎样变化或者城市的交通如何流动。在随机过程中,我们把某一时刻发生的事情视为一组可能结果的集合,并且这些结果随时间不断变化。
这个过程的特点是,一个时间点的情况往往会受到前一个时间点情况的影响。例如,如果我们知道现在的天气状况,我们就可以预测接下来天气变化的可能性。随机过程就是这样一种工具,帮助我们理解和预测那些随时间变化的复杂情况。
2.马尔可夫性质
马尔可夫性质是一种特殊的规则,用于描述一些随机过程,例如天气变化或股市波动。这个规则的核心是:在这种过程中,下一步会发生什么,只取决于现在的状态,而和之前发生的事情无关。
举个例子,如果你在玩一个掷骰子的游戏,那么下一次掷出什么数字只取决于你这一次掷的结果,和之前的掷骰子结果没有关系。这就是马尔可夫性质的一个简单应用。
虽 然看起来像是我们不用管历史,但实际上,现在的状态是由过去的状态一步步演变而来的。所以,通过现在的状态,我们其实间接地获得了历史的信息。这就像是只需要看最新的新闻标题,而不必去读整篇文章,你就能知道发生了什么事。
这种性质让分析和预测变得更简单,因为你只需要关注现在,就能有理由推测未来会发生什么。马尔可夫性质在科学和工程中非常有用,因为它帮助我们用简洁的方式处理复杂的信息。
3.马尔可夫过程
马尔可夫过程,又称为马尔可夫链,是一种特殊的随机过程,其核心特性是未来的状态仅由当前的状态决定,而不受之前状态的影响。我们通常用一个包含两个元素的组合 < S , P > <S, P> <S,P> 来描述马尔可夫过程: S S S 是有限的状态集合, P P P 是状态转移矩阵。
状态集合就是该过程可能达到的所有不同状态。状态转移矩阵则是一个表格,记录了从任一状态转移到另一状态的概率。比如,如果一个过程有 n n n 个状态,此时 S = S= S={ s 1 , s 2 , . . . , s n s_{1},s_{2},...,s_{n} s1,s2,...,sn},状态转移矩阵 P P P 就会是一个 n × n n×n n×n 的表格,表中的每个数字表示从一行的状态转到一列状态的概率,即:
P = [ P ( s 1 ∣ s 1 ) ⋯ P ( s n ∣ s 1 ) ⋮ ⋱ ⋮ P ( s 1 ∣ s n ) ⋯ P ( s n ∣ s n ) ] P=\begin{bmatrix} P(s_{1}|s_{1}) & \cdots & P(s_{n}|s_{1}) \\ \vdots & \ddots & \vdots \\ P(s_{1}|s_{n}) & \cdots & P(s_{n}|s_{n}) \end{bmatrix} P= P(s1∣s1)⋮P(s1∣sn)⋯⋱⋯P(sn∣s1)⋮P(sn∣sn)
矩阵 P P P 中第 i i i 行第 j j j 列元素 P ( s j ∣ s i ) = P ( S t + 1 = s j ∣ S t = s i ) P(s_{j}|s_{i}) =P(S_{t+1}=s_{j}|S_{t}=s_{i}) P(sj∣si)=P(St+1=sj∣St=si),表示从状态 s i s_{i} si 转移到状态 s j s_{j} sj 的概率。从某个状态出发,到达其他状态的概率和必须为 1,即状态转移矩阵的每一行的和为 1。
简单来说,马尔可夫过程就像是一个决策地图,指导你如何根据当前位置预测下一步的位置。每一步的决策只依赖于你现在所在的“地点”,而与你之前的路径无关。这种性质使得马尔可夫过程在预测和决策制定中非常有用,尤其是在那些变化快速且需要即时反应的场景中。
4.马尔可夫过程示例
图1展示了一个包含6个状态的简单马尔可夫过程。图中的每个绿色圆圈代表一个状态,每个状态都可以按照一定的概率(包括零概率)转移到其他状态。特别的,状态 s 6 s_{6} s6 通常被称为终止状态,因为它不再转移到其他状态,而是永远以1.0的概率转移到自己。
状态之间的转移通过虚线箭头表示,箭头旁边的数字显示了转移发生的概率。对于每个状态,从它出发到其他状态的转移概率之和必须等于1。例如,状态 s 1 s_{1} s1 有90%的概率保持在当前状态,10%的概率转移到另一个特定状态 s 2 s_{2} s2。状态 s 2 s_{2} s2有50%的概率返回先前的状态 s 1 s_{1} s1,有50%的概率前往另一个新状态 s 3 s_{3} s3。
这个马尔可夫过程的状态转移矩阵:
P = [ 0.9 0.1 0 0 0 0 0.5 0 0.5 0 0 0 0 0 0 0.6 0 0.4 0 0 0 0 0.3 0.7 0 0.2 0.3 0.5 0 0 0 0 0 0 0 1 ] P=\begin{bmatrix} 0.9 & 0.1 &0 &0 &0 &0 \\ 0.5 & 0 & 0.5 & 0 & 0 & 0\\ 0 & 0 & 0 & 0.6 & 0 & 0.4\\ 0 & 0 & 0 & 0 & 0.3 & 0.7\\ 0 & 0.2 & 0.3 & 0.5 & 0 & 0\\ 0 & 0 & 0 & 0 & 0 & 1 \end{bmatrix} P= 0.90.500000.10000.2000.5000.30000.600.500000.300000.40.701
给定一个马尔可夫过程后,我们可以从某个特定的初始状态出发,按照状态转移矩阵中规定的概率,逐步生成一个状态序列。这个过程被称为采样。通过采样,我们能够模拟出从一个初始状态开始,状态如何随机地转移和变化,形成一系列连续事件,这有助于我们理解和预测该马尔可夫过程的行为特征。例如,从 s 1 s_{1} s1 出发,可以生成序列 s 1 → s 2 → s 3 → s 6 s_{1} \to s_{2} \to s_{3} \to s_{6} s1→s2→s3→s6 或序列 s 1 → s 1 → s 2 → s 3 → s 4 → s 5 → s 3 → s 6 s_{1} \to s_{1} \to s_{2} \to s_{3} \to s_{4} \to s_{5} \to s_{3} \to s_{6} s1→s1→s2→s3→s4→s5→s3→s6
参考文献
[1] 动手学强化学习
[2] 强化学习(Reinforcement Learning)