Box 8.1: 马尔可夫决策过程的平稳分布
整理自 链接
分析平稳分布的关键工具是 P π ∈ R n × n P_\pi \in {\mathbb R}^{n\times n} Pπ∈Rn×n,它是给定策略 π π π 下的概率转移矩阵。
如果状态被索引为 s 1 , ⋯ , s n s_1,\cdots, s_n s1,⋯,sn,则定义 [ P π ] i j [P_\pi]_{ij} [Pπ]ij 为 agent 从 s i s_i si 转换成 s j s_j sj 的概率。
P π P_\pi Pπ 的定义可以在 2.6 节 中找到。
关于 P π k ( k = 1 , 2 , 3 , ⋯ ) P_\pi^k(k=1,2,3,\cdots) Pπk(k=1,2,3,⋯)
p i j ( k ) = Pr ( S t k = j ∣ S t 0 = i ) p_{ij}^{(k)}=\text{Pr}(S_{t_k}=j|S_{t_0}=i) pij(k)=Pr(Stk=j∣St0=i): agent 从 s i s_i si 到 s j s_j sj 恰好经过 k k k 个时间步的概率。
- t 0 t_0 t0 和 t k t_k tk 分别表示初始 和 第 k k k 个时间步
[ P π ] i j = p i j ( 1 ) [P_\pi]_{ij}=p_{ij}^{(1)} [Pπ]ij=pij(1): [ P π ] i j [P_\pi]_{ij} [Pπ]ij 表示 agent 从 s i s_i si 到 s j s_j sj 恰好经过一个时间步的概率。
[ P π 2 ] i j = [ P π P π ] i j = ∑ q = 1 n [ P π ] i q [ P π ] q j = p i j ( 2 ) [P_\pi^2]_{ij}=[P_\pi P_\pi]_{ij}=\sum\limits_{q=1}^n[P_\pi]_{iq}[P_\pi]_{qj}=p_{ij}^{(2)} [Pπ2]ij=[PπPπ]ij=q=1∑n[Pπ]iq[Pπ]qj=pij(2): agent 从 s i s_i si 到 s j s_j sj 恰好经过两个时间步的概率。
类似的, [ P π k ] i j = p i j ( k ) [P_\pi^k]_{ij}=p_{ij}^{(k)} [Pπk]ij=pij(k): agent 从 s i s_i si 到 s j s_j sj 恰好经过 k k k 个时间步的概率。
平稳分布的定义
设 d 0 ∈ R n d_0 \in {\mathbb R}^n d0∈Rn 表示初始时间步状态概率分布的向量。
例如,如果总是选择 s s s 作为起始状态,则 d 0 ( s ) = 1 d_0(s) = 1 d0(s)=1, d 0 d_0 d0 的其他条目为 0。
设 d k ∈ R n d_k\in {\mathbb R}^n dk∈Rn 为表示从 d 0 d_0 d0 开始 k k k 步后得到的概率分布的向量。然后,我们有
d k ( s i ) = ∑ j = 1 n d 0 ( s j ) [ P π k ] j i , i = 1 , 2 , ⋯ d_k(s_i)=\sum\limits_{j=1}^nd_0(s_j)[P_\pi^k]_{ji}, ~~i=1,2,\cdots dk(si)=j=1∑nd0(sj)[Pπk]ji, i=1,2,⋯
这个方程表明,智能体在第 k k k 个时间步访问 s i s_i si 的概率等于智能体恰好 在 第 k k k 个时间步从 { s j } j = 1 n \{s_j\}_{j=1}^n {sj}j=1n 过渡到 s i s_i si 的概率之和。上式的矩阵向量形式为:
d k T = d 0 T P π k ( 8.7 ) d_k^T=d_0^TP_\pi^k~~~~~~~~~~~~(8.7) dkT=d0TPπk (8.7)
考虑马尔可夫过程的长期行为,有 lim k → ∞ P π k = 1 n d π T ( 8.8 ) \textcolor{blue}{\lim\limits_{k\to\infty}P_\pi^k={\bf 1}_nd_\pi^T}~~~~~~~~~~~~(8.8)~~ k→∞limPπk=1ndπT (8.8) !!!后面证明要用
其中 1 n = [ 1 , ⋯ , 1 ] T ∈ R n {\bf 1}_n =[1,\cdots,1]^T \in {\mathbb R}^n 1n=[1,⋯,1]T∈Rn
1 n d π T {\bf 1}_nd_\pi^T 1ndπT 是一个所有行都等于 d π T d_\pi^T dπT 的常数矩阵。(8.8)成立的条件将在后面讨论。将 (8.8) 代入 (8.7) 得到
lim k → ∞ d k T = d 0 T lim k → ∞ P π k ⏟ 式 ( 8.7 ) = 代入式 ( 8.8 ) d 0 T 1 n ⏟ 1 d π T = d π T ( 8.9 ) \underbrace{\lim\limits_{k\to\infty}d_k^T=d_0^T\lim\limits_{k\to \infty}P_\pi^k}_{式~(8.7)}\xlongequal{代入 式 ~(8.8)} \underbrace{d_0^T{\bf 1}_n}_{1}d_\pi^T=d_\pi^T~~~~~~~~~~~~(8.9) 式 (8.7) k→∞limdkT=d0Tk→∞limPπk代入式 (8.8)1 d0T1ndπT=dπT (8.9)
式 (8.9) 表示状态分布 d k d_k dk 收敛于恒定值 d π d_\pi dπ,称为极限分布。
极限分布取决于 系统模型 和 策略 π \pi π。
- 它与初始分布 d 0 d_0 d0 无关。也就是说,无论 agent 从哪个状态开始,在足够长的一段时间后,智能体的概率分布总是可以用极限分布来描述。
d π T = d π T P π ( 8.10 ) \textcolor{blue}{d_\pi^T=d_\pi^TP_\pi}~~~~~~~~~~~~(8.10) dπT=dπTPπ (8.10) !!!后面证明要用
因此, d π d_\pi dπ 是与特征值 1 相关联的 P π P_\pi Pπ 的左特征向量。
式 (8.10) 的解称为平稳分布。
它认为对于所有 s ∈ S , ∑ s ∈ S d π ( s ) = 1 s \in {\cal S}, \sum_{s\in {\cal S}} d_\pi(s) = 1 s∈S,∑s∈Sdπ(s)=1 且 d π ( s ) > 0 d_\pi(s) > 0 dπ(s)>0。【!!!没有等于 0】
如果存在一个有限的整数 k k k,使得 [ P π ] i j k > 0 [P_\pi]_{ij}^k> 0 [Pπ]ijk>0,则从状态 s i s_i si 到 状态 s j s_j sj 是可达的,这意味着从 s i s_i si 开始的智能体经过有限次转移后可能到达 s j s_j sj。
如果两个状态 s i s_i si 和 s j s_j sj 是可相互访问的,那么这两个状态就被称为通信。communicate
如果马尔可夫过程的所有状态相互通信,则称其为 不可约irreducible。
换句话说,从任意状态出发的代理可以在有限的步数内到达任何其他状态。
数学上,它表明,对于任意 s i s_i si 和 s j s_j sj,存在 k ≥ 1 k\geq 1 k≥1 使得 [ P π k ] i j > 0 ( k [P_\pi^k]_{ij} > 0 (k [Pπk]ij>0(k 的值可以随 i , j i, j i,j 的不同而变化)。
如果一个马尔可夫过程对所有 i , j > 0 i,j > 0 i,j>0, 存在 k ≥ 1 k\geq1 k≥1 使得 [ P π k ] i j [P_\pi^k]_{ij} [Pπk]ij,则称为正则regular。
同样地,存在 k > 1 k > 1 k>1 使得 P π k > 0 P_\pi^k > 0 Pπk>0,其中 > 是元素级。
因此,每个状态都可以在最多 k k k 步内从任何其他状态到达。
正则马尔可夫过程也是不可约的,但反之则不成立。
然而,如果一个马尔可夫过程不可约且存在 i i i 使得 [ P π ] i i > 0 [P_\pi]_{ii} > 0 [Pπ]ii>0,那么它也是正则的。
而且,如果 P π k > 0 P_\pi^k > 0 Pπk>0,由于 P π ≥ 0 P_\pi\geq 0 Pπ≥0,则对任意 k ′ ≥ k k' \geq k k′≥k,有 P π k ′ > 0 P_\pi^{k^\prime} > 0 Pπk′>0。由式 8.9 可知,对于每一个 s s s, d π ( s ) > 0 d_π(s) > 0 dπ(s)>0。
可能导致唯一平稳分布的策略。
一旦策略给定,马尔可夫决策过程
就成为马尔可夫过程
,其长期行为是由给定的策略和系统模型共同决定的。
那么,一个重要的问题是什么样的策略可以导致规则的马尔可夫过程?
一般来说,答案是探索性策略,如 ϵ \epsilon ϵ-贪婪策略。
这是因为探索性策略在任何状态下采取任何行动的概率都是正的。
因此,当系统模型允许时,状态可以相互通信。