策略梯度方法

数学背景

给定一个标量函数 $J\left(\theta\right)$ ，利用梯度上升法，使其最大化，此时的 $\pi_\theta$ 就是最优策略。
$\theta_{t+1}=\theta_t+\alpha \nabla_\theta J(\theta_t)$

标量函数 $J(\theta)$

就是上面提到的最优指标 $J$ ，一般有以下几种定义：

平均状态价值
$\bar v_\pi =\sum_{s\in\mathcal{S}}d_\pi(s)v_\pi(s) =\mathbb{E}\left[ v_\pi(S) \right]$
如果 $d$ 与 $\pi$ 无关，那么记 $d_\pi=d_0$ ，就Grid World问题，由于状态价值 $v$ 是回报的期望，考虑两种具体情况：
- 起始在随机位置，均匀考虑每个状态价值： $d_0=1/|\mathcal{S}|$
- 起始在固定位置，只考虑 $s_0$ 状态价值即可： $d_0(s_0)=1,\ d_0(s\neq s_0)$
如果 $d$ 与 $\pi$ 有关，求解 $d_\pi^TP_\pi=d_\pi^T$ 得到 $d_\pi$ ，其中 $P_\pi$ 是在策略 $\pi$ 下的状态转移矩阵。此时，如果一个状态经常出现，对应的 $d (s)$ 就会变大。
平均瞬时奖励
$\bar r_\pi=\sum_{s\in \mathcal{S}}d_\pi(s)r_\pi(s)=\mathbb{E}\left[r_\pi(S)\right]$

其中 $r_\pi(s)$ 是agent在某状态按策略 $\pi$ 在动作空间中采取动作的瞬时奖励
$r_\pi(s)=\sum_{a\in \mathcal{A}}\pi(s\mid a)r(s,a)$

此定义与episode reward等价，即当episode长度无限大时， $s$ 按 $d_\pi$ 分布，即
$\lim_{n\to\infty}\frac{1}{n}\mathbb{E}[\sum_{k=1}^{n}R_{t+k}] \iff \bar r_\pi$

$J(\theta)$ 的梯度

上面两类指标函数的梯度都可以写成：
$\begin{aligned} \nabla_\theta J(\theta) &=\sum_{s\in \mathcal{S}}\eta(s)\sum_{a\in \mathcal{A}} \nabla_\theta \pi(a|s,\theta)q_\pi(s,a)\\ &=\sum_{s\in \mathcal{S}}\eta(s)\sum_{a\in \mathcal{A}} \pi(a|s,\theta)\nabla_\theta \log\pi(a|s,\theta)q_\pi(s,a)\\ &=\mathbb{E}[\nabla_\theta \log\pi(A|S,\theta)q_\pi(S,A)] \end{aligned}$
其中， $S\sim \eta$ ， $A\sim \pi(a|s,\theta)$