【深度强化学习 DRL 快速实践】策略梯度算法 (PG)

在这里插入图片描述

PG（1984，Sutton）核心改进点

策略梯度算法 (PG): 直接对策略函数进行建模，可以适用于连续的动作空间

model-free, on-policy, PG, stochastic 策略

核心改进点	说明
策略梯度优化	通过Actor网络直接优化策略，适应连续动作问题: $\theta_{new} = \theta_{old} + \alpha \nabla_\theta J(\theta)$

PG 网络更新 – 基于蒙特卡洛估计的 `REINFORCE`

$\nabla_\theta J(\theta) \approx \sum_{t=0}^{T-1} \nabla_\theta \log \pi_\theta(a_t | s_t) G_t，\text{where } G_t = \sum_{t'=t}^{T} \gamma^{t' - t} r_{t'}$

详细网络更新公式推导

策略更新目标：使得 $\theta$ 策略下得到的所有轨迹 $\tau$ 的回报期望 $\bar{R}_\theta$ 最大化: 可以用 N 条轨迹的均值近似

$\tau = \{s_1, a_1, r_1, s_2, a_2, r_2, \dots, s_\tau, a_\tau, r_\tau\}$
$\bar{R}_\theta =\textcolor{red}{\sum_\tau} R(\tau) \textcolor{red}{P(\tau | \theta)} \approx \textcolor{blue}{\frac{1}{N} \sum_n^N}R(\tau^n)$

计算梯度 (近似)

$\nabla \bar{R}_\theta = \sum_{\tau} R(\tau) \nabla P(\tau | \theta) = \sum_\tau R(\tau) P(\tau | \theta) \frac{\nabla P(\tau | \theta)}{P(\tau | \theta)}=\textcolor{red}{\sum_\tau} R(\tau) \textcolor{red}{P(\tau | \theta)} \nabla_\theta \log P(\tau | \theta)\\ \approx \textcolor{blue}{\frac{1}{N} \sum_{n=1}^N} R(\tau^n) \nabla_\theta \log P(\tau^n | \theta)$

注：转为 log 时利用了公式 $\frac{d \log(f(x))}{dx} = \frac{1}{f(x)} \cdot \frac{d f(x)}{dx}$

其中， $\nabla_\theta\log P(\tau^n | \theta)$ 可以做进一步表示

$P(\tau|\theta) = p(s_1) \prod_{t=1}^{T} p(a_t|s_t, \theta) p(r_t, s_{t+1}|s_t, a_t) \\ \log P(\tau|\theta) = \log p(s_1) + \sum_{t=1}^{T} \log p(a_t|s_t, \theta) + \log p(r_t, s_{t+1}|s_t, a_t)\\ \nabla_\theta\log P(\tau | \theta) = \sum_{t=1}^{T} \nabla_\theta \log p(a_t | s_t, \theta)$

所以梯度 (近似)的表示更新为

$\nabla \bar{R}_\theta \approx {\frac{1}{N} \sum_{n=1}^N} \sum_{t=1}^{T^n} R(\tau^n) \nabla_\theta \log p(a_t^n | s_t^n, \theta)$

注：梯度用的是总的回报 $R(\tau^n)$ 而不是 $a_t^n$ 对应的即时奖励，也就是说，总的回报会增强/减弱轨迹上所有有利/有害的动作输出；进一步，由于对于第 t 个step，所选择的动作只会影响未来的 $U^n_t = \sum_t^{T^n} r^n_t$ 所以 $R(\tau^n)$ 可以被优化为 $U^n_t$ ，对应本文一开始所给出的梯度公式