深度强化学习(二)

#! https://zhuanlan.zhihu.com/p/686235508

深度强化学习(二)(贝尔曼方程)

一.贝尔曼方程（将 $Q_\pi$ 表示成 $Q_\pi$ ）

Theorem :假设 $R_t$ 是 $S_t 、 A_t 、 S_{t+1}$ 的函数。那么
$Q_\pi\left(s_t, a_t\right)=\mathbb{E}_{S_{t+1}, A_{t+1}}\left[R_t+\gamma \cdot Q_\pi\left(S_{t+1}, A_{t+1}\right) \mid S_t=s_t, A_t=a_t\right] .\tag{1.1}$

proof:令 $\mathcal{S}_{t+1:}=\left\{S_{t+1}, S_{t+2}, \cdots\right\}$ , $\mathcal{A}_{t+1:}=\left\{A_{t+1}, A_{t+2}, \cdots\right\}$ ,由 $U_t$ 的定义知 $U_t=R_t+\gamma \cdot U_{t+1}$

$\begin{aligned} Q_\pi\left(s_t, a_t\right)&=\mathbb{E}_{\mathcal{S}_{t+1:}, \mathcal{A}_{t+1:}}\left[U_t \mid S_t=s_t, A_t=a_t\right]\\ &=\mathbb{E}_{\mathcal{S}_{t+1:}, \mathcal{A}_{t+1:}}\left[R_t+\gamma \cdot U_{t+1} \mid S_t=s_t, A_t=a_t\right]\\ &= \underbrace{\Bbb E_{\cal S_{t+1},\cal A_{t+1}}\left[R_t|S_t=s_t,A_t=a_t \right]}_{(1)}+\gamma\cdot\underbrace{ \mathbb{E}_{\mathcal{S}_{t+1:}, \mathcal{A}_{t+1:}}\left[U_{t+1} \mid S_t=s_t, A_t=a_t\right]}_{(2)}\\ \end{aligned}$
其中, $t$ 时刻的回报 $R_{t}$ 只与 $t + 1$ 时刻的状态 $S_{t+1}$ 有关，而 $S_{t+1}$ 只与 $S_t,A_t$ 有关,则
$\begin{aligned} (1)&=\Bbb E_{\cal S_{t+1},\cal A_{t+1}}\left[R_t|S_t=s_t,A_t=a_t \right]\\ &= \Bbb E_{S_{t+1}}\left [R_t|S_t=s_t,A_t=a_t\right]\\ &= \Bbb E_{S_{t+1},A_{t+1}}\left [R_t|S_t=s_t,A_t=a_t\right] \end{aligned}$
对 $(2)$ 中的式子变形可得
$\begin{aligned} (2)&= \mathbb{E}_{\mathcal{S}_{t+1:}, \mathcal{A}_{t+1:}}\left[U_{t+1} \mid S_t=s_t, A_t=a_t\right]\\ &= \Bbb E_{S_{t+1},A_{t+1},\cal S _{t+2},\cal A _{t+2}}\left[U_{t+1}|S_t=s_t,A_t=a_t \right]\\ &= \Bbb E_{S_{t+1},A_{t+1}}\left[\Bbb E_{\cal S_{t+2},\cal A_{t+2}}\left[U_{t+1}|S_{t+1},A_{t+1},S_t=s_t,A_t=a_t\right]|S_t=s_t,A_t=a_t \right]利用马尔可夫性\\ &=\Bbb E_{S_{t+1},A_{t+1}}\left[\Bbb E_{\cal S_{t+2},\cal A_{t+2}}\left[U_{t+1}|S_{t+1},A_{t+1}\right]|S_t=s_t,A_t=a_t \right] \\ &=\mathbb{E}_{S_{t+1}, A_{t+1}}\left[Q_\pi\left(S_{t+1}, A_{t+1}\right) \mid S_t=s_t, A_t=a_t\right] \end{aligned}$
由此证毕。

二.贝尔曼方程 $\text { (将 } Q_\pi \text { 表示成 } V_\pi \text { ) }$

Theorem :假设 $R_t$ 是 $S_t 、 A_t 、 S_{t+1}$ 的函数。那么
$Q_\pi\left(s_t, a_t\right)=\mathbb{E}_{S_{t+1}}\left[R_t+\gamma \cdot V_\pi\left(S_{t+1}\right) \mid S_t=s_t, A_t=a_t\right]\tag{1.2}$

proof: $\text { 由于 } V_\pi\left(S_{t+1}\right)=\mathbb{E}_{A_{t+1}\sim \pi\left(\cdot \mid S_{t+1}\right)}\left[Q\left(S_{t+1}, A_{t+1}\right)\right]=\Bbb E_{A_{t+1}}\left[ Q_{\pi}(S_{t+1},A_{t+1})|S_{t+1}\right]$
$\begin{aligned} (2)= &\mathbb{E}_{S_{t+1}, A_{t+1}}\left[Q_\pi\left(S_{t+1}, A_{t+1}\right) \mid S_t=s_t, A_t=a_t\right]\\ =&\Bbb E_{S_{t+1}}\left[\Bbb E_{A_{t+1}}\left[ Q_{\pi}(S_{t+1},A_{t+1})|S_{t+1}\right]|S_t=s_t,A_t=a_t\right]\\ =&\Bbb E_{S_{t+1}}\left[V_\pi\left(S_{t+1}\right)|S_t=s_t,A_t=a_t\right] \end{aligned}$
证毕

三.贝尔曼方程(将 $V_\pi$ 表示成 $V_\pi$ )

Theorem :假设 $R_t$ 是 $S_t 、 A_t 、 S_{t+1}$ 的函数。那么
$V_\pi\left(s_t\right)=\mathbb{E}_{A_t, S_{t+1}}\left[R_t+\gamma \cdot V_\pi\left(S_{t+1}\right) \mid S_t=s_t\right]\tag{1.3}$

proof:
$\begin{aligned} V_\pi\left(s_t\right)&=\Bbb E_{A_t,\cal S_{t+1}, \cal A_{t+1}}\left[U_t \mid S_t=s_t\right] \\ & =\Bbb E_{A_t,\cal S_{t+1}, \cal A_{t+1}},\left[R_t+\gamma U_{t+1}|S_t=s_t\right] \\ & =\Bbb E_{A_t,\cal S_{t+1}, \cal A_{t+1}}\left[R_t \mid S_t=s_t\right] +\gamma \Bbb E_{A_t,\cal S_{t+1}, \cal A_{t+1}}\left[U_{t+1} \mid S_t=s_t\right] \\ & =\Bbb E_{A_t, S_{t+1}}\left[R_t \mid S_t=s_t\right] +\gamma \Bbb E_{S_{t+1}}\left[\Bbb E_{A_t \cal A_{t+1}, \cal S_{t+2}}\left[U_{t+1} \mid S_{t+1},S_t=s_t\right]\mid S_{t}=s_t\right]\qquad \\ & =\Bbb E_{A_t, S_{t+1}}\left[R_t \mid S_t=s_t\right]+ \gamma \Bbb E_{S_{t+1}}\left[ E_{ \cal A_{t+1}, \cal S_{t+2}}\left[U_{t+1} \mid S_{t+1}\right]\mid S_{t}=s_t\right]马尔可夫性\\ & = \Bbb E_{A_t, S_{t+1}}\left[R_t \mid S_t=s_t\right]+ \gamma \Bbb E_{S_{t+1}}\left[V_{\pi}(S_{t+1})\mid S_{t}=s_t\right]\\ &=\Bbb E_{A_t, S_{t+1}}\left[R_t \mid S_t=s_t\right]+ \gamma \Bbb E_{A_t, S_{t+1}}\left[V_{\pi}(S_{t+1})\mid S_{t}=s_t\right]马尔可夫性\\ \textbf{证毕} \end{aligned}$
或者直接利用式 $1.2$ ，两边同时对 $A_t\sim \pi(\cdot|s_t)$ 求期望得
$\begin{aligned} \Bbb E_{A_t\sim \pi(\cdot|s_t)}[Q_\pi\left(s_t, A_t\right)]&=\Bbb E_{A_t\sim \pi(\cdot|s_t)}[\mathbb{E}_{S_{t+1}}\left[R_t+\gamma \cdot V_\pi\left(S_{t+1}\right) \mid S_t=s_t,A_t\right]]\\ \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \Updownarrow \\ \Bbb E_{A_t}[Q_\pi\left(S_t, A_t\right)\mid S_t=s_t]&=\Bbb E_{A_t}[\mathbb{E}_{S_{t+1}}\left[R_t+\gamma \cdot V_\pi\left(S_{t+1}\right) \mid S_t=s_t,A_t\right]\mid S_t=s_t]\\ &=\mathbb{E}_{S_{t+1},A_{t}}[R_t+\gamma \cdot V_\pi\left(S_{t+1}\right) \mid S_t=s_t] \end{aligned}$

利用式 $1.3$ ，进一步写出显示表达式可得
$\begin{aligned} V_{\pi}(s_t)&=\Bbb E_{A_t, S_{t+1}}\left[R_t \mid S_t=s_t\right]+ \gamma \Bbb E_{A_t, S_{t+1}}\left[V_{\pi}(S_{t+1})\mid S_{t}=s_t\right]\\ &= \Bbb E_{A_t}[\Bbb E_{S_{t+1}}[R_t\mid A_t,S_t=s_t ]\mid S_t=s_t] +\gamma \Bbb E_{A_t}\left[\Bbb E_{S_{t+1}}\left[V_{\pi(S_{t+1})}\mid A_t,S_t=s_t\right]\mid S_t=s_t \right]\\ & =\sum_{A_t}\pi(a_t\mid s_{t})\Bbb E_{S_{t+1}}[R_t\mid A_t ,S_t=s_t]+\gamma \sum_{A_t}\pi(a_t\mid s_t)\Bbb E_{S_{t+1}}\left[V_{\pi(S_{t+1})}\mid A_t,S_t=s_t\right] \\ &=\sum_{A_t}\pi(a_t\mid s_{t})\sum_{S_{t+1}}r\cdot p(s_{t+1}\mid s_t,a_t)+\gamma \sum_{A_t}\pi(a_t\mid s_t)\sum_{S_{t+1}}V_{\pi}(s_{t+1})\cdot p(s_{t+1}\mid s_t,a_t) \end{aligned}$
其中 $r=r(s_t,s_{t+1},a_t)$

四.最优贝尔曼方程

Theorem :假设 $R_t$ 是 $S_t 、 A_t 、 S_{t+1}$ 的函数。那么
$Q_{\star}\left(s_t, a_t\right)=\mathbb{E}_{S_{t+1} \sim p\left(\cdot \mid s_t, a_t\right)}\left[R_t+\gamma \cdot \max _{A \in \mathcal{A}} Q_{\star}\left(S_{t+1}, A\right) \mid S_t=s_t, A_t=a_t\right] \tag{1.4}$

由贝尔曼方程可知
$Q_{\star}\left(s_t, a_t\right)=\mathbb{E}_{S_{t+1}, A_{t+1}}\left[R_t+\gamma \cdot Q_{\star}\left(S_{t+1}, A_{t+1}\right) \mid S_t=s_t, A_t=a_t\right]$
因为动作 $A_{t+1}=\operatorname{argmax}_A Q_{\star}\left(S_{t+1}, A\right)$ 是状态 $S_{t+1}$ 的确定性函数, 所以
$Q_{\star}\left(s_t, a_t\right)=\mathbb{E}_{S_{t+1}}\left[R_t+\gamma \cdot \max _{A \in \mathcal{A}} Q_{\star}\left(S_{t+1}, A\right) \mid S_t=s_t, A_t=a_t\right]$