22. 离线MC强化学习算法（1）

文章目录

1. 理解离线MC强化学习的关键
2. 什么是重要性采样
3.重要性采样定理给我们的一般启示
4.重要性采样定理给离线蒙特卡洛强化学习的启示

1. 理解离线MC强化学习的关键

离线强化学习的特点是采样策略 $\pi'\ne 待评估策略\pi$ ，这就带来一个问题：

如何根据 $\pi'$ 获取的多条完整轨迹数据，计算得到 $Q_\pi(s,a)$ 的估计值，而不是 $Q_{\pi'}(s,a)$ 的估计值。

重要性采样定理为解决上述问题指明了方向，因此，理解重要性采样定理是理解离线MC强化学习的关键。

2. 什么是重要性采样

重要性采样定理的积分描述

已知随机变量 $x$ 的函数 $f (x)$ 、 $x$ 的两个不同概率分布 $p (x), q (x)$ ,令 $g(x)=\frac{p(x)f(x)}{q(x)}$ ，设 $E_p(f)$ 为 $f (x)$ 在 $p (x)$ 下的期望， $E_q(g)$ 为 $g (x)$ 在 $q (x)$ 分布下的期望,则：
$\begin{align}\begin{cases} E_p(f)=E_q(g)\\ E_p(f)=\int_xp(x)f(x)dx\\ E_q(g)=\int_xq(x)g(x)dx \end{cases} \end{align}$

重要性采样定理的统计学描述

根据重要性采样定理的积分描述，很容易推导出其统计学描述，如下：

已知对 $x$ 按照 $q (x)$ 进行采样得到的样本集为 $S_q=\{x_{q,1},x_{q,2},\cdots,x_{q,m}\}$ ,则
可利用如下公式计算出 $E_p(f)$ 的渐进无偏估计 $\hat{E_p}(f)$ 和 $E_q(g)$ 的
渐进无偏估计 $\hat{E_q}(g)$ :
$\begin{align} \hat{E_p}(f)=\hat{E_q}(g)=\frac{1}{m}\sum_{k=1}^m\frac{p(x_{q,k})f(x_{q,k})}{q(x_{q,k})} \end{align}$

3.重要性采样定理给我们的一般启示

在估计 $x$ 的函数 $f (x)$ 在 $p (x)$ 下的期望时，若实际情形不允许按照 $p (x)$ 对 $x$ 进行采样，从而直接根据公式 $\hat{E_p}(f)=\frac{1}{m}\sum_{k=1}^mf(x_{p,k})$ 估计 $E_p(f)$ 时，可以按照概率 $q (x)$
对 $x$ 进行采样获得样本集 $S_q$ ，然后利用公式(2)进行间接估计，得到 $E_p(f)$

4.重要性采样定理给离线蒙特卡洛强化学习的启示

在离线MC强化学习中，要解决的问题是：

已知采样策略 $\pi'$ 、待评估策略 $\pi$ 、利用 $\pi'$ 采集获得m条完整轨迹 $EP=\{Ep_1,Ep_2,\cdots,Ep_m\}$ ,其中, $Ep_k=\{(s_{k,0},a_{k,0},r_{k,1}),(s_{k,1},a_{k,1},r_{k,2}),\cdots,(s_{k,N_k-1},a_{k,N_k-1},r_{k,N_k}),(s_{k,N_k},a_{k,N_k},r_{k,N_k+1})\},k=1,2,\cdots,m$ ，所有轨迹的
最后一个状态 $s_{k,N_k}\equiv s_T(终止状态)$
，若固定 $s_t=s,a_t=a$ ,则每条轨迹中三元组 $(s, a, r)$ 中的 $r$ 可以看做是随机变量，累积回报 $G^{\pi'}(s,a)$ 是 $r$ 的函数

求解：策略 $\pi$ 下的累积回报函数 $G^{\pi}(s,a)$ 的期望 $Q_\pi(s,a)$ 的估计值 $\hat{Q_\pi}(s,a)$ 。

求解过程：

1.根据 $EP$ ，利用公式计算得到 $(s, a)$ 固定时，随机变量 $r$ 的函数 $G^{\pi '}(s,a)$ 在m个采样点
的样本函数值 $G^{\pi'}_k(s,a),k=1,2,\cdots,m$
2.根据重要性采样公式(2)，及 $G^{\pi '}_k(s,a)=G^{\pi}_k(s,a)$ 可得：
$\begin{align*} \hat{Q_\pi}(s,a)&=\frac{1}{m}\sum_{k=1}^m\frac{p_k^{\pi}}{p_k^{{\pi}'}}G^{{\pi}}_k(s,a)\\ &=\frac{1}{m}\sum_{k=1}^m\frac{p_k^{\pi}}{p_k^{{\pi}'}}G^{{\pi}'}_k(s,a)\\ p_k^{\pi}&-策略\pi 下，出现完整轨迹Ep_k的概率\\ p_k^{\pi'}&-策略\pi' 下，出现完整轨迹Ep_k的概率\\ \rho_k=\frac{p_k^{\pi}}{p_k^{\pi'}}&-重要性采样比例，表示待评估策略\pi 下和采样策略\pi' 下获得轨迹Ep_k的概率之比\\ p_k^{\pi}&=[\pi(a_{k,0}|s_{k,0})P_{s_{k,0}s_{k,1}}^{a_{k,0}}]\times [\pi(a_{k,1}|s_{k,1})P_{s_{k,1}s_{k,2}}^{a_{k,1}}]\times\cdots \times[\pi(a_{k,N_k-1}|s_{k,N_k-1})P_{s_{k,N_k-1}s_{k,N_k}}^{a_{k,N_k-1}}]\\ &=\prod_{i=0}^{N_k-1}\pi(a_{k,i}|s_{k,i})P_{s_{k,i}s_{k,i+1}}^{a_{k,i}}\\ p_k^{\pi'}&=\prod_{i=0}^{N_k-1}\pi'(a_{k,i}|s_{k,i})P_{s_{k,i}s_{k,i+1}}^{a_{k,i}}\\ \rho_k&=\frac{\prod_{i=0}^{N_k-1}\pi(a_{k,i}|s_{k,i})}{\prod_{i=0}^{N_k-1}\pi'(a_{k,i}|s_{k,i})} \end{align*}$