19. 蒙特卡洛强化学习之策略控制

文章目录

1. MC学习中的策略控制是什么
2. 基于贪心算法的策略改进的基本描述
3.MC学习中完全使用贪心算法可行否
4. 如何改进完全贪心算法
5. 何谓 $\varepsilon-$ 贪心算法

1. MC学习中的策略控制是什么

根据策略评估阶段得到的策略 $\pi$ 下的行为值函数 $Q (s, a)$ ，使用贪心算法改进策略的过程.

2. 基于贪心算法的策略改进的基本描述

不考虑数值计算误差的贪心算法
$\begin{cases} a_{max} = \argmax_{a\in A}\left(Q(s,a) \right)\\ \pi(a|s) = \begin{cases} 1\qquad a=a_{max}\\ 0\qquad a\ne a_{max} \end{cases} \end{cases}\qquad s\in S$
不考虑数值计算误差的贪心算法，求得的最优行为只有1个( $a_{max}$ )，实际中，可能有两个不同的a的值，都使得Q(s,a)取最大值，甚至由于计算误差，原本有两个最优a，最后变成了一个，这可能会导致最优动作的选取不全面。
考虑数值计算误差的贪心算法
- 这一算法考虑了数值计算误差
- 设定一个较小的数值计算误差阈值 $\epsilon>0$
- 则： $a=b\Leftrightarrow |a-b|<\epsilon$
- 则实际编程中按如下表达式更新策略
  $\begin{cases} Q_{max}(s)&=\max_{a\in A} Q(s,a)\\ A_{max}(s)&=\{a|a\in A且Q_{max}-Q(s,a)<\epsilon \}\\ \pi^*(a|s)&=\begin{cases} 1/\mathrm{length}\left(A_{max}(s)\right) \quad a\in A_{max}(s)\\ 0 \qquad a\notin A_{max}(s) \end{cases} \end{cases}\qquad s\in S$

3.MC学习中完全使用贪心算法可行否

不可行!!!

为什么？

Q(s,a)是利用交互生成的完整轨迹更新自身的，理论上，只有当全部完整轨迹覆盖所有可能的状态行为对(s,a)，Q(s,a)的估计值才为真实值，实际中不可能满足这一条件。
- 例如：我们要根据12月的哪一天（相当于31个状态），从桂林市挑选性价比最高的米粉店吃米粉（相当于从行为空间中选取最优行为），理论上，我们应该每年12月份每一天，选择1个桂林米粉店吃米粉，对31天的每一天、每一个米粉店都试吃足够的次数，才能使我们对12月份的任何一天，哪家米粉店的性价比最高有尽可能接近于真实值的评估。这在实际中可行吗？
既然Q(s,a)估计不是真实值，完全根据贪心算法选取的行为，就可能不是最优行为，换句话说，在某个状态s下，完全采用贪心算法就可能让我们漏掉能带来更高回报的行为，而那些行为在完全贪心算法的控制下，被选取的概率为0！
- 例如：我记得有一套央视举办的闯关节目，这类节目通常设计了几道关卡，每当选手通过一道关卡，就能获得相应的奖金，而且越靠后的关卡，对应的奖金越高（有类似指数的关系）。这种节目的趣味性在于，当选手过了某一关卡后，面临选择：选择退出，能确保赢得过去累积获得的奖金，选择继续闯关，有可能闯关不成功而使自己空手而归，也有可能使奖金翻倍，如果是你，将如何选择？显然我们的困惑在于，没法估计我们的能力是否能应对下一关的挑战。这是一个概率问题。

4. 如何改进完全贪心算法

使用 $\underline{\varepsilon-贪心算法}$

5. 何谓 $\varepsilon-$ 贪心算法

5.1 基本思想

相对于完全贪心算法，我把它称为 $\underline{部分贪心算法}$ 。完全贪心算法是完全利用过去的经验（过去经历的没有覆盖所有可能情况的完整轨迹），每次都选择自认为能带来最大累积回报的行为，这是纯经验论者的操作；而 $\epsilon-贪心算法$ ，即考虑过去经验（对既往经验的利用），又没有完全排除那些被纯经验论者无视的行为（对未充分了解的（状态-行为）对的探索）
$\epsilon-贪心算法$ 体现了强化学习的基本思想，即：利用与探索的平衡。在状态s下，给定 $\epsilon\in(0,1)$ ，先让所有行为都有被选择的基准概率 $\frac{\epsilon}{nA}$ (nA位行为空间长度），在此基础上，把那些用完全贪心算法选取的最优行为的选取概率增加一点，使得所有行为被选取的概率总和仍然为1，显然， $\epsilon$ 大小反映了探索的比重，该值越大，则探索的比重越大，反之越小。其选择也是一种技巧，比如，考虑到随着经历的完整轨迹数的增多，经验的价值就越大，相应的 $\epsilon$ 应该逐渐减小（即越来越不需要过多地探索新情况）。

5.2 基于 $\epsilon-贪心算法$ 的策略控制的形式化描述

输入： $\epsilon$ ，策略 $\pi(a|s)$ ，行为值函数 $Q (s, a)$
输出：更新后的策略 $\pi(a|s)$
过程：
$\begin{align*} &for \quad s \quad in \quad S:\\ &\qquad a_{max}=\argmax_{a\in A}(Q(s,a))\\ &\qquad for \quad a \quad in \quad A:\\ &\qquad\qquad \pi(a|s)=\frac{\epsilon}{nA}\\ &\qquad\qquad if \quad a=a_{max}:\\ &\qquad\qquad\qquad \pi(a|s)=\pi(a|s)+(1-\epsilon) \end{align*}$
注：这里采用了不考虑计算误差的贪心策略，也可以考虑使用带计算误差的贪心策略。具体请读者实践。