狗都能看懂的Actor-Critic强化学习算法讲解

Review Policy Gradient

review policy gradient.png

上面的公式是Policy Gradient的更新函数，这个式子是指在 $s_t$ 时刻采取了 $a_t$ ，计算出对应发生的概率 $p_\theta$ ，然后计算在采取了这个 $a_t$ 之后，所得到的reward有多大。但这里需要减去一个baseline，不能让reward都大于0，这样会降低没有sample到的action的概率。同时还需要加上衰减因子，保证后期得到的reward不会过大，从而影响了一开始的action概率。最后把所有时刻的reward求和。

我们将画蓝色横线的式子记作 $G_t^n$ ，它虽然没有偏差，但因为方差大，数值波动比较大。波动大的原因也很好理解， $G_t^n$ 从执行了这个action之后到episode结束得到的所有reward总和，由于sample的概率不相同，所以中间会遇到各种不同的state。

如果我们收集数据的数量足够多，这个波动会被平均掉。但实际收集数据是比较耗时，所以也不会有太多数据。如果说能用期望值（平均）替代 $G_t^n$ ，那可以让训练过程更稳定。这里就需要引入Value-Based的方法。

Review Q-Learning

review q-learning.png

Value-Based的方法有两种：

$V^{\pi}(s)$ 输入state，输出可能会得到reward的期望值
$Q^{\pi}(s,a)$ 输入state和会采取的action，输出可能会得到reward的期望值

以上两个方法都可以用TD或MC的方法更新，用TD比较稳定，用MC更精确。

Actor Critic

Actor Critic.png

刚刚说到，如果能用期望值（平均）替代 $G_t^n$ ，训练会更加稳定。那 $G_t^n$ 的期望值是什么？它是希望在 $s_t$ 时刻，用 $\pi$ 这个策略得到 $a_t$ ，执行了 $a_t$ 之后所得到的reward总和的期望值，那这个其实就是 $Q^{\pi_\theta}(s^n_t,a^n_t)$ 的定义。所以有：
$E[G_t^n] = Q^{\pi_\theta}(s^n_t,a^n_t)$
那么我们用 $Q^{\pi_\theta}(s^n_t,a^n_t)$ 替代 $G_t^n$ 这一项即可。还有一项baseline，正常是自己设置，但这里我们可以用Value Function替代， $V (s)$ 是不包含action的， $Q (s, a)$ 是包含action的， $V (s)$ 是 $Q (s, a)$ 的期望值，为什么这么说呢？原因是这样的：

在 $s_t$ 下，价值函数 $V^\pi(s)$ 表示从状态 $s_t$ 开始，遵循策略 $\pi$ 的期望回报。
由于策略 $\pi$ 定义了在 $s_t$ 下采取各个action的概率分布，因此，价值函数 $V^\pi(s)$ 可以看作是动作价值函数 $Q (s, a)$ 在所有可能动作上的加权平均，即期望值。

所以上图红框内的式子就可以被Value-Based的两个方法给替换掉，这样就可以将Actor和Critic的两个方法给结合起来。

Advantage Actor Critic

Advantage Actor-Critic-1.png

这样结合的缺点就是需要训练两个网络，有办法可以只训练一个网络用来预测两个值吗？可以，事实上可以只训练 $V (s)$ ，用 $V (s)$ 替代 $Q (s, a)$ 。回到 $Q (s, a)$ 的定义，因为 $r_t$ 本身是一个随机值，只有我们取了期望值之后才是 $Q (s, a)$ 的定义。现在为了简化Actor-Critic的训练，直接将求期望值去掉。这样就可以用 $V (s)$ 替代 $Q (s, a)$ 。

但这样做的坏处也显而易见，是引入了一个随机的变量。但不过相较于 $G_t^n$ 来说还好， $r_t$ 只是某一个step会有的随机变量，方差会比 $G_t^n$ 小的多。所以整体上还是能接受的。

Advantage Actor-Critic-2.png

红框里面是原来的Advantage项，已经用Value-Based的方法替代了。那么Advantage Actor-Critic完整流程如上图：

有一个Policy $\pi$ 和环境做互动收集训练数据。（Policy Gradient中是用这些训练数据直接优化Policy）
用TD或MC优化 $V (s)$
套用上面的公式更新Policy $\pi$
重复1-3直至收敛

Tips

Advantage Actor-Critic-3.png

backbone shared

和很多CV任务一样，前面的特征提取都是可以共享的。然后预测action和预测value分成两个分支，这部分和Dueling DQN很像，只是最后没有合并成一个 $Q (s, a)$

large entropy

我们可以设置一些限制，使得action的entropy会大一点，不同的action被采用的概率平均一些，才会有几率探索更多state，得到比较好的结果。

asynchronous

强化学习通常花时间都是在收集训练数据过程中。开多个线程与环境做互动收集数据可以有效缩短训练时间。

Asynchronous Advantage Actor-Critic

Asynchronous Advantage Actor-Critic简称为A3C，具体如何实现？

首先有一个初始的global network

复制N个network
让它们都和环境做互动，收集数据
计算梯度
更新模型

这里值得注意的是，所有的actor都是并行去收集，训练，更新的。可能有人问，如果复制出来的参数是 $\theta^1$ ，但是要更新的时候已经被别覆盖成 $\theta^2$ 了呢？这个没关系，直接覆盖就行。

Pathwise Derivative Policy Gradient

Pathwise Derivative Policy Gradient.png

之前说到Q-Learning在连续的问题上表现不好。我们完全可以利用Actor预测action的能力，为 $Q^\pi$ 提供action，使得 $Q^\pi$ 的值越大越好。在训练的时候会直接将两个网络连起来，并且freeze $Q^\pi$ 的参数，只训练Actor，这个思路和CV任务里的GAN很像，用生成器生成一个图片，用判别器去判断是好是坏。

Pathwise Derivative Policy Gradient-2.png

算法的流程也很简单，有一个 $\pi$ 去和环境交互，收集数据，训练 $Q^\pi$ ，然后将 $Q^\pi$ 固定，只训练actor使得 $Q^\pi$ 输出的值越大越好。在Q-Learning中能用到的trick，这里也能用上，比如replay buffer等。

相较于之前的Q-Learning算法，改动四个地方就行：

之前使用 $Q^\pi$ 决定用什么action，现在改用 $\pi$ 来预测action
用 $\hat{\pi}$ 预测的action代入到 $Q^\pi$ 中，不再解 $\max\limits_{a} \ Q^\pi(s,a)$ （会有两个 $\pi$ ，其中一个是固定的，和训练DQN是一样的）
训练 $\pi$ （其优化目标是让 $Q^\pi$ 越大越好）
更新 $\pi$ 的参数