dqn系列梳理_系列论文阅读—

DQN

作为DRL的开山之作，DeepMind的DQN可以说是每一个入坑深度增强学习的同学必了解的第一个算法了吧。先前，将RL和DL结合存在以下挑战：1.deep learning算法需要大量的labeled data，RL学到的reward 大都是稀疏、带噪声并且有延迟的(延迟是指action 和导致的reward之间)；2.DL假设样本独立；而RL前后state状态相关；3.DL假设分布固定，而RL在学习新的行为时，数据分布会变化。DQN通过Q-Learning使用reward来构造标签、使用经验池等方法解决了这些问题。

基于Q-learning 确定Loss Function

Q-learning 更新公式为：

DQN 的 loss function：

DQN使用随机梯度下降更新参数,为啥要把targetnet单独拎出来呢，后续会说的。

experience replay

DQN 使用exprience replay解决instablity的问题，把每个时间步agent与环境交互得到的转移样本

存储在buffer中，并被随机抽取。通过这种方式，去除了数据之前的相关性，并且缓和了数据分布的差异。

TargetNet

为了减少

和目标

之间的相关性，从而提高稳定性.2015年版的DQN加入了另一个网络——

作为targetnet,它和

参数分离，每次参数更新只更新

，而

的参数

保持不变,并且周期性的将

的参数复制给

。此时，loss function变为：

DQN算法伪代码

double DQN

在标准的Q-learning,和DQN中，参数是这么更新的：

max操作使得估计的值函数比值函数的真实值大。如果是均匀的过估计，找到的最优策略是不会变的，不会对我们的目标造成影响。但实际上，过估计的误差在不同的states和actions下是不同的，这就会影响到我们找到最佳策略了。为了减少overestimation，van Hasselt et al.(2016)提出Double DQN(D-DQN)。利用DQN中的target network,将selection 和 evelation 解藕。使用Behavior Network选择出value最大的action，用target network来估计它的值

被更改为：

PS 论文中有对两个数学定理的详细证明，感兴趣的同学可以看哦

Prioritized Experience Replay

在前面的方法中，experience replay都是均匀随机采样，但实际上不同样本的重要性显然是不同的。举个例子，在强化学习初期，replay memory中，除了直接和目标相关的state-action pair 有正值，大部分的value都为0，大量的从zero-value state 到另一个 zero-value state 的transitions更新导致很低效。Moore & Atkeson, 1993 提出Prioritized Sweeping，优先选择value改变了的state。具体算法如下：

prioritized sweeping

但Prioritized sweeping 主要用在model based planning。Schaul et al. (2016)提出了Prioritized Experience Replay。

Prioritizing TD-Error

用 TD-error来规定优先学习的程度. 如果

越大, 就代表我们的预测精度还有很多上升空间, 那么这个样本就越需要被学习, 也就是优先级越高。通过存储transition,及其每次回放更新得到的最新的TD-error，将TD-error绝对值最大的transition从 memory 中进行回放。然后对该transition进行Q-learning的更新，并根据TD-error,更新其优先级。而对于没有已知TD-error的新进入memory的transition，将其放到最大优先级的行列，以确保所有的经验至少被回放一次。

Stochastic Prioritization

greedy TD-error prioritization有以下问题：1.那些TD-error很小的transition 将很长时间不被replay.2.对noise spikes 敏感。最终算法会集中在一个小子集里面。初始TD-error很高的transitions会经常被重放，缺失多样性会导致over-fitting。作者提出了一种介于均匀随机采样和贪心优先之间的随机采样方法，transition

的采样概率为：

其中，

是

的优先级。这样，即使是最低优先级的transition被采样到的概率也不为0.

的设定有多种方法。

第一种是成比例优先。

用来防止transitions的TD-error为0后不再被回放。具体实现中，使用名为sum-tree的树型数据结构。它的每个叶子节点保存了 transition priorities，父节点存储了孩子节点值之和，这样，头节点的值就是所有叶子结点的总和

。采样一个大小为

的minibatch时，range

被均分为

个ranges，每个ranges均匀采样，这样，各种

的transitions都有被采样到。

第二种是

。

是transition

根据它的

在replay memory中的rank。这种方法对异常值更加不敏感，因此更为鲁棒。作者最终使用了基于array的二叉堆实现的优先队列来存储transitions。

Importance Sampling

Prioritized replay 改变了分布，因此引入了bias。为了消除bias，作者使用了importance-sampling(IS) weights：

Q-learning更新中的

替换为

，并出于stability的原因，用

将权值正则化。

Prioritized Sweeping

Dueling Network Architectures for Deep Reinforcement Learning

Wang et al. (2016b)在网络结构上做了创新，这种新的网络结构能够更容易的与当前和未来的RL算法相结合。

作者引入了advantage function。

关注的是state的值，

关注的是这个状态下，动作的重要性。

估计的是在这一状态下选择某一动作的价值。因为在某些状态下，无论做什么动作对下一个状态都没有太大影响，而这种方法，可以单独学习状态本身的价值。

dueling network architecture.png

如上图，作者将原来的DQN最后的一条全联接层一分为二，一个用来估计value functions,一个用来估计advantage function。最后将两条流聚合成输出Q function。

相应的Q function变为：

和

是两个全联接层分支的参数，那为什么要减去

呢。这是因为给定一个Q，我们无法给出一个唯一的V和A(拥有两个变量的一个方程式，当然有无穷多解)。为了解决这一问题，作者强制让被选择的动作的advantage为0，即

。

这样，

在实际应用中，作者用均值代替了最大值操作，即：

这样，可以缩小 Q 值的范围，去除多余的自由度，且期望值为0,提高算法稳定性

Distributional value function

强化学习一般是对智体收到的随机return的期望进行建模，但实际上，这些随机return的分布——value distribution是非常有用的。

It’s already evident from our empirical results that the distributional perspective leads to better, more stable reinforcement learning

Bellemare et al. (2017)提出贝尔曼方程的一个变体，实际上可以预测所有可能的结果，而不用对它们进行平均 —— distributional Bellman’s equation

具体算法如下：

categorical algorithm

网络结构上的改变：

传统的DQN最后一层全联接层输出的是

维向量，表示当前状态下，每一个动作的价值的估计。Categorical DQN 输出的是

维，表示的是表示的是 N 个动作在 M 个价值分布的支撑上的概率。

def _network_template(self, state):

"""Builds a convolutional network that outputs Q-value distributions.

Args:

state: `tf.Tensor`, contains the agent's current state.

Returns:

net: _network_type object containing the tensors output by the network.

"""

weights_initializer = slim.variance_scaling_initializer(

factor=1.0 / np.sqrt(3.0), mode='FAN_IN', uniform=True)

net = tf.cast(state, tf.float32)

net = tf.div(net, 255.)

net = slim.conv2d(

net, 32, [8, 8], stride=4, weights_initializer=weights_initializer)

net = slim.conv2d(

net, 64, [4, 4], stride=2, weights_initializer=weights_initializer)

net = slim.conv2d(

net, 64, [3, 3], stride=1, weights_initializer=weights_initializer)

net = slim.flatten(net)

net = slim.fully_connected(

net, 512, weights_initializer=weights_initializer)

net = slim.fully_connected(

net,

self.num_actions * self._num_atoms,

activation_fn=None,

weights_initializer=weights_initializer)

logits = tf.reshape(net, [-1, self.num_actions, self._num_atoms])

probabilities = tf.contrib.layers.softmax(logits)

q_values = tf.reduce_sum(self._support * probabilities, axis=2)

return self._get_network_type()(q_values, logits, probabilities)

orz其实这篇论文我看了代码才懂了算法流程，但是并不能完全理解，有大佬可以解释一哈吗??

未完待续

A3C

asynchronous advantage actor-critic (A3C) [Mnih et al.(2016)] (https://arxiv.org/pdf/1602.01783.pdf)并不属于value-based算法，这里提到它一是因为DeepMind 在投给AAAI 2018的论文Rainbow: Combining Improvements in Deep Reinforcement Learning中使用了A3C中的multi-step learning。

论文中最为出彩的地方在于：在多个环境副本上并行地异步执行多个agent，不同的agent采用不同的策略，经历不同的state，有不同的transition,不但有助于探索，加快速度，而且使得时间上数据的相关性很小，起到稳定学习过程的作用。因此不需要使用又费计算又费资源的experience replay，这样就可以使用on-policy RL 方法。

算法有一个global network,和若干个agent，大概的步骤过程是：

1.agent 将global network的参数pull过来

2.agent与环境互动n-step或遇到terminal state 提前终止

3.agent计算loss，得到梯度

4.把梯度 push 给global network，用梯度更新global network的参数，然后reset自己，回到第一步

A3C, each actor-learner thread, based on Mnih et al. (2016)

Noisy DQN

Fortunato et al. (2018)提出在参数中加入噪声，代替

-greedy，增加模型的探索能力。

Noisynet

举个例子，设神经网络的一个linear layer 为：

那么加入噪声后为：