深度强化学习 ②（DRL）

参考视频：📺王树森教授深度强化学习

前言：

最近在学习深度强化学习，学的一知半解😢😢😢，这是我的笔记，欢迎和我一起学习交流~

这篇博客目前还相对比较乱，后面有时间会整理一次~

由于 CSDN 目前有单篇博客字数限制，故分成两篇博客来展示 😁，这是第二篇

第一篇在这里：深度强化学习 ①（DRL）

文章目录

- 9. 高估问题
- - 9.1 Bootstrapping
  - 9.2 高估问题
  - - 9.2.1 高估原因
    - 9.2.2 高估的解决方案
    - 9.2.3 Target Network
    - - 1. 过程
      - 2. 更新 $w^-$
    - 9.2.4 Double DQN
- 10. Dueling Network
- - 10.1 Optimal advantage function
  - 10.2 搭建 Dueling Network
  - 10.3 训练
  - 10.4 不唯一问题
- 11. Policy gradient with Baseline
- - 11.1 证明
  - 11.2 蒙特卡洛近似
  - 11.3 baseline 的选择
- 12. REINFORCE with Baseline
- - 12.1 推导
  - 12.2 网络搭建
  - - 1. 策略网络
    - 2. 状态价值网络
    - 3. 参数共享
    - 4. 更新策略网络
    - 5. 更新价值网络
    - 6.总览
- 13. Advantage Actor-Critic（A2C）
- - 13.2 推导
  - 13.1 训练
- 14. 连续控制
- - 14.1 Deterministic Policy Gradient（DPG，确定策略梯度）
  - - 1. TD 算法更新价值网络
    - 2. 用确定策略梯度更新策略网络
    - 3. 用 Target Networks 对价值网络的训练进行改进
  - 14.2 随机策略和确定策略对比
  - 14.3 用随机策略做连续控制
  - - 1. 构造策略网络
    - 2. 网络搭建
    - 3. 训练
    - 4. 计算策略梯度
- 15. Trust Region Policy Optimization(TRPO，置信域策略优化)
- - 15.1 Trust Region（置信域）
  - 15.2 Trust region algorithms（置信域算法）
  - 15.3 推导目标函数
  - 15.4 TRPO
  - - 1. Approximation
    - 2. Maximization
- 16. Multi-Agent Reinforcement Learning（多智能体强化学习）
- - 16.1 Settings（常见设定）
  - 16.2 Terminologies
  - 16.3 Convergence（收敛问题）
  - 16.4 agents 之间的通信方式
  - - 1. 去中心化
    - 2. 中心化
    - 3. 中心化训练&去中心化执行

9. 高估问题

9.1 Bootstrapping

Bootstrapping：自举。在强化学习中，指的是用一个估算去更新同类的估算

在 TD 更新 DQN 的过程中，TD target 本身部分基于 DQN 在 t+1 时刻的预测，而 TD target 又参与了梯度的计算，此时，为了更新 DQN 在 t 时刻做出的估计，用到了 DQN 在 t+1 时刻做出的预测，即用一个估计值去更新它本身

9.2 高估问题

9.2.1 高估原因

用 TD 训练 DQN，会导致 DQN 高估真实的动作价值。

TD target 的计算中，最大化 $max_{a}Q(s_{t+1},a;w)$ 会让得到的 TD target 大于真实的动作价值，那么 DQN 也会高估
Bootstrapping，若当前 DQN 已经出现高估，下一轮 TD target 也会高估，进一步推高了 DQN 的输出（高估传播）

TD target 用到了 DQN 在 t+1 时刻的估计值，用 TD target 来更新 DQN 在 t 时刻的估计，即用 DQN 来更新 DQN 自己（自举）。若 t+1 时刻 DQN 已经高估了动作价值，然后对这个 DQN 进行了最大化进一步推高了价值估计，计算 TD target 的时候用到了这个高估的值，然后更新 DQN，这样的话高估又被传播到了 DQN，让 DQN 的高估变得更严重

一旦 DQN 被高估，那么高估会不断被反馈到 DQN 自己，让 DQN 的高估越来越严重

DQN 对价值的高估是非均匀的，非均匀高估会让 DQN 的高估越来越严重，最终选择出来的最优动作也不是最优的

9.2.2 高估的解决方案

避免 Bootstrapping：不要用 DQN 自己算出来的 TD target 来更新 DQN，而是用另一个神经网络来计算 TD tartget（target network）
用 double DQN 来缓解最大化造成的高估

9.2.3 Target Network

两个神经网络结构相同，参数不同，用途不同

DQN $Q(s,a;w^-)$ 用来控制 agent，并且收集经验（transition）

Target Network $Q(s,a;w^-)$ 用来计算 TD Target， $y_t=r_t+\gamma \cdot \max_a Q(s_{t+1},a;w^-)$

1. 过程

使用 transition $s_t,a_t,r_t,s_{t+1})$ 更新 DQN 参数 w

计算 TD target： $y_t=r_t+\gamma*\max_a Q(s_{t+1},a;w^-)$
计算 TD error： $\delta_t=Q(s_t,a_t;w)-y_t$
更新参数： $\leftarrow w-\alpha*\delta_t*\frac{\partial Q(s_t,a_t;w)}{\partial w}$

2. 更新 $w^-$

方式1： $w^- \leftarrow w.$
方式2： $w^- \leftarrow \tau \cdot w+(1-\tau)\cdot w^-.$

Target Network 可以减少 DQN 高估的程度，让 DQN 表现更好，但无法避免高估，因为还有最大化操作，仍然会让 TD target 大于真实价值，此外，Target Network 会用到 DQN 的参数，无法独立于 DQN，无法完全避免 Bootstrapping

9.2.4 Double DQN

选择最优动作时使用 DQN，计算 TD Target 时，使用 Target Network，可以大幅提高性能，缓解高估问题。

可以一定程度缓解高估问题的原因

计算最优动作使用的是 DQN： $a^\star=argmax_aQ(s_{t+1},a;w)$
计算 TD target 使用的是 target network： $y_t=r_t+\gamma*Q(s_{t+1},a^\star;w^-)$
从该不等式便能看出原因： $Q(s_{t+1},a^\star;w^-)\le \max_aQ(s_{t+1},a;w^-).$

Double DQN 做出的估计更小，缓解了高估问题

10. Dueling Network

对神经网络结构的改进

10.1 Optimal advantage function

$A^\star(s,a)=Q^\star(s,a)-V^\star(s).$

动作 a 相对于 baseline $V^\star$ 的优势

理论性质推导

定理1：
$V^\star(s)=\max_aQ^\star(s,a).$
给最优优势函数两边同时关于 a 求最大值，即
$\begin{aligned} \max_aA^\star(s,a) &=\max_aQ^\star(s,a)-V^\star(s)\\ &=0. \end{aligned}$
然后对优势函数的定义公式进行变换，得到定理2：
$Q^\star(s,a)=V^\star(s)+A^\star(s,a)-\max_aA^\star(s,a).$

10.2 搭建 Dueling Network

用神经网络 $A(s,a;w^A)$ 来近似优势函数 $A^\star(s,a)$ （输出一个向量）

网络结构

用另一个神经网络 $V(s;w^V)$ 来近似最优状态价值函数 $V^\star(s)$ ，输出对状态 s 的打分(输出一个实数)

这两个神经网络可以共享卷积层的参数

将定理2 中的 $V^\star$ 和 $A^\star$ 替换得
$Q(s,a;w^A,w^V)=V(s;w^V)+A(s,a;w^A)-\max_aA(s,a;w^A).$
将上式 $Q(s,a;w^A,w^V)$ 称为 Dueling Network，是对最优动作价值函数的近似，故可以用来控制 agent（它的输入、输出和 DQN 完全一样，功能也一样）

10.3 训练

用 Q-Learning 来学习参数 w，学习过程和 DQN 一样，

优先经验回放、Double DQN、Multi-step TD target 等对 TD 的优化，都可以用来训练 Dueling network

10.4 不唯一问题

定理2 中加上 $-\max_aA^\star(s,a)$ 的原因是为了解决 $Q^\star(s,a)$ 分解的不唯一性。

在训练过程中，若神经网络 V 和 A 上下波动，波动幅度相同方向相反，则 Dueling Network 的输出毫无差别，但两个神经网络都在上下波动，都不稳定。在加入最大化项之后，即时两个网络上下波动幅度相同方向相反，但最终的 $Q^\star(s,a)$ 就发生了变化。

实际中，将最大化换为均值 $mean_aA(s,a;w^A)$ 效果更好，更稳定

11. Policy gradient with Baseline

往策略学习中加入 baseline，可以降低方差，让收敛更快

baseline 是一个函数 b，可以是任何东西，但不能依赖于动作 A

11.1 证明

$\begin{aligned} E_{A\sim\pi}[b\cdot\frac{\partial ln \pi(A|s;\theta)}{\partial \theta}] &=b\cdot E_{A\sim\pi}[\frac{\partial ln \pi(A|s;\theta)}{\partial \theta}]\\ &=b\cdot \sum_a\pi(a|s;\theta)\cdot[\frac{1}{\pi(a|s;\theta)}\cdot\frac{\partial \pi(a|s;\theta)}{\partial\theta}]\\ &=b\cdot \sum_a\frac{\partial \pi(a|s;\theta)}{\partial\theta}\\ &=b\cdot \frac{\partial \sum_a \pi(a|s;\theta)}{\partial\theta}\\ &=b\cdot\frac{\partial 1}{\partial \theta}\\ &=0. \end{aligned}$

策略梯度
$\begin{aligned} \frac{\partial V_\pi(s;\theta)}{\partial \theta} &=E_{A\sim\pi}[\frac{\partial ln \pi(A|s;\theta)}{\partial \theta}*Q_\pi(s,A)]\\ &=E_{A\sim\pi}[\frac{\partial ln \pi(A|s;\theta)}{\partial \theta}*Q_\pi(s,A)]-E_{A\sim\pi}[b\cdot\frac{\partial ln \pi(A|s;\theta)}{\partial \theta}]\\ &=E_{A\sim\pi}[\frac{\partial ln \pi(A|s;\theta)}{\partial \theta}*(Q_\pi(s,A)-b)] \end{aligned}$
可得：若 baseline b 与动作 $A_t$ 无关，则策略梯度可以写为带 baseline 的形式，b 不会影响正确性，不管 b 是什么，都不会影响正确性，得到的期望一样。

为什么要用 b：算法中真正用的策略梯度不是上面的公式，而是对上式的蒙特卡洛近似，b 不会影响期望，但会影响蒙特卡洛近似，若选择的 b 接近 $Q_\pi$ ，那么 b 会让其蒙特卡洛近似的方差降低，算法收敛会更快

11.2 蒙特卡洛近似

将 $E_{A\sim\pi}[\frac{\partial ln \pi(A|s;\theta)}{\partial \theta}*(Q_\pi(s,A)-b)]$ 记为 $g(A_t)$ ，期望是关于 $A_t$ 求的， $A_t$ 的概率密度函数是策略网络 $\pi$ （ $a_t\sim\pi(\cdot|s_t;\theta)$ ），根据 $\pi$ 做随机抽样，得到动作 $a_t$ ，计算 $g(a_t)$ (随机梯度)，就是期望的蒙特卡洛近似，是策略梯度的无偏估计

用随机梯度上升更新 $\theta$ . $\theta \leftarrow \theta + \beta\cdot g(a_t)$ ，让状态价值变大，

11.3 baseline 的选择

$b = 0$ 得到标准的策略梯度
$b=V_\pi(s_t)$ ，因为 $V_\pi(s_t)$ 很接近 $Q_\pi(s_t,A_t)$

12. REINFORCE with Baseline

12.1 推导

$g(a_t)=\frac{\partial ln \pi(a_t|s_t;\theta)}{\partial \theta}*(Q_\pi(s_t,a_t)-V_\pi(s_t))$

公式中 $Q_\pi$ 和 $V_\pi$ 都不知道

$Q_\pi(s_t,a_t)=E[U_t|s_t,a_t]$ ，用观测到的 $u_t$ 近似 $Q_\pi(s_t,a_t)$ (REINFORCE 算法)

从 t 时刻开始一直到游戏结束观测到的轨迹： $s_t,a_t,r_t,...,s_n,a_n,r_n$
从 t 时刻开始所有的奖励加权求和得到回报 $u_t=\sum_{i=t}^{n}\gamma^{i-t}\cdot r_i$ ，即为动作价值 $Q_\pi$ 的无偏估计

$V_\pi$ 可以用神经网络 $v (s; w)$ 近似

则近似的策略梯度为：
$\begin{aligned} \frac{\partial V_\pi(s_t)}{\partial \theta} &\approx g(a_t)\\ &\approx \frac{\partial ln \pi(a_t|s_t;\theta)}{\partial \theta} \cdot(u_t-v(s_t;w))]. \end{aligned}$

共三次近似

用蒙特卡洛近似期望，将策略梯度近似为随机梯度 $g(a_t)$
将动作价值 $Q_\pi(s_t,a_t)$ 用回报 $u_t$ 近似
将状态价值函数 $V_\pi$ 用神经网络 $v (s; w)$ 近似

策略网络用来控制 agent，价值网络起辅助作用，作为 baseline，帮助训练策略网络

12.2 网络搭建

1. 策略网络

2. 状态价值网络

3. 参数共享

4. 更新策略网络

$\theta \leftarrow \theta+\beta \cdot \frac{\partial ln \pi(a_t|s_t;\theta)}{\partial \theta} \cdot(u_t-v(s_t;w))\\ \theta \leftarrow \theta+\beta \cdot \delta_t \cdot \frac{\partial ln \pi(a_t|s_t;\theta)}{\partial \theta}\\$

将价值网络的预测与真实观测 $u_t$ 的差记为 $-\delta_t$

5. 更新价值网络

用神经网络 $v(s_t;w)$ 近似函数 $V_\pi(s_t)=E[U_t|s_t].$

预测误差： $\delta_t=v(s_t;w)-u_t$
梯度： $\frac{\partial \delta_t^2/2}{\partial w}=\delta_t \cdot \frac{\partial v(s_t;w)}{\partial w}$
梯度下降： $w\leftarrow w-\alpha \cdot \delta_t \cdot \frac{\partial v(s_t;w)}{\partial w}$

6.总览

从开始到一直到结束的所有 transition
用所有观测到的奖励计算回报 Return： $u_t=\sum_{i=t}^{n}\gamma^{i-t}\cdot r_i.$
Error： $\delta_t=v(s_t;w)-u_t.$
用策略梯度更新策略网络： $\theta \leftarrow \theta+\beta \cdot \delta_t \cdot \frac{\partial ln \pi(a_t|s_t;\theta)}{\partial \theta}.$
更新价值网络： $w\leftarrow w-\alpha \cdot \delta_t \cdot \frac{\partial v(s_t;w)}{\partial w}$

13. Advantage Actor-Critic（A2C）

将 baseline 应用在 Actor-Critic 中

Actor

策略网络 $\pi(a|s;\theta)$ 近似策略函数 $\pi(a|s)$ ，控制 agent 运动

Critic

价值网络 $v (s; w)$ 近似状态价值函数 $V_\pi(s)$ ，评价状态 s 的好坏

13.2 推导

定理1：
$\begin{aligned} Q_\pi(s_t,a_t) &=E_{S_{t+1},A_{t+1}}[R_t+\gamma \cdot Q_\pi(S_{t+1},A_{t+1})]\\ &=E_{S_{t+1}}[R_t+\gamma \cdot E_{A_{t+1}}[Q_\pi(S_{t+1},A_{t+1})]]\\ &=E_{S_{t+1}}[R_t+\gamma \cdot V_\pi(S_{t+1})]. \end{aligned}$
蒙特卡洛近似： $Q_\pi(s_t,a_t)\approx r_t + \gamma \cdot V_{\pi}(s_{t+1})$

定理2：
$\begin{aligned} V_\pi(s_t) &=E_{A_t}[Q_\pi(s_t,A_t)]\\ &=E_{A_t}[E_{S_{t+1}}[R_t+\gamma \cdot V_\pi(S_{t+1})]]\\ &=E_{A_t,S_{t+1}}[R_t+\gamma \cdot V_\pi(S_{t+1})] \end{aligned}$

蒙特卡洛近似： $V_\pi(s_t)\approx r_t + \gamma \cdot V_{\pi}(s_{t+1})$

对策略梯度的近似
$g(a_t)\approx \frac{\partial ln \pi(a_t|s_t;\theta)}{\partial \theta} \cdot(r_t+\gamma \cdot v(s_{t+1};w)-v(s_t;w)).$

右边括号内的值即为优势（advantage），即价值网络对动作 a_t 的评价，若 a_t 很好，那么左边比右边大，两者之差是正值，若 a_t 不好，两者之差就是负的，两者之差可以反映出来 a_t 带来的优势。

13.1 训练

训练策略网络需要用到状态 s、动作 a、价值网络提供的优势，训练价值网络需要状态 s 和奖励 r

观测到一个 transiton $s_t,a_t,r_t,s_{t+1}$
TD target： $y_t=r_t+\gamma \cdot v(s_{t+1};w)$
TD error： $\delta_t=v(s_t;w)-y_t$
更新策略网络： $\theta \leftarrow \theta - \beta \cdot \delta_t \cdot \frac{\partial ln \pi(a_t|s_t;\theta)}{\partial \theta}$
更新价值网络： $w\leftarrow w-\alpha \cdot \delta_t \cdot \frac{\partial v(s_t;w)}{\partial w}$

将 A2C 改为多步 TD Target

m 个连续的 transition： ${(s_{t+i},a_{t+i},r_{t+i},s_{t+i+1})}$
TD target： $y_t=\sum_{i=0}^{m-1}\gamma^i \cdot r_{t+i}+\gamma^{m}\cdot c(s_{t+m};w).$
后续步骤和原本的 A2C 一样

REINFORCE with baseline 和 A2C 对比

神经网络结构完全一样，REINFORCE 是 A2C 的一种特例
A2C 的价值网络用来评价 actor 的表现，REINFORCE 中的价值网络仅仅是 baseline，不会评价动作好坏，降低随机梯度造成的方差
A2C 的 $y_t$ 是部分基于真实观测，部分基于价值网络的估计，REINFORCE 是完全基于真实观测来计算

14. 连续控制

不能直接将 DQN 用于连续控制问题，连续控制中，有无穷多种动作，而 DQN 的输出是每个动作的打分。DQN 和策略网络都不能直接用于连续控制。

要将DQN 或策略网络用于连续控制，就需要将连续空间离散化，空间维度越高，离散化后的动作就越多，指数增长，会造成维度灾难，动作数量变多之后，导致训练困难，DQN 或策略网络的结果都不会很好，因次离散化只适合自由度很小的问题。

14.1 Deterministic Policy Gradient（DPG，确定策略梯度）

DPG 是一种 Actor-Critic 方法

策略网络（Actor）控制 agent 运动，根据状态 s 做出决策 a（输出直接是要执行的动作，故为 Deterministic），价值网络（Critic）基于状态 s 给动作 a 打分，从而指导策略网络改进

策略网络： $a=\pi(s;\theta).$
价值网络： $q (s, a; w)$

1. TD 算法更新价值网络

transition： $s_t,a_t,r_t,s_{t+1})$
价值网络在 t 时刻的预测： $q_t =q(s_t,a_t;w)$
价值网络在 t+1 时刻的预测： $q_{t+1} =q(s_{t+1},a_{t+1}^{'};w),\ a^{'}_{t+1}=\pi(s_{t+1};\theta).$

$a_{t+1}^{'}不执行，只是用于更新价值网络)$
TD error： $\delta_t=q_t-(r_t+\gamma \cdot q_{t+1}).$
更新参数： $w\leftarrow w-\alpha \cdot \delta_t \cdot \frac{\partial q(s_t,a_t;w)}{\partial w}$

2. 用确定策略梯度更新策略网络

和之前的策略梯度有所差异

价值网络评价动作 a 的好坏，从而指导策略网络进行改进，让价值网络的输出越大越好。在输入状态 s 固定且价值网络固定的情况下，影响价值网络的输出 value 的因素就只有策略网络，要更新策略网络，使得 value 变大，故计算 $q (s, a; w)$ 关于 $\theta$ 的梯度，梯度上升更新策略网络，使得价值网络 $q (s, a; w)$ 的输出 value 变大，这个梯度即为 ”确定策略梯度（DPG）“， $g=\frac{\partial q(s,\pi(s;\theta);w)}{\partial \theta}=\frac{\partial a}{\partial \theta} \cdot \frac{\partial q(s,a;w)}{\partial a}$ ，梯度上升更新 $\theta$ ： $\theta \leftarrow \theta + \beta \cdot g$ 。

3. 用 Target Networks 对价值网络的训练进行改进

在更新价值网络的时候，TD target 一部分是真实观测 $r_t$ ，另一部分是价值网络自己的预测 $q_{t+1}$ ， $q_t$ 要接近 TD target，存在 Bootstrapping 问题，可能高估也可能低估。

可以用 Target Networks 改进。

策略网络做出决策： $a=\pi(s;\theta)$
用确定策略梯度更新策略网络： $\theta \leftarrow \theta + \beta \cdot \frac{\partial a}{\partial \theta} \cdot \frac{\partial q(s,a;w)}{\partial a}$
价值网络计算 t 时刻价值： $q_t=q(s,a;w).$
用 Target Network $\pi(s;\theta^-), \ q(s,a;w^-)$ 计算 t+1 时刻的价值： $q_{t+1}$
TD error： $\delta_t=q_t-(r_t+\gamma \cdot q_{t+1}).$
更新价值网络： $w\leftarrow w-\alpha \cdot \delta_t \cdot \frac{\partial q(s,a;w)}{\partial w}$

更新 target networks

设置超参： $\tau\in(0,1).$
更新参数

$w^-\leftarrow \tau \cdot w + (1-\tau)\cdot w^ -.$

$\theta^-\leftarrow \tau \cdot \theta+(1-\tau)\cdot\theta^-$

target networks 的参数依赖于价值网络和策略，不能避免 Bootstrapping，但在一定程度上有所缓解。

其他改进方式

Experience replay
Multi-step TD target

14.2 随机策略和确定策略对比

	Stochastic Policy	Deterministic Policy
Policy	$\pi(a	s;\theta)$
Output	动作空间的概率分布	要执行的动作
Control	在动作空间的概率分布中随机抽样得到要执行的动作	使用输出的动作
Application	主要用于离散控制	连续控制

14.3 用随机策略做连续控制

1. 构造策略网络

若动作 a 是 d 维向量，用 $\mu$ 、 $\sigma$ 分别表示计算均值和标准差的函数，输入状态 s，输出为 d 维向量， $u_i$ 和 $\sigma_i$ 分别表示 $\mu(s)$ 、 $\sigma(s)$ 输出的第 i 个元素，用正态分布 $N(\mu_i,\sigma_i^2)$ 的概率密度函数作为策略函数。
$\pi(a|s)=\prod_{i=1}^{d}\frac{1}{\sqrt {6.28} \sigma_i} \cdot exp(-\frac{(a_i-\mu_i)^2}{2\sigma_i^2}).$
此时，并不知道 $\mu$ 、 $\sigma$ 这两个函数具体形式，故策略函数 $\pi$ 还不知道。

用神经网络来做函数近似，用 $\mu(s;\theta^\mu)$ 近似 $\mu$ ，对于 $\sigma$ ，最好不要直接近似，而是近似方差的对数，用神经网络 $\rho(s;\theta^\rho)$ 近似 $\rho$ ，其中 $\rho_i=ln\ \sigma_i^2, i=1,...,d.$

2. 网络搭建

用这个网络计算均值和方差的对数

$\hat\mu=\mu(s;\theta^\mu)\\ \hat\rho=\rho(s;\theta^\rho).$

计算方差 $\hat\sigma_i^2=exp(\hat\rho_i),i=1,...,d.$

现在知道了方差和均值，这个正态分布也就知道了， $a_i\sim N(\hat\mu_i,\hat\sigma_i^2)$ ，即可进行随机抽样。每次观测到状态 s，让神经网络计算均值和方差，随机生成动作 a，让 agent 执行动作，即可控制 agent 运动。

3. 训练

为了计算策略梯度，需要搭建辅助神经网络，然后用策略梯度方法来训练策略网络。

$\pi(a|s;\theta^\mu,\theta^\rho)=\sum_{i=1}^{d}[-ln\ \sigma_i-\frac{(a_i-\mu_i)^2}{2\sigma_i^2}]+const=\sum_{i=1}^{d}[-\frac{\rho_i}{2}-\frac{(a_i-\mu_i)^2}{2\cdot exp(\rho_i)}]+const=ln\ \pi(a|s;\theta)$

将辅助神经网络记为： $f(s,a;\theta)=\sum_{i=1}^{d}[-\frac{\rho_i}{2}-\frac{(a_i-\mu_i)^2}{2\cdot exp(\rho_i)}]$ ，是 $\mu$ 、 $\rho$ 、 $a$ 的函数，将三者映射到一个实数，即为辅助神经网络的输出，反向传播可以计算梯度 $\frac{\partial f}{\partial \theta}$ .

网络结构如下

小结：用神经网络来做函数近似，用 $\mu(s;\theta^\mu)$ 近似 $\mu$ ，对于 $\sigma$ ，知道了方差和均值，也就知道了策略网络，从而控制 agent 运动，辅助神经网络用于训练， $\frac{\partial f}{\partial \theta}$ 计算策略梯度。

4. 计算策略梯度

随机策略梯度： $g(a)=\frac{\partial ln \pi(a|s;\theta)}{\partial \theta}*Q_\pi(s,a)=\frac{\partial f(s,a;\theta)}{\partial \theta} \cdot Q_\pi(s,a).$ ， $\frac{\partial f(s,a;\theta)}{\partial \theta}$ 这一项可以直接计算梯度， $Q_\pi(s,a)$ 未知，需要近似。

可以使用 REINFORCE 或 Actor-Critic 方法，用前者的话，使用蒙特卡洛近似，用观测到的 $u_t$ 来近似。

更新网络： $\theta\leftarrow \theta+\beta \cdot \frac{\partial f(s,a;\theta)}{\partial \theta} \cdot u_t$
用 Actor-Critic：使用神经网络（价值网络） $q (s, a; w)$ 近似 $Q_\pi$ 。

更新网络： $\theta\leftarrow \theta+\beta \cdot \frac{\partial f(s,a;\theta)}{\partial \theta} \cdot q(s,a;w)$

价值网络用 TD 算法来学习

15. Trust Region Policy Optimization(TRPO，置信域策略优化)

和之前的策略梯度相比，计算量更大，但是表现更稳定，收敛更快

15.1 Trust Region（置信域）

问题：寻找一个 $\theta$ ， $\theta^\star=argmax_\theta\ J(\theta)$

梯度上升
1. 计算梯度： $g=\frac{\partial\ J(\theta)}{\partial\ \theta}|_{\theta=\theta_{old}}$
2. 梯度上升： $\theta_{new}\leftarrow \theta_{old}+\alpha \cdot g$
随机梯度上升

有些情况下，梯度算不出来，如 $J(\theta)=E_S[V(S;\theta)]$ ，求期望需要定积分，但积分可能算不出来，可以用随机梯度（期望的蒙特卡洛近似）代替梯度，即随机梯度上升。

关于 S 做随机抽样，观测到 s，然后求梯度， $g=\frac{\partial\ V(s;\theta)}{\partial\ \theta}|_{\theta=\theta_{old}}$ （g 是随机梯度，是对目标函数梯度的蒙特卡洛近似），梯度上升， $\theta_{new}\leftarrow \theta_{old}+\alpha \cdot g$ ，

有 $\theta_{old}$ 的邻域 $N(\theta_{old})=\{\theta|\parallel \theta-\theta_{old}\parallel_2\le\Delta\}$ ，若有一个函数 $L(\theta|\theta_{old})$ 在该邻域内非常接近目标函数 $J(\theta)$ ，那么这个邻域就叫做置信域。

15.2 Trust region algorithms（置信域算法）

在置信域上人为构造的函数 L 非常接近目标函数 J，因此可以用 L 代替 J，在该置信域上寻找 L 的最大值，最大化 L 的点也可以使得 J 变大

置信域算法核心步骤（重复）：

近似。

给定旧的变量 $\theta_{old}$ ，构造函数 L，使得 L 可以在 $\theta_{old}$ 的邻域内近似 J。

构造 L 的方法：如 J 的二阶泰勒展开，J 的蒙特卡洛近似等。
最大化。

在置信域中搜索 L 的最大值，找到一个新的 $\theta_{new}$ ， $\theta_{new}\leftarrow argmax_{\theta\in N(\theta_{old})}L(\theta|\theta_{old})$

通常让置信域的半径逐渐变小

15.3 推导目标函数

状态价值函数
$\begin{aligned} V_{\pi}(s) &=\sum_a\pi(a|s;\theta)\cdot Q_\pi(s,a)\\ &=\sum_a\pi(a|s;\theta_{old})\cdot \frac{\pi(a|s;\theta)}{\pi(a|s;\theta_{old})} \cdot Q_\pi(s,a)\\ &=E_{A\sim\pi(\cdot|s;\theta_{old})}[\frac{\pi(A|s;\theta)}{\pi(A|s;\theta_{old})} \cdot Q_\pi(s,A)] \end{aligned}$
目标函数 J
$\begin{aligned} J(\theta) &=E_S[V_\pi(S)]\\ &=E_S[E_{A}[\frac{\pi(A|s;\theta)}{\pi(A|s;\theta_{old})} \cdot Q_\pi(s,A)]]\\ &=E_{S,A}[\frac{\pi(A|s;\theta)}{\pi(A|s;\theta_{old})} \cdot Q_\pi(s,A)] \end{aligned}$

15.4 TRPO

策略梯度算法快，但表现不稳定。TRPO 稳定，观测到同样数量的奖励，TRPO 可以训练出更好的策略网络，

对超参的设置比较敏感，学习率的设置对结果影响很大

策略梯度算法的随机性很大，算法波动很大

1. Approximation

目标函数 J 中，随机变量状态 S 的随机性来自于状态转移，agent 实际观测到的状态可以看作是从环境中随机抽样得到的。

对 J 做蒙特卡洛近似，从环境抽随机抽样得到状态 s，从策略网络 $\pi$ 中随机抽样得到动作 a。让 agent 和环境交互，得到一条轨迹， $s_1,a_1,r_1,s_2,a_2,r_2,...,s_n,a_n,r_n.$

则基于 n 个观测值对 J 的蒙特卡洛近似为
$L(\theta|\theta_{old})=\frac{1}{n}\sum_{i=1}^{n}\frac{\pi(a_i|s_i;\theta)}{\pi(a_i|s_i;\theta_{old})} \cdot Q_\pi(s_i,a_i).$
对 $Q_\pi$ 做近似，基于观测到的轨迹，计算折扣回报 $u_i=r_i+\gamma \cdot r_{i+1}+\gamma^2\cdot r_{i+2} + ...+\gamma^{n-i}\cdot r_n$ ，用其作为 $Q_\pi$ 的蒙特卡洛近似。则可得：
$\tilde L(\theta|\theta_{old})=\frac{1}{n}\sum_{i=1}^{n}\frac{\pi(a_i|s_i;\theta)}{\pi(a_i|s_i;\theta_{old})} \cdot u_i$

2. Maximization

即时近似做的不好，或者最大化做的不好，新的解 $\theta_{new}$ 也不会离 $\theta_{old}$ 太远。

在置信域 $N(\theta_{old})$ 中求最大化，找到 $\theta_{new}$
$\theta_{new}\leftarrow argmax_{\theta}\tilde L(\theta|\theta_{old});\ s.t.\ \theta\in N(\theta_{old}).$

要让新的解离原本的 $\theta$ 不要太远，需要衡量两者之间的距离。

方式1： $\parallel\theta-\theta_{old}\parallel\le\Delta.$
方式2： $\frac{1}{n}\sum_{i=1}^{n}KL[\pi(\cdot|s_i;\theta_{old})||\pi(\cdot|s_i;\theta)]\lt\Delta.$

16. Multi-Agent Reinforcement Learning（多智能体强化学习）

16.1 Settings（常见设定）

Fully cooperation（完全合作）

agents 的利益一致，获得的奖励相同，有共同的目标（协同完成某个任务）
Fully competitive（完全竞争）

一方的收益是另一方的损失（零和博弈、机器人格斗）
Mixed Cooperative & competitive（合作竞争的混合）

机器人足球中，球队内部合作，球队间竞争
Self-interested（利己主义）

每个 agent 只想最大化自身利益，至于其他 agent 的利益是否受损或收益，并不心（股票交易系统）

16.2 Terminologies

n 个 agent，S 是状态，Aⁱ 表示第 i 个 agent 的动作。状态转移函数为 $p(s^{'}|s,a^1,...a^n)=P(S^{'}=s^{'}|S=s,A^1=a^1,...,A^n=a^n)$ . 下一个状态 S^’受所有 agents 的动作的影响，即每个 agents 都会影响下一个状态，从而相互影响。

奖励

Rⁱ 表示第 i 个agent 获得的奖励

合作关系中： $R^1=R^2=...=R^n.$

竞争中： $R^1 \propto -R^2$

$R^i$ 不仅取决于自己的动作，也取决去其他 agents 的动作

$R_t^i$ 是第 i 个 agent 在 t 时刻的奖励，依赖于当前的状态 $S_t$ 和其他 agent 的动作 $A_t^1,A_t^2,...A_t^n$

回报

第 i 个 agent 在时间 t 获得的回报，从时间 t 开始第 i 个 agent 在未来获得的奖励总和 $U_t^i=R_t^i+R_{t+1}^i+...$

折扣回报： $U_t^i=R_t^i+\gamma \cdot R_{t+1}^i+\gamma^2 \cdot R_{t+2}^i+...$ ，依赖于未来所有的状态 ${S_t,S_{t+1},S_{t+2},...\}$ 以及未来所有的动作 ${A_t^i,A_{t+1}^i,A_{t+2}^i,...\}$

策略网络

每个 agent 都有自己的策略网络 $\pi(a^i|s;\theta^i)$

有的场景下，策略网络是可以相同的(可互换），如无人驾驶汽车 $\theta^1=\theta^2=\theta^3...$

足球机器人中策略网络参数不能互换，因为每个 agent 担任的角色可能不同

状态价值函数
$V^i(s_t;\theta^1,...,\theta^n)=E[U_t^i|S_t=s_t]$
在当前状态 $S_t$ 已经可以被观测到时，用期望消除掉除 $S_t$ 之外的所有状态和所有 agent 的动作，那么状态价值函数就只与 $S_t$ 有关。

任何一个 agent 的动作 $A_t^j \sim \pi(\cdot|s_t;\theta^j)$ 都会对状态价值函数产生影响。
如果一个 agent 的策略网络发生变化，那么所有 agent 的状态价值函数都会发生变化

16.3 Convergence（收敛问题）

无法通过改进策略来获得更大的期望回报，即所有 agent 都已经找不到更好的策略，已经收敛，可以终止训练。

单个 agent 的情况下，若 $J(\theta)$ 停止增长，则说明网络收敛，多个 agent 的情况下，判断收敛需要用到 Nash Equilibrium。

Nash Equilibrium，当所有 agent 都不改变策略的情况下，任意一个 agent 单独改变策略，不会让自己的回报更高。

multi-agent 的强化学习比较困难，直接用 single-agent 的学习算法来进行学习，效果并不好。

各个 agent 的目标函数都不一样，因为只和自己的策略网络参数有关，自己更新自己的参数，忽略了 agent 之间的关系以及交互，可能不能收敛，一个 agent 策略的更新，会导致所有 agent 的目标函数发生变化，因为有可能一个 agent 策略已经达到最优，但是由于另一个 agent 策略的改变，导致前一个 agent 的目标函数发生变化，那么前一个 agent 也得继续更新。

16.4 agents 之间的通信方式

Fully decentralized（去中心化）

每个 agent 都是独立的，独立和环境交互，用自己的观测和奖励更新自己的策略（训练和执行都是独立进行的），agents 相互之间没有通信。
Fully centralized（完全中心化）

所有 agents 都将信息传送给中央控制器，中央控制器知道所有 agents 的观测、动作、奖励，agent 上没有策略网络，自己不做决策，只执行指令，决策都是由中央做的。
Centralized training with decentralized execution（中心化训练 & 去中心化执行）

每个 agents 有自己的策略网络，训练时有中央控制器，会收集所有 agents 的观测、动作和奖励，中央控制器帮助 agents 训练策略网络，训练结束后，每个 agent 根据自己的策略网络进行决策，不用再和中央控制器通信。