【强化学习05】从Q学习到深度Q学习

深度Q学习（Deep Q-Learning, DQN）是将深度学习与Q学习结合起来的一种强化学习方法，利用神经网络来近似Q值函数，解决传统Q学习在大规模或连续状态空间中的局限性。下面详细解释DQN的机理。

Q学习是一种值函数法，它通过学习Q值（状态-动作值）来评估在某个状态下执行某个动作的长期回报。Q学习更新Q值的核心公式为：

$\leftarrow Q(s, a) + \alpha \left[ r + \gamma \max_{a'} Q(s', a') - Q(s, a) \right]$

其中：

深度神经网络（DNN）是一种多层神经网络，能够从大量数据中学习复杂的特征表示。DNN在图像识别、自然语言处理等领域表现优异。

DQN的核心思想是使用深度神经网络来近似Q值函数，即用神经网络参数 $\theta$ 表示Q值函数 $\theta)$ 。

经验回放（Experience Replay）
- 存储代理在环境中经历的每一个转换（状态，动作，奖励，下一个状态）到一个固定大小的经验池中。
- 从经验池中随机抽取小批量（mini-batch）样本进行训练，打破样本间的相关性，提高训练的稳定性。
目标网络（Target Network）
- 使用两个神经网络：一个是当前Q网络（Q-Network），另一个是目标Q网络（Target Q-Network）。
- 目标Q网络的参数 $\theta^-$ 定期复制当前Q网络的参数 $\theta$ ，减少训练的不稳定性。

初始化：
- 初始化经验回放池 $D$ 。
- 初始化Q网络参数 $\theta$ 。
- 初始化目标Q网络参数 $\theta^- = \theta$ 。
重复以下步骤直到收敛：
1. 环境交互：
  - 根据当前策略（例如 ε-greedy 策略）在状态 $s$ 下选择动作 $a$ 。
  - 执行动作 $a$ ，观察即时奖励 $r$ 和下一个状态 $s^{'}$ 。
  - 将转换 $(s, a, r, s^{'})$ 存储到经验回放池 $D$ 中。
2. 经验回放：
  - 从经验池中随机抽取一个小批量样本 $s_i, a_i, r_i, s'_i)$ 。
  - 计算目标Q值 $y_i$ ：
    $y_i = \begin{cases} r_i & \text{if$s'_i$is terminal} \\ r_i + \gamma \max_{a'} Q(s'_i, a'; \theta^-) & \text{otherwise} \end{cases}$
  - 通过最小化均方误差（MSE）损失函数更新Q网络参数 $\theta$ ：
    $L(\theta) = \mathbb{E}_{(s_i, a_i, r_i, s'_i) \sim D} \left[ \left( y_i - Q(s_i, a_i; \theta) \right)^2 \right]$
3. 更新目标网络：
  - 每隔固定的步数，将Q网络参数复制到目标网络：
    $\theta^- = \theta$

在深度Q学习（DQN）中，时序差分方法用于更新Q值，而Q值是通过神经网络进行近似的。时序差分在DQN中的应用体现在以下几个方面：

在传统的Q学习中，Q值的更新依赖于贝尔曼方程，通过TD误差进行更新：

$\delta = r + \gamma \max_{a'} Q(s', a') - Q(s, a)$

在DQN中，这一思想被保留并应用于神经网络的训练中。我们使用目标网络来计算目标Q值，这样可以更稳定地进行更新。

经验回放（Experience Replay）：
- 从经验池中随机抽取一小批样本 $s_i, a_i, r_i, s'_i)$ 。
计算目标Q值（Target Q-Value）：
- 对于每个样本，计算目标Q值 $y_i$ ：
  $y_i = \begin{cases} r_i & \text{if$s'_i$is terminal} \\ r_i + \gamma \max_{a'} Q(s'_i, a'; \theta^-) & \text{otherwise} \end{cases}$
- 这里， $\theta^-$ 是目标网络的参数， $\theta$ 是当前Q网络的参数。
计算TD误差（TD Error）：
- TD误差 $\delta$ 由以下公式计算：
  $\delta_i = y_i - Q(s_i, a_i; \theta)$
更新Q网络参数：
- 通过最小化损失函数 $L(\theta)$ 来更新Q网络的参数 $\theta$ ：
  $L(\theta) = \mathbb{E}_{(s_i, a_i, r_i, s'_i) \sim D} \left[ \left( y_i - Q(s_i, a_i; \theta) \right)^2 \right]$
- 这实际上是在最小化TD误差的平方和。