【Introduction to Reinforcement Learning】翻译解读2

2.2 马尔可夫决策过程（MDPs）

马尔可夫决策过程（MDP）为顺序决策提供了框架，其中动作不仅影响即时奖励，还会影响未来结果。与多臂老虎机问题不同，MDP中的即时奖励与延迟奖励相平衡。在多臂老虎机问题中，目标是确定在状态 $s$ 下执行动作 $a$ 的价值，或者在MDP中，目标是衡量在假定采取最佳动作的情况下，采取动作 $a$ 在状态 $s$ 下的价值。正确评估干预的长期效应需要估计这些状态特定的值。MDPs由状态、动作和奖励 $(S, A, R)$ 组成。离散概率分布被分配给基于前一个状态和动作的随机变量 $R_t$ 和 $S_t$ ，并推导出这些变量的方程。一个系统被认为是马尔可夫的，当一个动作的结果不依赖于过去的动作和状态，仅依赖于当前状态时。马尔可夫性质要求状态包含过去交互的所有重要细节，这些交互影响未来结果。这一点是MDPs在RL中使用的基础。为了描述MDP的动态，我们使用状态转移概率函数 $p (s^{'}, r ∣ s, a)$ ，其定义如下：

$\equiv \Pr\{S_t = s', R_t = r | S_{t-1} = s, A_{t-1} = a\} \tag{9}$

其中，函数 $p$ 定义了MDP的动态。以下状态转移概率、状态-动作-下一个状态三元组的期望奖励可以通过四参数动态函数 $p$ 推导出来。我们可以推导出状态转移概率，状态-动作对的期望奖励，以及状态-动作-下一个状态三元组的期望奖励，具体公式如下：

$\equiv \Pr\{S_t = s' | S_{t-1} = s, A_{t-1} = a\} = \sum_r p(s', r | s, a) \tag{10}$

$\equiv \mathbb{E}\{R_t | S_{t-1} = s, A_{t-1} = a\} = \sum_r r \cdot p(s', r | s, a) \tag{11}$

$\equiv \mathbb{E}\{R_t | S_{t-1} = s, A_{t-1} = a, S_t = s'\} = \sum_{r \in R} r \cdot p(s', r | s, a) \tag{12}$

动作的概念包括所有与学习相关的决策，状态的概念则涵盖了所有为做出这些决策而可用的信息。作为MDP框架的一部分，目标导向行为通过交互被抽象化。任何学习问题都可以简化为三个信号：智能体与环境之间的动作、状态和奖励。许多应用已经证明了该框架的有效性。我们现在能够正式定义和解决RL问题。我们已经定义了奖励、目标、概率分布、环境和智能体等概念。然而，这些概念在定义时并不完全是形式化的。根据我们的论述，智能体的目标是最大化未来的奖励，但这一点该如何在数学上表达呢？回报（return），记作 $G_t$ ，是从时间步 $t$ 开始所收到的奖励的累积和。在阶段性任务或事件驱动任务中，回报定义为：

$G_t \equiv R_{t+1} + R_{t+2} + \dots + R_T \tag{13}$

在这里， $G_t$ 是奖励序列的一个特定函数。阶段性任务是指智能体与环境之间的交互自然地按顺序发生，称为一个回合（episode），而任务则称为阶段性任务。一个很好的例子是经典的“吊死鬼”游戏（hangman）。在每个标准回合结束时，都将恢复初始状态。术语“new games”是指从终结状态之后到达的下一个状态，即结束回合后进入的状态。对于持续任务（如使用具有长期使用寿命的机器人）来说，任务通常会涉及持续的交互，且没有终结状态（ $\infty$ ）。因此，对于持续任务的回报应当有不同的定义。若智能体始终能获得奖励，则回报可能是无限的。对于持续任务，当没有终结状态时，回报 $G_t$ 被定义为未来奖励的折扣总和：

$G_t \equiv R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \dots = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} \tag{14}$

其中， $\gamma$ 是折扣因子（ $\leq \gamma \leq 1$ ）。折扣因子影响未来奖励的当前价值。当 $\gamma < 1$ 时，无限和会收敛到有限值。当 $\gamma = 0$ 时，智能体最大化即时奖励；当 $\gamma \to 1$ 时，未来奖励的影响变得更大。我们还可以递归地表示回报 $G_t$ ：

$G_t \equiv R_{t+1} + \gamma G_{t+1} \tag{15}$

如果奖励是非零且常数的，且 $\gamma < 1$ ，则回报是有限的。对于阶段性任务和持续任务，当 $\infty$ 或 $\gamma = 1$ 时，方程（16）适用：

$G_t \equiv \sum_{k=t+1}^{T} \gamma^{k-t-1} R_k \tag{16}$

2.3 策略与价值函数

价值函数估计智能体处于某一状态（或执行某一动作时）的期望回报。根据选择的动作，这些因素会有所不同。价值函数和策略之间存在联系，策略决定了根据状态选择动作的概率。价值函数可以分为两大类：状态价值函数和动作价值函数。一个状态 $s$ 在策略 $\pi$ 下的价值函数 $v_{\pi}(s)$ 是从状态 $s$ 开始，按照策略 $\pi$ 执行后的期望回报。

$v_{\pi}(s) \equiv \mathbb{E}_{\pi} \left[ \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s \right] \tag{17}$

另一方面，在状态 $s$ 下，采取动作 $a$ 并随后遵循策略 $\pi$ 的动作价值函数 $q_{\pi}(s, a)$ 是从状态 $s$ 开始，执行动作 $a$ 后，按照策略 $\pi$ 继续执行的期望回报：

$q_{\pi}(s, a) \equiv \mathbb{E}_{\pi} \left[ \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s, A_t = a \right] \tag{18}$

需要注意的是， $v$ 和 $q$ 之间的区别，即 $q$ 依赖于在每个状态下采取的动作。对于10个状态和每个状态8个动作的情况， $q$ 需要80个函数，而 $v$ 只需要10个函数。根据策略 $\pi$ ，如果智能体从每个状态获取回报并取平均值，则该平均值会收敛到 $v_{\pi}(s)$ 。通过对每个状态的回报取平均，最终收敛到 $q_{\pi}(s, a)$ 。因此， $v_{\pi}(s)$ 可以递归地表示为：

$v_{\pi}(s) \equiv \mathbb{E}_{\pi}[G_t | S_t = s] = \mathbb{E}_{\pi}[R_{t+1} + \gamma G_{t+1} | S_t = s] = \sum_a \pi(a|s) \sum_{s'} \sum_r p(s', r | s, a)[r + \gamma v_{\pi}(s')] \tag{19}$

方程19是 $v_{\pi}$ 的贝尔曼方程。贝尔曼方程将一个状态的价值与其潜在后继状态的价值联系起来。该图示例说明了从一个状态到它的后继状态的预期。初始状态的价值等于预期下一个状态的折扣价值加上预期的奖励。

$v_{\pi}(s)$ 和 $q_{\pi}(s, a)$ 在强化学习（RL）中具有不同的用途。在评估确定性策略或需要理解智能体处于某一特定状态时的表现时，使用状态价值函数（state-value functions）。在策略评估和策略迭代方法中，策略已被明确地定义，并且评估在该策略下处于特定状态的表现是必要的，这些方法非常有用。使用状态价值函数的优势在于，当存在许多动作时，只需评估状态的值即可，而不需要评估每个动作的值。

另一方面，动作价值函数（action-value functions）用于评估和比较在同一状态下采取不同动作的潜力。它们对于选择动作至关重要，目的是确定每种情境下最合适的动作。由于动作价值函数考虑了从不同动作中获得的期望回报，因此它们在具有随机策略的环境中尤其有用。此外，当处理连续动作空间时，动作价值函数能够提供更为详细的关于动作影响的理解，有助于策略实施的微调。

示例: 考虑一个赌博场景，其中玩家有10美元并面临决定赌多少钱的选择。这个游戏说明了RL中的状态和动作价值函数。状态价值函数（ $v_{\pi}(s)$ ）量化了某状态 $s$ 的期望累积未来奖励，给定策略 $\pi$ 。假设玩家有5美元：

对于固定的1美元赌注， $v_{\pi}(5) = 0.5$ 表示期望获利0.5美元。
对于固定的2美元赌注， $v_{\pi}(5) = -1$ 表示期望损失1美元。

动作价值函数（ $q_{\pi}(s, a)$ ）评估在状态 $s$ 下采取动作 $a$ 的期望累积未来奖励。例如：

$q_{\pi}(5, 1) = 1$ 表示1美元赌注从5美元中获得1美元的累积奖励。
$q_{\pi}(5, 2) = -0.5$ 表示从5美元中下注2美元的期望损失为0.5美元。

这个赌博游戏场景突显了状态和动作价值函数在RL中的作用，指导在动态环境中的最优决策。

2.4 最优策略与最优价值函数

解决RL任务涉及确定一个能够最大化长期奖励的策略。价值函数在策略之间创建了部分排序，允许根据期望的累积奖励进行比较和排名。一个策略 $\pi$ 优于或等于 $\pi_0$ ，当且仅当对于所有状态 $s$ ， $v_{\pi}(s) \geq v_{\pi_0}(s)$ 。最优策略优于或等于所有其他策略，记作 $\pi^*$ ，共享相同的最优状态价值函数 $v_{\pi^*}$ ，该函数被定义为所有可能策略的最大价值函数。

$v_{\pi^*}(s) \equiv \max_{\pi} v_{\pi}(s) \quad \forall s \in S \tag{20}$

最优策略还共享所有可能策略的最优动作价值函数 $q_{\pi^*}$ ，该函数被定义为所有可能策略的最大动作价值函数。

$q_{\pi^*}(s, a) \equiv \max_{\pi} q_{\pi}(s, a) \quad \forall s \in S \tag{21}$

最优动作价值函数 $q_{\pi^*}(s, a)$ 与最优状态价值函数 $v_{\pi^*}(s)$ 之间的关系通过以下方程给出：通过拥有最优动作价值函数 $q_{\pi^*}(s, a)$ ，我们可以找到最优状态价值函数 $v_{\pi^*}(s)$ ，如方程22所示。

$q_{\pi^*}(s, a) = \mathbb{E}[R_{t+1} + \gamma v_{\pi^*}(S_{t+1}) | S_t = s, A_t = a] \tag{22}$

最优价值函数和策略表示RL中的理想状态。然而，由于实际挑战，真正的最优策略在计算密集的任务中很难找到，RL智能体通常通过近似最优策略来应对这些挑战。动态规划（DP）有助于识别最优值，假设环境的精确模型，这是在现实世界中很难获得的挑战。虽然从理论上讲DP方法是合理的，但它们在实际应用中并不总是采样高效的。DP和RL的基本思想是使用价值函数来组织搜索最优策略。

对于有限MDP，环境的动态由给定的概率 $p (s^{'}, r ∣ s, a)$ 描述。最优状态价值函数 $v_{\pi^*}(s)$ 和最优动作价值函数 $q_{\pi^*}(s, a)$ 的贝尔曼最优性方程分别为方程23和方程24：

$v_{\pi^*}(s) = \max_a \mathbb{E}[R_{t+1} + \gamma v_{\pi^*}(S_{t+1}) | S_t = s, A_t = a] = \max_a \sum_{s', r} p(s', r | s, a)[r + \gamma v_{\pi^*}(s')] \tag{23}$

$q_{\pi^*}(s, a) = \mathbb{E}[R_{t+1} + \max_{a'} q_{\pi^*}(S_{t+1}, a') | S_t = s, A_t = a] = \sum_{s', r} p(s', r | s, a)[r + \gamma \max_{a'} q_{\pi^*}(s', a')] \tag{24}$

DP算法通过将贝尔曼方程转化为更新规则来推导。

2.5 策略评估（预测）

策略评估（也称为预测）是指针对给定的策略 $\pi$ ，计算状态价值函数 $v_{\pi}$ 的过程。它用于评估在任何状态下遵循策略 $\pi$ 时的期望回报。状态价值函数 $v_{\pi}(s)$ 定义为从状态 $s$ 开始并随后遵循策略 $\pi$ 所得到的期望回报：

$v_{\pi}(s) = \mathbb{E}_{\pi} \left[ \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} \,\middle|\, S_t = s \right]$

可以将其递归表示为：

$v_{\pi}(s) = \mathbb{E}_{\pi} \left[ R_{t+1} + \gamma v_{\pi}(S_{t+1}) \,\middle|\, S_t = s \right] = \sum_{a} \pi(a \mid s) \sum_{s', r} p(s', r \mid s, a)\,\bigl[r + \gamma\,v_{\pi}(s')\bigr]$

在上述方程中， $\pi(a \mid s)$ 表示在策略 $\pi$ 下，在状态 $s$ 时选择动作 $a$ 的概率。只要 $\gamma < 1$ ，或者在策略 $\pi$ 下所有回合都能够最终结束， $v_{\pi}$ 就能被保证存在且唯一。动态规划（DP）算法的更新通常被称为“期望更新”，因为它们会考虑所有可能的后续状态，而不仅仅是基于单个采样进行更新。