【RL】Bellman Optimality Equation（贝尔曼最优等式）

Lecture3: Optimal Policy and Bellman Optimality Equation

Definition of optimal policy

state value可以被用来去评估policy的好坏，如果：
$v_{\pi_1}(s) \ge v_{\pi_2}(s) \;\;\;\;\; \text{for all } s \in S$
那么， $\pi_1$ 比 $\pi_2$ 更优。

定义：

如果 $v_{\pi^*}(s) > v_{\pi}$ 对所有的 $s$ 都成立，那么policy $\pi$ 就是最优的，标记为 $\pi^*$ 。

BOE: Introduction

回顾元素形式的Bellman等式：
$v(s)=\sum_a \pi(a | s) \left( \sum_rp(r | s, a) + \gamma \sum_{s'}p(s' | s, a)v(s') \right)\;\;\;\;\; \forall s \in S$
则，元素形式的Bellman最优等式（Bellman Optimiality Equation）为：
$\begin{align*} v(s)&=max_{\pi} \sum_a \pi(a | s) \left( \sum_rp(r | s, a) + \gamma \sum_{s'}p(s' | s,a) v(s') \right)\;\;\;\;\; \forall s \in S \\ &=max_{\pi}\sum_a \pi(a | s)q(s | a) \;\;\;\;\; s \in S \end{align*}$
其中：

$p (r ∣ s, a)$ 、 $p (s^{'} ∣ s, a)$ 是已知的
$v (s)$ 、 $v (s^{'})$ 是未知需要计算的

矩阵形式的Bellman最优等式：
$\mathbf{v} = max_{\pi}(\mathbf{r}_{\pi} + \gamma \mathbf{P}_{\pi} \mathbf{v})$
其中：
$[\mathbf{r}_{\pi}]_s := \sum_a \pi(a | s)\sum_rp(r | s, a)r \\ [\mathbf{P}_{\pi}]_{s, s'} = p(s' | s) := \sum_a \pi(a | s) \sum_{s'} p(s' | s, a)$

BOE: Maximization on the right-hand side

考虑元素形式Bellman最优等式：
$\begin{align*} v(s)&=max_{\pi} \sum_a \pi(a | s) \left( \sum_rp(r | s, a) + \gamma \sum_{s'}p(s' | s,a) v(s') \right)\;\;\;\;\; \forall s \in S \\ &=max_{\pi}\sum_a \pi(a | s)q(s | a) \;\;\;\;\; s \in S \end{align*}$
因为 $\sum_a \pi(a | s) = 1$ ，可得：
$max_{\pi} \sum_a \pi(a | s)q(s | a) =max_{a \in \mathcal{A}(s)} q(s, a)$
当策略最优时：
$\pi(a | s) = \left\{\begin{matrix} 1 & a = a^*\\ 0 & a \ne a^* \end{matrix}\right.$
其中： $a^* = \text{argmax}_a q(s, a)$

BOE: Rewtite as $v = f (v)$

考虑矩阵形式Bellman最优等式：
$\mathbf{v} = max_{\pi}(\mathbf{r}_{\pi} + \gamma \mathbf{P}_{\pi} \mathbf{v})$
使：
$f(\mathbf{v}) := max_{\pi}(\mathbf{r}_{\pi} + \gamma \mathbf{P}_{\pi} \mathbf{v})$
那么，Bellman最优等式就变为：
$\mathbf{v} = f(\mathbf{v})$
其中：
$[f(v)]_s = max_{\pi} \sum_a \pi(a | s)q(s, a) \;\;\;\;\; s\in S$

Contraction mapping theorem

Fixed Point：对于 $\in X$ ，如果其为 $\rightarrow X$ 的fixed point（不动点），那么其满足：
$f (x) = x$
Contraction Mapping(or Contraction Function)： $f$ 是contraction mapping，如果：
$\| f(x_1) - f(x_2) \| \le \gamma \| x_1 - x_2 \|$
其中， $\gamma \in (0, 1)$

$\gamma$ 必须严格小于1
$\| \cdot\|$ 可以是任何向量形式

对于任何满足 $x = f (x)$ 的等式形式，如果 $f$ 是contractnon mapping，那么:

Existence：存在一个fixed point，满足 $f(x^*) = x^*$
Uniquencess：fixed point $x^*$ 是唯一的
Algorithm：考虑序列 ${ x_k \}$ ，其中 $x_{k+1}=f(x_k)$ ，那么当 $\rightarrow \infty$ 时 $x_k \rightarrow x^*$ 。而且，收敛速度时指数级。

例：

$x = 0.5 x$ ，其中 $f (x) = 0.5 x$ 而且 $\in \mathbb{R}$ 。

$x^*=0$ 是唯一的fixed point。其可以被迭代求解为：
$x_{k+1}=0.5x_k$
$x = A x$ ，其中 $f (x) = A x$ 并且 $\in \mathbb{R}^n$ ， $\|A\| <1$ 。

$x^*=0$ 是唯一的fixed point。其可以被迭代求解为:
$x_{k+1} = Ax_k$

BOE: Solution

考虑Bellman最优等式：
$\mathbf{v} = f(\mathbf{v}) = max_{\pi}(r + \gamma \mathbf{P}_{\pi}\mathbf{v})$
Contraction Property： $f (v)$ 是contraction mapping 满足：
$\|f(v_1) - f(v_2)\| \le \gamma \|v_1 - v_2\|$
其中， $\gamma$ 是discount rate。

对于BOE $\mathbf{v} = f(\mathbf{v}) = max_{\pi}(\mathbf{r}_{\pi} + \gamma \mathbf{P}_{\pi} \mathbf{v})$ ，其总存在一个最优解 $\mathbf{v}^*$ ，而且 $\mathbf{v}^*$ 是唯一的。最优解可以被迭代求解为：
$\mathbf{v}_{k+1}=f(\mathbf{v}_k) = max_{\pi}(\mathbf{r}_{\pi} + \gamma \mathbf{P}_{\pi}\mathbf{v}_k)$
给定任何初始猜测 $v^0$ ，该序列 ${v_k}$ 都会以指数速度快速收敛到 $v^*$ 。收敛速度由 $\gamma$ 决定。

迭代算法：

对于矩阵形式的Bellman最优等式：
$\mathbf{v}_{k+1}=f(\mathbf{v}_k) = max_{\pi}(\mathbf{r}_{\pi} + \gamma \mathbf{P}_{\pi}\mathbf{v}_k)$
其元素形式为：
$\begin{align*} v_{k+1}(s)&=max_{\pi} \pi(a|s) \left( \sum_r p(r | s, a) + \gamma \sum_{s'} p(s' | s, a)v_k(s') \right)\\ &=max_{\pi} \sum_a \pi(a|s)q_k(s, a)\\ &=max_a q_k(s, a) \end{align*}$
Procedure Summary：

对于任何 $s$ ，其最近估计值为 $v_k(s)$
对于任何 $\in \mathcal{A}(s)$ ，计算 $q_k(s, a) = \sum_r p(r | s, a) + \gamma \sum_{s'} p(s' | s, a)v_k(s')$
对 $s$ 计算policy $\pi_{k+1}$ ：
$\pi_{k+1}(a|s)=\left\{\begin{matrix} 1 & a = a^*_k(s)\\ 0 & a \ne a^*_k(s) \end{matrix}\right.$
其中， $a^*_k(s) = \text{argmax}_a q_k(s, a)$
计算 $v_{k+1}(s) = \text{max}_a q_k(s, a)$

例：

对于下图：

在这里插入图片描述

action： $a_{\ell},a_0,a_r$ 分别代表向左、保持不变，向右。

reward：进入target area：+1，试图突破边界：-1。

$q (s, a)$ 值表：

在这里插入图片描述

考虑 $\gamma=0.9$

算法目标是发现 $v^*(s_i)$ 和 $\pi^*$ 。

k=0：

v-value： $v_0(s_1)=v_0(s_2)=v_0(s_3)=0$

q-value：

在这里插入图片描述

greedy policy:
$\pi(a_r | s_1) = 1\\ \pi(a_0 | s_2) = 1\\ \pi(a_{\ell} | s_3) = 1$

BOE: Optimality

假设 $v^*$ 是Bellman最优等式的解，其满足：
$\mathbf{v}^* = max_{\pi}(\mathbf{r}_{\pi} + \gamma \mathbf{P}_{\pi} \mathbf{v}^*)$
假设：
$\mathbf{\pi}^* = \text{argmax}_{\pi} (\mathbf{r}_{\pi} + \gamma \mathbf{P}_{\pi}\mathbf{v}^*)$
那么：
$\mathbf{v}^* = \mathbf{r}_{\pi} - \gamma \mathbf{P}_{\pi^*}\mathbf{v}^*$
因此， $\pi^*$ 是策略， $v^*=v_{\pi}^*$ 是对应的state value。

Theorem (Policy Optimality)：

假设 $v^* $是 $max\pi(r_\pi + \gamma P_\pi v)$ 的唯一解， $v_\pi$ 是对于任何给定policy $\pi$ 满足 $v_\pi = r_\pi + \gamma P_\pi v_\pi$ 的state value函数，则：
$v^* \ge v_{\pi} \;\;\;\;\; \forall \pi$
Theorem (Greedy Optimal Policy)：

对于任何 $\in S$ ，确定的greedy policy是：
$\pi^*(a| s)= \left\{\begin{matrix} 1 & a = a^*(s) \\ 0 & a \ne a^*(s) \end{matrix}\right. \;\;\;\;\; (1)$
是BOE求得的最优policy。其中：
$a^*(s) = \text{argmax}_a q^*(a, s)$
其中 $q^*(s,a) := \sum_r p(r | s, a) + \gamma \sum_{s'} p(s' | s, a) v^*(s')$

Analyzing optimal policies

考虑BOE等式：
$v(s)=max_{\pi} \pi(a|s) \left( \sum_r p(r | s, a) + \gamma \sum_{s'} p(s' | s, a)v_k(s') \right)$
有三个要素：

Reward: $r$
System model： $p (s^{'} ∣ s, a)$ ， $p (r ∣ s, a)$
Discount rate: $\gamma$
$v(s),v(s'),\pi(a|s)$ 是未知需要计算的。

接下来，通过改变 $r$ 和 $\gamma$ 来讨论optimal policy的变化。

通过求解BOE得到最优policy和对应的最优state value。

在这里插入图片描述

敢于冒险的最优策略：进入forbidden area！

改变 $\gamma = 0.9$ 到 $\gamma = 0.5$

在这里插入图片描述

最优policy变得短视！避开所有forbidden area！

改变 $\gamma=0$

在这里插入图片描述

最优policy变得极其短视！另外，选择立即reward最大的行动！达不到目标！

如果加大进入forbidden area的处罚力度（改变 $r_{forbidden=-1}$ 到 $r_{forbidden}=-10$ ）

在这里插入图片描述

最优的政策也会避开forbidden area。

Theorem （Optimal Policy Invariance）：

考虑一个马尔可夫决策过程，其中 $v^* \in \mathbb{R}^{|S|}$ 作为满足 $max_\pi(r_\pi + γP_\pi v^*)$ 的最优状态值。如果每个奖励 $r$ 通过仿射变换变为 $a r + b$ ，其中 $\in \mathbb{R}$ 且 $\ne 0$ ，则对应的最优状态值 $v^{'}$ 也是 $v^*$ 的仿射变换。
$v^* + \frac{b}{1 - \gamma} \mathbf{1}$
其中， $\gamma \in (0, 1)$ 是discount rate， $\mathbb{1} = [1, ..., 1]^T$ 。因此，最优policy对于reward信号的仿射变换是不变的。