⭐ ▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch3 贝尔曼最优公式 【压缩映射定理】

PPT 截取必要信息。 课程网站做习题。总体 MOOC 过一遍

  • 1、视频 + 学堂在线 习题
  • 2、过 电子书,补充 【下载:本章 PDF 电子书 GitHub 界面链接】 [又看了一遍视频]
  • 3、总体 MOOC 过一遍 习题

学堂在线 课程页面链接
中国大学MOOC 课程页面链接
B 站 视频链接

PPT和书籍下载网址: 【GitHub 链接】


强化学习的最终目标: 寻求最优策略

贝尔曼最优公式, 可以求解 最优状态值 和 最优策略。

在这里插入图片描述

————————
P1 如何 改进策略 ——> 选择 动作值 最大的动作

最优状态值、最优策略
the Bellman optimality equation (BOE) 贝尔曼最优公式

在这里插入图片描述

计算 状态值 v π ( s ) v_\pi(s) vπ(s), 然后计算 动作值 q π ( s ) q_\pi(s) qπ(s)

选择 动作值 最大的动作可以得到 比较好的策略 。

选择 动作值 大的策略, 不断迭代, 一定可以得到 最优策略。

——————

P2 最优策略 定义

状态值 来评估一个策略的好坏:

若 对于 所有的 s ∈ S s\in \mathcal S sS, 均满足 v π 1 ( s ) ≥ v π 2 ( s ) v_{\pi_1}(s)\geq v_{\pi_2}(s) vπ1(s)vπ2(s)。 则认为 策略 1 比 策略 2 好。

最优策略 π ∗ \pi^* π: 对 所有 s s s 和 所有策略 π \pi π, 均有 v π ∗ ( s ) ≥ v π ( s ) v_{\pi^*}(s) \geq v_\pi(s) vπ(s)vπ(s)

与所有其他策略相比,最优策略在每个状态下都具有最大的状态值。

最优策略是否一定存在?
最优策略是唯一的吗?
最优策略是随机的还是确定的?
如何获得最优策略?

在后续内容中,需要 求解 形如 f ( v ) = v f(v) = v f(v)=v 的方程,这正是 压缩映射定理【不动点定理】的相关内容。可证得 最优策略 对应的最优状态值 存在且唯一。

3.3 贝尔曼最优公式

v ( s ) = max ⁡ π ∑ a π ( a ∣ s ) ( ∑ r p ( r ∣ s , a ) r + γ ∑ s ′ p ( s ′ ∣ s , a ) v ( s ′ ) ) , ∀ s ∈ S = max ⁡ π ∑ a π ( a ∣ s ) q ( s , a ) , s ∈ S \begin{aligned}v(s)&= \textcolor{blue}{\max\limits_\pi}\sum\limits_a\pi(a|s)\Big(\sum\limits_rp(r|s,a)r+\gamma \sum\limits_{s^\prime}p(s^\prime|s, a)v(s^\prime)\Big), ~~~~\forall s\in\mathcal S\\ &=\max\limits_\pi\sum\limits_a\pi(a|s)q(s, a), ~~~s\in\mathcal S\end{aligned} v(s)=πmaxaπ(as)(rp(rs,a)r+γsp(ss,a)v(s)),    sS=πmaxaπ(as)q(s,a),   sS

通过求解这个方程, 可以获得 最优策略 和 最优状态值。

  • 已知: p ( r ∣ s , a ) , p ( s ′ ∣ s , a ) p(r|s,a),~~~p(s^\prime|s,a) p(rs,a),   p(ss,a)
  • 未知: v ( s ) , v ( s ′ ) v(s),~~~v(s^\prime) v(s),   v(s)

$\forall$ ∀ ~~\forall   

贝尔曼最优方程的 矩阵-向量形式:

v = max ⁡ π ( r π + γ P π v ) \bm v=\max \limits_\pi(\bm r_\pi+\gamma\bm P_\pi\bm v) v=πmax(rπ+γPπv)

  • [ r π ] s ≜ ∑ a π ( a ∣ s ) ∑ r p ( r ∣ s , a ) r [r_\pi]_s\triangleq\sum\limits_a\pi(a|s)\sum\limits_rp(r|s, a)r [rπ]saπ(as)rp(rs,a)r
  • [ P π ] s , s ′ = p ( s ′ ∣ s ) ≜ ∑ a π ( a ∣ s ) ∑ s ′ p ( s ′ ∣ s , a ) [P_\pi]_{s,s^\prime}=p(s^{\prime}|s)\triangleq\sum\limits_a\pi(a|s)\sum\limits_{s^\prime}p(s^{\prime}|s, a) [Pπ]s,s=p(ss)aπ(as)sp(ss,a)

$\triangleq$ ≜ ~~\triangleq   

如何求解这个方程?
存在性:这个方程有解吗?
唯一性:这个方程的解是否唯一?
最优性:这个解与最优策略有什么关系?

一个式子, 两个未知量。如何求解 右侧的最大化?

在这里插入图片描述

在这里插入图片描述

类似地, 求解 贝尔曼最优方程

v ( s ) = max ⁡ π ∑ a π ( a ∣ s ) q ( s , a ) v(s)=\max\limits_\pi\sum\limits_a\pi(a|s)q(s, a) v(s)=πmaxaπ(as)q(s,a)

受上述例子启发, 由于 ∑ a π ( a ∣ s ) = 1 \sum\limits_a\pi(a|s)=1 aπ(as)=1

∑ a π ( a ∣ s ) q ( s , a ) ≤ ∑ a π ( a ∣ s ) max ⁡ a q ( s , a ) = max ⁡ a q ( s , a ) \sum\limits_a\pi(a|s)q(s, a)\leq\sum\limits_a\pi(a|s)\max\limits_aq(s,a)=\max\limits_aq(s, a) aπ(as)q(s,a)aπ(as)amaxq(s,a)=amaxq(s,a)

∑ a π ( a ∣ s ) q ( s , a ) \sum\limits_a\pi(a|s)q(s, a) aπ(as)q(s,a) 是类似于 上述例子中的求和式,根据经验,让取得最大的 q ( s , a ) q(s, a) q(s,a) 【相当于 q 3 q_3 q3】相应的概率 π ( a ∣ s ) \pi(a|s) π(as) 【相当于 c 3 c_3 c3】为 1, 其它情况相应的 π ( a ∣ s ) \pi(a|s) π(as) 为 0, 此时能获得最大值

即 令 π ( a ∣ s ) = { 1 , a = a ∗ 0 , a ≠ a ∗ \pi(a|s)=\left\{ \begin{aligned} &1, &a=a^*\\ &0, &a\neq a^*\\ \end{aligned} \right. π(as)={1,0,a=aa=a

  • a ∗ a^* a:最大的 q q q 值对应的 action。 a ∗ = arg ⁡ max ⁡ a q ( s , a ) a^*=\arg \max\limits_aq(s, a) a=argamaxq(s,a)

最优策略 π ( s ) π(s) π(s)选择具有 最大 q ( s , a ) q(s, a) q(s,a)动作的策略。

——————

3.3.3 压缩映射定理 : 求解 v = f(v)

P3

压缩映射定理 是分析一般非线性方程的有力工具。它也被称为不动点定理。

在这里插入图片描述

回到正题:

在这里插入图片描述

f ( v ) = max ⁡ π ( r π + γ P π v ) f(\bm v)=\max\limits_\pi(\bm r_\pi+\gamma\bm P_\pi\bm v) f(v)=πmax(rπ+γPπv)

v = f ( v ) ~~\bm v=f(\bm v)   v=f(v)

在这里插入图片描述

映射后的距离 比 之前 小。

示例:

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

该定理描述了 不动点 和 压缩映射 之间的关系

只要是 具有 形如 x = f ( x ) x = f(x) x=f(x)压缩映射, 必存在 一个 不动点 满足 f ( x ∗ ) = x ∗ f(x^*)=x^* f(x)=x ,且这个不动点是 唯一的。可通过 迭代式 x k + 1 = f ( x k ) x_{k+1}=f(x_k) xk+1=f(xk) 求解。

压缩映射定理不仅可以判断非线性方程的解是否存在,而且还提供了求解该方程的数值算法。

P53-

  • 证明 1: 压缩映射定理 P53- [见 后文补充]

如何利用 压缩映射定理 提出的 迭代算法 计算一些方程的不动点

例子:

在这里插入图片描述

3.3.4 贝尔曼最优公式的右侧 具有 压缩性

为了 应用 上述的 压缩映射定理 求解 贝尔曼最优方程 , 需要 证明 f ( v ) f(v) f(v) 是具有 收缩 的性质。

在这里插入图片描述

在这里插入图片描述

  • 证明 2: 贝尔曼最优方程 的右侧 是 压缩映射的 P55- [ 见 后文补充]

3.4 贝尔曼最优方程 的解

上述 内容 证明了 贝尔曼最优方程 可以 运用 压缩映射定理 进行分析,可通过 迭代式 求解。

在这里插入图片描述

在这里插入图片描述

最优策略 π ∗ = arg ⁡ max ⁡ π ( r π + γ P π v ∗ ) \pi^*=\arg\max\limits_\pi(r_\pi+\gamma P_\pi v^*) π=argπmax(rπ+γPπv)

v ∗ v^* v 是不动点, 因为 v ∗ = f ( v ∗ ) v^*=f(v^*) v=f(v)

贝尔曼最优公式 是 策略为最佳策略时的贝尔曼公式。

这个策略 是不是 最优的 ?
状态值 v π ∗ v_{\pi^*} vπ 是不是 最大的 ?

贝尔曼最优公式的不动点解 【最终的收敛值】 v ∗ v^* v 就是 最大的状态值,此时的 π ∗ \pi^* π 为最优策略。 [因为 对应的状态值最大]

在这里插入图片描述

BOE: 描述了 最优状态值 和 最优策略。

  • 证明 3: 贝尔曼最优方程的解对应 最大状态值 和 最优策略 P58- [见 后文补充]

最优策略 π ∗ \pi^* π 长 啥样呢?

在这里插入图片描述
总存在一个确定性的最优贪婪策略。

在这里插入图片描述

同样是类似于之前的求和式,令 q ∗ ( s , a ) q^*(s, a) q(s,a) 最大的对应 π ( a ∣ s ) \pi (a|s) π(as) 为 1, 其它 为 0 。可获得 最大值。

正是证明了之前提到的 最优策略 π ( s ) π(s) π(s)选择具有 最大 q ( s , a ) q(s, a) q(s,a)动作的策略。

v ∗ v^* v 的值是唯一的,但 v ∗ v^* v 对应的最优策略可能不是唯一的。

————————

3.5 哪些因素影响最佳策略

P4 3.5

什么因素 决定最优策略 ?

最优策略的影响因素: 回报 r r r,折扣率 γ \gamma γ

在这里插入图片描述

γ \gamma~ γ 小, 短视;即时奖励 [选择即时奖励最大的行动,而不是总回报最大的行动。]
γ \gamma~ γ 大,目光长远; 延迟奖励

靠近目标的状态值较大,而远离目标的状态值较低。

  • 如果一个状态必须沿着更长的轨迹到达目标,那么由于折扣率的存在,它的状态值就会变小。

r r~ r 只关心 动作间的 奖励相对值。

$r~$ 友好的 波浪线强制空格

在这里插入图片描述

  • 证明 4: 对所有 reward 统一进行 仿射变换, 最优策略 保持不变 P62- [见 后文补充]

当奖励都为 正 或 都为负的时候 可以 依据 以上定理 进行变换。最优策略 只和 奖励间的 相对值 有关

例子:

绕路

贝尔曼最优方程的 解对应 最佳状态值 和 最优策略。

小结:

在这里插入图片描述

3.7 节

什么是最优策略?
如果一个策略对应的状态值大于或等于任何其他策略,则该策略是最优的。
应该注意的是,这个特定的最优性定义仅对表格强化学习算法有效。当值或策略由函数近似时,必须使用不同的度量来定义最优策略。

最优政策是随机的还是确定的 ?
最优策略可以是确定性的,也可以是随机的。一个很好的事实是,总是存在确定性贪婪最优策略。

如果我们希望最优策略在到达目标之前避免无意义的弯路,我们是否应该在每一步都增加一个负奖励,以使 agent 尽快到达目标?
首先,在每一步中引入一个额外的负奖励是奖励的仿射变换,它不会改变最优策略。其次,折扣率可以自动鼓励 agent 尽快达到目标。这是因为无意义的弯路会增加轨迹长度,减少 discounted return。

-——————
习题 笔记:

最优策略不一定唯一。

补充

证明 1: 压缩映射定理

在这里插入图片描述

压缩映射定理 不仅可以判断非线性方程的解是否存在,而且还提供了求解该方程的数值算法。 x k + 1 = f ( x k ) x_{k+1}=f(x_k) xk+1=f(xk)。不断迭代即可获得 解。

P8 Box 3.1

补充:

在这里插入图片描述
在这里插入图片描述

根据 柯西极限存在准则,证明 不动点 存在

1、证明 当 { x k } k = 1 ∞ \{x_k\}_{k=1}^\infty {xk}k=1 时, x k = f ( x k − 1 ) x_k=f(x_{k-1}) xk=f(xk1) 收敛。

这个证明依赖于柯西序列。一个序列 x 1 , x 2 , ⋯ ∈ R x_1, x_2, \cdots \in \mathbb R x1,x2,R, 如果对于任何小的 ε > 0 \varepsilon > 0 ε>0,存在 N N N, 对于所有 m , n > N m, n > N m,n>N, 使得 ∣ ∣ x m − x n ∣ ∣ < ε ||x_m - x_n|| < \varepsilon ∣∣xmxn∣∣<ε

直观的解释是存在一个有限整数 N N N, 使得 N N N 之后的所有元素彼此足够接近。

柯西序列之所以重要,是因为它保证了柯西序列收敛于某个有限值。
它的收敛性将用于证明 压缩映射定理。

注意,对于所有的 m , n > N m,n > N m,n>N,我们必须有 ∣ ∣ x m − x n ∣ ∣ < ε ||x_m - x_n|| < ε ∣∣xmxn∣∣<ε
如果我们仅仅有 x n + 1 − x n → 0 x_{n+1} - x_n→0 xn+1xn0,就不足以断言这个序列是柯西序列。
例如,对于 x n = n x_n= \sqrt n xn=n x n + 1 − x n → 0 x_{n+1} - x_n→0 xn+1xn0 成立,但显然, x n = n x_n= \sqrt n xn=n 是发散的。

证明 { x k = f ( x k − 1 ) } k = 1 ∞ \{x_k=f(x_{k-1})\}_{k=1}^\infty {xk=f(xk1)}k=1 是柯西序列, 因此是 收敛的。

——————————————

由于 f f f 是 收缩映射, 则有

∣ ∣ x k + 1 − x k ∣ ∣ = ∣ ∣ f ( x k ) − f ( x k − 1 ) ∣ ∣ ≤ γ ∣ ∣ x k − x k − 1 ∣ ∣ ||x_{k+1}-x_k||=||f(x_k)-f(x_{k-1})||\leq\gamma||x_k-x_{k-1}|| ∣∣xk+1xk∣∣=∣∣f(xk)f(xk1)∣∣γ∣∣xkxk1∣∣

类似地 ,有
∣ ∣ x k − x k − 1 ∣ ∣ ≤ γ ∣ ∣ x k − 1 − x k − 2 ∣ ∣ ||x_k-x_{k-1}||\leq\gamma||x_{k-1}-x_{k-2}|| ∣∣xkxk1∣∣γ∣∣xk1xk2∣∣
⋮ \vdots
∣ ∣ x 2 − x 1 ∣ ∣ ≤ γ ∣ ∣ x 1 − x 0 ∣ ∣ ||x_2-x_1||\leq\gamma||x_1-x_0|| ∣∣x2x1∣∣γ∣∣x1x0∣∣

∣ ∣ x k + 1 − x k ∣ ∣ ≤ γ ∣ ∣ x k − x k − 1 ∣ ∣ ≤ γ 2 ∣ ∣ x k − 1 − x k − 2 ∣ ∣ ⋮ ≤ γ k ∣ ∣ x 1 − x 0 ∣ ∣ \begin{aligned}||x_{k+1}-x_k||&\leq\gamma||x_k-x_{k-1}||\\ &\leq\gamma^2||x_{k-1}-x_{k-2}||\\ & \vdots\\ &\leq\gamma^k||x_1-x_0||\end{aligned} ∣∣xk+1xk∣∣γ∣∣xkxk1∣∣γ2∣∣xk1xk2∣∣γk∣∣x1x0∣∣

由于 γ < 1 \gamma < 1 γ<1, 对 任意 x 1 , x 0 x_1, x_0 x1,x0 ,当 k → ∞ k\to \infty k ∣ ∣ x k + 1 − x k ∣ ∣ ||x_{k+1}-x_k|| ∣∣xk+1xk∣∣ 以指数速度 收敛到 0。

正如 前文所述, 仅满足 x n + 1 − x n → 0 x_{n+1} - x_n→0 xn+1xn0 , 无法得到 收敛的结论。 如 发散 的 x n = n x_n= \sqrt n xn=n

需要进一步考虑 m > n m > n m>n 时,

∣ ∣ x m − x n ∣ ∣ = ∣ ∣ x m − x m − 1 + x m − 1 − ⋯ − x n + 1 + x n + 1 − x n ∣ ∣ ≤ ∣ ∣ x m − x m − 1 ∣ ∣ + ⋯ + ∣ ∣ x n + 1 − x n ∣ ∣ ≤ γ m − 1 ∣ ∣ x 1 − x 0 ∣ ∣ + ⋯ + γ n ∣ ∣ x 1 − x 0 ∣ ∣ = γ n ( γ m − 1 − n + ⋯ + 1 ) ∣ ∣ x 1 − x 0 ∣ ∣ ≤ γ n ⋅ ∑ i = 1 ∞ γ i ⋅ ∣ ∣ x 1 − x 0 ∣ ∣ γ 的幂次项扩展到无穷多项 = γ n 1 − γ ∣ ∣ x 1 − x 0 ∣ ∣ \begin{aligned}||x_m-x_n||&=||x_m-x_{m-1}+x_{m-1}-\cdots-x_{n+1}+x_{n+1}-x_n||\\ &\leq ||x_m-x_{m-1}||+\cdots+||x_{n+1}-x_n||\\ &\leq \gamma^{m-1} ||x_1-x_0||+\cdots+\gamma^n||x_1-x_0||\\ &=\gamma^n(\gamma^{m-1-n}+\cdots+1)||x_1-x_0||\\ &\leq\gamma^n·\sum\limits_{i=1}^\infty\gamma^i·||x_1-x_0||~~~~~~~\textcolor{blue}{\gamma ~的幂次项扩展到无穷多项}\\ &=\frac{\gamma^n}{1-\gamma} ||x_1-x_0||\\ \end{aligned} ∣∣xmxn∣∣=∣∣xmxm1+xm1xn+1+xn+1xn∣∣∣∣xmxm1∣∣++∣∣xn+1xn∣∣γm1∣∣x1x0∣∣++γn∣∣x1x0∣∣=γn(γm1n++1)∣∣x1x0∣∣γni=1γi∣∣x1x0∣∣       γ 的幂次项扩展到无穷多项=1γγn∣∣x1x0∣∣

对于右侧, γ < 1 \gamma<1 γ<1,为某个 小的值

对任意小的 ε \varepsilon ε, 总能找到 N N N, 使得当 m , n > N m, n > N m,n>N ,有 ∣ ∣ x m − x n ∣ ∣ < ε ||x_m - x_n|| < ε ∣∣xmxn∣∣<ε,满足柯西极限存在准则, 数列 { x k } \{x_k\} {xk} 收敛。

假设收敛到 x ∗ x^* x lim ⁡ k → ∞ x k = x ∗ \lim\limits_{k\to\infty}x_k=x^* klimxk=x

2、证明 x ∗ = lim ⁡ k → ∞ x k x^*=\lim\limits_{k\to\infty}x_k x=klimxk 是一个不动点。

由于 ∣ ∣ f ( x k ) − x k ∣ ∣ = ∣ ∣ x k + 1 − x k ∣ ∣ ≤ γ k ∣ ∣ x 1 − x 0 ∣ ∣ ||f(x_k)-x_k||=||x_{k+1}-x_k||\leq\gamma^k||x_1-x_0|| ∣∣f(xk)xk∣∣=∣∣xk+1xk∣∣γk∣∣x1x0∣∣

已知 ∣ ∣ f ( x k ) − x k ∣ ∣ ||f(x_k)-x_k|| ∣∣f(xk)xk∣∣ 以指数速度 收敛于 0。则 f ( x ∗ ) = x ∗ f(x^*)=x^*~~~ f(x)=x    两边同时 取极限

lim ⁡ k → ∞ ∣ ∣ f ( x k ) − x k ∣ ∣ = 0 \lim\limits_{k\to\infty}||f(x_k)-x_k||=0 klim∣∣f(xk)xk∣∣=0

3、证明 不动点 唯一

假设 存在另外的不动点 x ′ x^\prime x, 满足 f ( x ′ ) = x ′ f(x^\prime) =x^\prime f(x)=x

∣ ∣ x ′ − x ∗ ∣ ∣ = ∣ ∣ f ( x ′ ) − f ( x ∗ ) ∣ ∣ ≤ γ ∣ ∣ x ′ − x ∗ ∣ ∣ ||x^\prime-x^*||=||f(x^\prime)-f(x^*)||\leq\gamma||x^\prime-x^*|| ∣∣xx∣∣=∣∣f(x)f(x)∣∣γ∣∣xx∣∣

由于 γ < 1 \gamma < 1 γ<1, 当且仅当 ∣ ∣ x ′ − x ∗ ∣ ∣ = 0 ||x^\prime-x^*||=0 ∣∣xx∣∣=0 时不等式成立。因此, 只能是 x ′ = x ∗ x^\prime=x^* x=x

或者不等式两边同除 ∣ ∣ x ′ − x ∗ ∣ ∣ ||x^\prime-x^*|| ∣∣xx∣∣, 得到 γ ≥ 1 \gamma\geq1 γ1,与题设 γ < 1 \gamma < 1 γ<1矛盾,因此不动点唯一。

4、证明 x k x_k xk 以指数速度收敛于 x ∗ x^* x

由之前的 ∣ ∣ x m − x n ∣ ∣ ≤ γ n 1 − γ ∣ ∣ x 1 − x 0 ∣ ∣ ||x_m-x_n|| \leq \frac{\gamma^n}{1-\gamma}||x_1-x_0|| ∣∣xmxn∣∣1γγn∣∣x1x0∣∣

由于 m m m 可以是任意大。

x ∗ − x n = lim ⁡ m → ∞ ∣ ∣ x m − x n ∣ ∣ ≤ γ n 1 − γ ∣ ∣ x 1 − x 0 ∣ ∣ x^*-x_n =\lim\limits_{m\to\infty}||x_m-x_n||\leq \frac{\gamma^n}{1-\gamma}||x_1-x_0|| xxn=mlim∣∣xmxn∣∣1γγn∣∣x1x0∣∣

由于 γ < 1 \gamma<1 γ<1, 当 n → ∞ n→∞ n 时,误差以指数速度 收敛于 0。

——————————
补充: 参考链接

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
其它可参考链接:

链接 1:数分之梯丨压缩映射定理——同济大学陈滨
链接 2:柯西收敛准则有啥用?当然是证明压缩映射原理!

证明 2:证明 贝尔曼最优方程 的右侧 是 压缩映射的

在这里插入图片描述
在这里插入图片描述
考虑 两个 向量 v 1 , v 2 ∈ R ∣ S ∣ \bm v_1, \bm v_2\in \mathbb R^{|\cal S|} v1,v2RS

π 1 ∗ = ˙ arg ⁡ max ⁡ π ( r π + γ P π v 1 ) \pi_1^*\dot=\arg\max\limits_\pi(\bm r_\pi+\gamma\bm P_\pi\bm v_1) π1=˙argπmax(rπ+γPπv1)

π 2 ∗ = ˙ arg ⁡ max ⁡ π ( r π + γ P π v 2 ) \pi_2^*\dot=\arg\max\limits_\pi(\bm r_\pi+\gamma\bm P_\pi\bm v_2) π2=˙argπmax(rπ+γPπv2)

f ( v 1 ) = max ⁡ π ( r π + γ P π v 1 ) = r π 1 ∗ + γ P π 1 ∗ v 1 ≥ r π 2 ∗ + γ P π 2 ∗ v 1 f(\bm v_1)=\max\limits_\pi(\bm r_\pi+\gamma\bm P_\pi\bm v_1)=\bm r_{\pi_1^*}+\gamma\bm P_{\pi_1^*}\bm v_1\geq \bm r_{\pi_2^*}+\gamma\bm P_{\pi_2^*}\bm v_1~~~~~ f(v1)=πmax(rπ+γPπv1)=rπ1+γPπ1v1rπ2+γPπ2v1      对于同一状态值 v 1 v_1 v1 ,最佳策略 π 1 ∗ \pi_1^* π1 相应的状态值 必然大于 其它策略的

f ( v 2 ) = max ⁡ π ( r π + γ P π v 2 ) = r π 2 ∗ + γ P π 2 ∗ v 2 ≥ r π 1 ∗ + γ P π 1 ∗ v 2 f(\bm v_2)=\max\limits_\pi(\bm r_\pi+\gamma\bm P_\pi\bm v_2)=\bm r_{\pi_2^*}+\gamma\bm P_{\pi_2^*}\bm v_2\geq \bm r_{\pi_1^*}+\gamma\bm P_{\pi_1^*}\bm v_2~~~~~ f(v2)=πmax(rπ+γPπv2)=rπ2+γPπ2v2rπ1+γPπ1v2     

≥ \geq 是 元素级的。

f ( v 1 ) − f ( v 2 ) = r π 1 ∗ + γ P π 1 ∗ v 1 − ( r π 2 ∗ + γ P π 2 ∗ v 2 ) ≤ r π 1 ∗ + γ P π 1 ∗ v 1 − ( r π 1 ∗ + γ P π 1 ∗ v 2 ) = γ P π 1 ∗ ( v 1 − v 2 ) \begin{aligned}f(\bm v_1)-f(\bm v_2)&=\bm r_{\pi_1^*}+\gamma\bm P_{\pi_1^*}\bm v_1-(\bm r_{\pi_2^*}+\gamma\bm P_{\pi_2^*}\bm v_2)\\ &\leq \bm r_{\pi_1^*}+\gamma\bm P_{\pi_1^*}\bm v_1-(\bm r_{\pi_1^*}+\gamma\bm P_{\pi_1^*}\bm v_2)\\ &=\gamma\bm P_{\pi_1^*}(\bm v_1-\bm v_2)\end{aligned} f(v1)f(v2)=rπ1+γPπ1v1(rπ2+γPπ2v2)rπ1+γPπ1v1(rπ1+γPπ1v2)=γPπ1(v1v2)

f ( v 2 ) − f ( v 1 ) = r π 2 ∗ + γ P π 2 ∗ v 2 − ( r π 1 ∗ + γ P π 1 ∗ v 1 ) ≤ r π 2 ∗ + γ P π 2 ∗ v 2 − ( r π 2 ∗ + γ P π 2 ∗ v 1 ) = γ P π 2 ∗ ( v 2 − v 1 ) \begin{aligned}f(\bm v_2)-f(\bm v_1)&=\bm r_{\pi_2^*}+\gamma\bm P_{\pi_2^*}\bm v_2-(\bm r_{\pi_1^*}+\gamma\bm P_{\pi_1^*}\bm v_1)\\ &\leq \bm r_{\pi_2^*}+\gamma\bm P_{\pi_2^*}\bm v_2-(\bm r_{\pi_2^*}+\gamma\bm P_{\pi_2^*}\bm v_1)\\ &=\gamma\bm P_{\pi_2^*}(\bm v_2-\bm v_1)\end{aligned} f(v2)f(v1)=rπ2+γPπ2v2(rπ1+γPπ1v1)rπ2+γPπ2v2(rπ2+γPπ2v1)=γPπ2(v2v1)

γ P π 2 ∗ ( v 1 − v 2 ) ≤ f ( v 1 ) − f ( v 2 ) ≤ γ P π 1 ∗ ( v 1 − v 2 ) \gamma\bm P_{\pi_2^*}(\bm v_1-\bm v_2)\leq f(\bm v_1)-f(\bm v_2)\leq \gamma\bm P_{\pi_1^*}(\bm v_1-\bm v_2) γPπ2(v1v2)f(v1)f(v2)γPπ1(v1v2)

z = ˙ max ⁡ { ∣ γ P π 2 ∗ ( v 1 − v 2 ) ∣ , ∣ γ P π 1 ∗ ( v 1 − v 2 ) ∣ } ∈ R ∣ S ∣ z\dot=\max~\{|\gamma\bm P_{\pi_2^*}(\bm v_1-\bm v_2)|, |\gamma\bm P_{\pi_1^*}(\bm v_1-\bm v_2)|\}\in\mathbb R^{|\cal S|} z=˙max {γPπ2(v1v2),γPπ1(v1v2)}RS

z ≥ 0 z\geq0 z0

− z ≤ γ P π 2 ∗ ( v 1 − v 2 ) ≤ f ( v 1 ) − f ( v 2 ) ≤ γ P π 1 ∗ ( v 1 − v 2 ) ≤ z -z\leq\gamma\bm P_{\pi_2^*}(\bm v_1-\bm v_2)\leq f(\bm v_1)-f(\bm v_2)\leq \gamma\bm P_{\pi_1^*}(\bm v_1-\bm v_2)\leq z zγPπ2(v1v2)f(v1)f(v2)γPπ1(v1v2)z

∣ f ( v 1 ) − f ( v 2 ) ∣ ≤ z |f(\bm v_1)-f(\bm v_2)|\leq z f(v1)f(v2)z

最大模 ∣ ∣ f ( v 1 ) − f ( v 2 ) ∣ ∣ ∞ ≤ ∣ ∣ z ∣ ∣ ∞ ||f(\bm v_1)-f(\bm v_2)||_\infty\leq ||z||_\infty ∣∣f(v1)f(v2)∣∣z

p i T p_i^T piT q i T q_i^T qiT 分别为 P π 1 ∗ \bm P_{\pi_1^*} Pπ1 P π 2 ∗ \bm P_{\pi_2^*} Pπ2 的 第 i i i 行。

z i = max ⁡ { γ ∣ p i T ( v 1 − v 2 ) ∣ , γ ∣ q i T ( v 1 − v 2 ) ∣ } z_i=\max~\{\gamma |p_i^T(\bm v_1-\bm v_2)|, \gamma|q_i^T(\bm v_1-\bm v_2)|\} zi=max {γpiT(v1v2),γqiT(v1v2)}

p i p_i pi 是一个包含所有非负元素的向量并且所有元素的和等于 1。

∣ p i T ( v 1 − v 2 ) ∣ ≤ p i T ∣ v 1 − v 2 ∣ ≤ ∣ ∣ v 1 − v 2 ∣ ∣ ∞ |p_i^T(\bm v_1-\bm v_2)|\leq p_i^T|\bm v_1-\bm v_2|\leq||\bm v_1-\bm v_2||_\infty piT(v1v2)piTv1v2∣∣v1v2

类似地 , ∣ q i T ( v 1 − v 2 ) ∣ ≤ ∣ ∣ v 1 − v 2 ∣ ∣ ∞ |q_i^T(\bm v_1-\bm v_2)|\leq||\bm v_1-\bm v_2||_\infty qiT(v1v2)∣∣v1v2

z i ≤ γ ∣ ∣ v 1 − v 2 ∣ ∣ ∞ z_i\leq\gamma||\bm v_1-\bm v_2||_\infty ziγ∣∣v1v2

∣ ∣ z ∣ ∣ ∞ = max ⁡ i ∣ z i ∣ ≤ γ ∣ ∣ v 1 − v 2 ∣ ∣ ∞ ||z||_\infty=\max\limits_i|z_i|\leq\gamma||\bm v_1-\bm v_2||_\infty ∣∣z=imaxziγ∣∣v1v2

∣ ∣ f ( v 1 ) − f ( v 2 ) ∣ ∣ ∞ ≤ γ ∣ ∣ v 1 − v 2 ∣ ∣ ∞ ||f(\bm v_1)-f(\bm v_2)||_\infty\leq \gamma||\bm v_1-\bm v_2||_\infty ∣∣f(v1)f(v2)γ∣∣v1v2

证毕。

证明 3: 贝尔曼最优方程的解对应 最大状态值 和 最优策略

在这里插入图片描述

P58

对于 任意 策略 π \pi π, 满足 贝尔曼方程为 v π = r π + γ P π v π v_\pi=r_\pi+\gamma P_\pi v_\pi vπ=rπ+γPπvπ

由于 最优策略 v ∗ = max ⁡ π ( r π + γ P π v ∗ ) = r π ∗ + γ P π ∗ v ∗ ≥ r π + γ P π v ∗ v^*=\max\limits_\pi(r_\pi+\gamma P_\pi v^*)=r_{\pi^*}+\gamma P_{\pi^*} v^*\geq r_\pi+\gamma P_\pi v^* v=πmax(rπ+γPπv)=rπ+γPπvrπ+γPπv

v ∗ − v π ≥ r π ∗ + γ P π ∗ v ∗ − ( r π + γ P π v π ) = γ P π ( v ∗ − v π ) v^*-v_\pi\geq r_{\pi^*}+\gamma P_{\pi^*} v^*-(r_\pi+\gamma P_\pi v_\pi)=\gamma P_\pi (v^*-v_\pi) vvπrπ+γPπv(rπ+γPπvπ)=γPπ(vvπ)

重复应用上述不等式:

v ∗ − v π ≥ γ P π ( v ∗ − v π ) ≥ γ 2 P π 2 ( v ∗ − v π ) ≥ ⋯ ≥ γ n P π n ( v ∗ − v π ) v^*-v_\pi\geq\gamma P_\pi (v^*-v_\pi)\geq\gamma^2 P^2_\pi (v^*-v_\pi)\geq\cdots\geq\gamma^n P^n_\pi (v^*-v_\pi) vvπγPπ(vvπ)γ2Pπ2(vvπ)γnPπn(vvπ)

v ∗ − v π ≤ lim ⁡ n → ∞ γ n P π n ( v ∗ − v π ) = 0 v^*-v_\pi\leq\lim\limits_{n\to\infty}\gamma^n P^n_\pi (v^*-v_\pi)=0 vvπnlimγnPπn(vvπ)=0

由于 γ < 1 \gamma<1 γ<1 P π n P^n_\pi Pπn 是 元素均小于或等于 1 的非负矩阵 P π n 1 = 1 P^n_\pi \bm1=\bm1 Pπn1=1

因此 v ∗ ≥ v π v^*\geq v_\pi vvπ 对于任意 π \pi π 均成立。

证明 4: 对所有 reward 统一进行 仿射变换, 最优策略 不变

在这里插入图片描述

最优策略不变性

最优策略 v ∗ = max ⁡ π ( r π + γ P π v ∗ ) \bm v^*=\max\limits_\pi(\bm r_\pi+\gamma \bm P_\pi \bm v^*) v=πmax(rπ+γPπv)

对 其中的 每个奖励值 r r r 都进行 仿射变换 α r + β \alpha r + \beta αr+β

则相应的 最优 状态值 v ′ = α v ∗ + β 1 − γ [ 1 1 . . . 1 1 ] \bm v^\prime=\alpha \bm v^*+\frac{\beta}{1-\gamma}\begin{bmatrix}1\\1\\...\\1\\1\end{bmatrix} v=αv+1γβ 11...11

其中 折扣率 γ ∈ ( 0 , 1 ) \gamma \in (0, 1) γ(0,1)
v ′ \bm v^\prime v 得到的最优策略 对于奖励值的仿射变换是不变的。

————————————————————————

P62 -

证明:

对 任意 策略 π \pi π, 令 r π = [ ⋯ , r π ( s ) , ⋯ ] T r_\pi=[\cdots,r_\pi(s), \cdots]^T rπ=[,rπ(s),]T

r π ( s ) = ∑ a ∈ A π ( a ∣ s ) ∑ r ∈ R p ( r ∣ s , a ) r , s ∈ S r_\pi(s)= \sum\limits_{a\in\cal A}\pi(a|s)\sum\limits_{r\in\cal R}p(r|s, a)r,~~~~~s\in\cal S rπ(s)=aAπ(as)rRp(rs,a)r,     sS

如果 r → α r + β r\to\alpha r+\beta rαr+β, 则 r π ( s ) → α r π ( s ) + β r_\pi(s)\to\alpha r_\pi(s)+\beta rπ(s)αrπ(s)+β

r π → α r π + β 1 r_\pi\to\alpha r_\pi+\beta{\bf1} rπαrπ+β1, 其中 1 = [ 1 , ⋯ , 1 ] T \bm 1=[1, \cdots,1]^T 1=[1,,1]T

此时, 贝尔曼最优公式 变成:

v ′ = max ⁡ π ( α r π + β 1 + γ P π v ′ ) ( 3.9 ) \bm v^\prime=\max\limits_\pi(\alpha\bm r_\pi+\beta \bm1+\gamma\bm P_\pi\bm v^\prime)~~~~~~~~~~~~~~(3.9) v=πmax(αrπ+β1+γPπv)              (3.9)

v ′ = α v ∗ + c 1 \bm v^\prime=\alpha \bm v^*+c\bm 1 v=αv+c1 是 上述 式 (3.9) 的解

v ′ = α v ∗ + c 1 \bm v^\prime=\alpha \bm v^*+c\bm 1 v=αv+c1 代入 (3.9)

α v ∗ + c 1 = max ⁡ π ( α r π + β 1 + γ P π ( α v ∗ + c 1 ) ) = max ⁡ π ( α r π + β 1 + γ α P π v ∗ + γ c 1 ) \alpha \bm v^*+c\bm 1=\max\limits_\pi\Big(\alpha\bm r_\pi+\beta \bm1+\gamma\bm P_\pi(\alpha \bm v^*+c\bm 1)\Big)=\max\limits_\pi (\alpha\bm r_\pi+\beta \bm1+\gamma\alpha\bm P_\pi \bm v^*+\gamma c\bm 1 ) αv+c1=πmax(αrπ+β1+γPπ(αv+c1))=πmax(αrπ+β1+γαPπv+γc1)

注意 P π 1 = 1 \bm P_\pi\bm 1=\bm1 Pπ1=1

α v ∗ = max ⁡ π ( α r π + γ α P π v ∗ ) ⏟ α v ∗ + β 1 + + γ c 1 − c 1 \alpha\bm v^*=\underbrace{\max\limits_\pi (\alpha\bm r_\pi+ \gamma\alpha\bm P_\pi \bm v^*)}_{\alpha\bm v^*}+\beta \bm1++\gamma c\bm 1-c\bm1 αv=αv πmax(αrπ+γαPπv)+β1++γc1c1

β 1 + + γ c 1 − c 1 = 0 \beta \bm1++\gamma c\bm 1-c\bm1=0 β1++γc1c1=0

c = β 1 − γ c=\frac{\beta}{1-\gamma} c=1γβ

说明 v ′ = α v ∗ + c 1 \bm v^\prime=\alpha \bm v^*+c\bm 1 v=αv+c1 是 式 (3.9) 的解,其中 c = β 1 − γ c=\frac{\beta}{1-\gamma} c=1γβ

又因为 式 (3.9) 也是 贝尔曼最优公式, v ′ v^\prime v 就是唯一解。

由于 v ′ v^\prime v v ∗ v^* v 的 仿射变换,状态值 之间的 相对关系 保持不变。
因此, 根据 v ′ v^\prime v 得到的贪心最优策略 和 v ∗ v^* v 的一样。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/28985.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

c++qt合并两张灰度图像

需求&#xff1a;将两张尺寸相同的灰度图像进行合并&#xff0c;合并后的图像&#xff0c;每个像素点灰度值为两张原图对应像素点灰度值之和。若超过255&#xff0c;则最大为255。 方法一&#xff1a; 将图像读取为cv::Mat&#xff0c;再调用opencv的cv::add方法&#xff0c;进…

【ai】初识pytorch

初识PyTorch 大神的例子运行: 【ai】openai-quickstart 配置pycharm工程 简单例子初识一下Pytorch 好像直接点击下载比较慢? 大神的代码 在这个例子中,首先定义一个线性模型,该模型有一个输入特征和一个输出特征。然后定义一个损失函数和一个优化器,接着生成一些简单的线性…

Golang内存模型与分配机制

简述 mheap为堆&#xff0c;堆和进程是一对一的&#xff1b;mcentral&#xff08;小mheadp&#xff09;&#xff0c;mcahe&#xff08;GMP的P私有&#xff09;&#xff0c;分配内存顺序由后向前。 在解决这个问题&#xff0c;Golang 在堆 mheap 之上&#xff0c;依次细化粒度&a…

前端构建工具用得好,构建速度提升 10 倍

今天来盘点一下前端构建工具。 Turbopack Turbopack&#xff0c;由Vercel开源&#xff0c;是下一代高性能的JavaScript应用构建工具&#xff0c;目前用于 Next.js 中。Turbopack旨在通过革新JavaScript应用的打包流程来显著提升应用性能&#xff0c;它专注于缩短加载时间&…

Python工具箱系列(五十三)

​​水印 水印是一种常见的图片处理需求。当既需要展示&#xff0c;又需要保护知识产权时&#xff0c;就需要使用文字或者图片来打水印。下面的代码展示了文字水印与图片水印的过程。 ​--javascripttypescriptbashsqljsonhtmlcssccppjavarubypythongorustmarkdown from pat…

游戏找不到steam_api64.dll无法继续执行代码的解决方法

在电脑使用过程中&#xff0c;我们可能会遇到一些错误提示&#xff0c;其中之一就是“steam_api64.dll丢失”。那么&#xff0c;steam_api64.dll到底是干嘛的&#xff1f;为什么会丢失&#xff1f;对电脑有什么具体影响&#xff1f;如何解决这个问题&#xff1f;本文将为您详细…

Python基础教程(九):Lambda 函数

&#x1f49d;&#x1f49d;&#x1f49d;首先&#xff0c;欢迎各位来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里不仅可以有所收获&#xff0c;同时也能感受到一份轻松欢乐的氛围&#xff0c;祝你生活愉快&#xff01; &#x1f49d;&#x1f49…

vivado NODE、PACKAGE_PIN

节点是Xilinx部件上用于路由连接或网络的设备对象。它是一个 WIRE集合&#xff0c;跨越多个瓦片&#xff0c;物理和电气 连接在一起。节点可以连接到单个SITE_&#xff0c; 而是简单地将NETs携带进、携带出或携带穿过站点。节点可以连接到 任何数量的PIP&#xff0c;并且也可以…

基于QT5.12.7的VTK8.2下的VS2015 X64源码编译以及测试

有一段时间没更新博客了&#xff0c;最近在考虑使用VTK作为软件的后处理显示&#xff0c;相比于OSG&#xff0c;VTK在后处理上集成了很多优秀的算法&#xff0c;使用起来比较方便&#xff0c;而且后处理一般不需要太多的交互&#xff0c;所以VTK是一个不错的选择。 之前对VTK了…

【多视图感知】BEVFormer: Learning Bird’s-Eye-View Representation

BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers 论文链接:http://arxiv.org/abs/2203.17270 代码链接:https://github.com/fundamentalvision/BEVFormer 一、摘要 本文提出了一种名为BEVFormer的新框架&am…

智慧班牌系统源码,智慧校园云平台系统,基于小程序原生开发的智慧校园小程序源码

智慧班牌系统&#xff0c;也被称为电子班牌系统&#xff0c;是一款专为学校打造的信息化产品&#xff0c;用于加强学校班级文化建设和班级风采展示。该系统通过整合学校对外宣传、日常互动交流、教师教学办公、课外学习延伸、智能硬件接入等各种服务&#xff0c;为老师、家长、…

数据库原理(数据库设计)——(3)

一、数据库设计概述 1.数据库设计的基本任务和目标 基本任务 根据用户的信息需求、数据库操作需求&#xff0c;设计一个结构合理、使用方便、效率高的数据库。 设计目标 满足用户的应用要求&#xff1b;准确模拟现实世界&#xff1b;能背某个DBMS&#xff08;数据库管理系统…

使用超声波麦克风阵列预测数控机床刀具磨损

预测性维护是使用传感器数据来推断机器状态&#xff0c;并从这些传感器数据中检测出在故障发生之前存在的缺陷或故障的过程。预测性维护在所有工业领域都是一种日益增长的趋势&#xff0c;包括轴承故障检测、齿轮磨损检测或往复式机器中的活塞磨损等许多其他例子。在预测性维护…

PV180R1K1T1NMMC派克通轴传动结构柱塞泵

PV180R1K1T1NMMC派克通轴传动结构柱塞泵 派克柱塞泵的结构组成部分&#xff1a;柱塞、手把、斜盘、压盘、滑履、泵体、配油盘、传送轴。其优点如下&#xff1a; 1、结构紧凑耐用&#xff0c;具有灵活的安装接口 2、安静的工作 3、效率高 4、降低功耗和减少发热 5、具有“…

最适合程序员的编程字体,漂亮、独特、优雅!(2024-06-17)

Monaco Monaco 字体是一款专为编程和代码编辑设计的等宽字体&#xff0c;以其简洁明了的无衬线设计风格、高可读性和清晰的字符区分度&#xff0c;受到开发者们的青睐&#xff0c;Mac 自带 Monaco 字体。 Consolas Consolas 是一款等宽无衬线字体&#xff0c;专为编程和代码编…

ElementPlus国际化(将组件的默认语言改为中文)

文章目录 1. Element-plus的默认语言2. 编辑 main.js 文件3. 效果&#xff08;以分页条组件为例&#xff09; 1. Element-plus的默认语言 Element-plus的默认语言是英语&#xff0c;可修改为其它语言 2. 编辑 main.js 文件 import {createApp} from vue import ElementPlus …

高等数学笔记(一):映射与函数

一、映射 1.1 映射的概念 存在一个法则 f &#xff0c;使得对 X 中每个元素 x &#xff0c;在 Y 中有唯一确定的元素 y 与之对应&#xff08;X、Y 非空集&#xff09; 称 f 为从 X 到 Y 的映射&#xff0c;如图所示 其中 y 称为元素 x&#xff08;在映射 f 下&#xff09;的…

理解并应用:JavaScript响应式编程与事件驱动编程的差异

背景介绍 在现代JavaScript开发中&#xff0c;响应式编程&#xff08;Reactive Programming&#xff09;和事件驱动编程&#xff08;Event-Driven Programming&#xff09;是两种非常重要且常用的编程范式。虽然它们都用于处理异步操作&#xff0c;但在理念和实现方式上存在显…

如何用多线程执行 unittest 测试用例实现方案

前言 使用python做过自动化测试的小伙伴&#xff0c;想必都知道unittest和pytest这两个单元测试框架&#xff0c;其中unittest是python的官方库&#xff0c;功能相对于pytest来要逊色不少&#xff0c;但是uniitest使用上手简单&#xff0c;也受到的很多的小伙伴喜爱。一直以来都…

上海交通大学、中科大 开源镜像站停止 Docker Hub 仓库镜像支持后的可用替代源

上海交通大学 Linux 用户组发布公告&#xff1a; 即时起中止对 Docker Hub 仓库的镜像。Docker 相关工具默认会自动处理失效镜像的回退&#xff0c;如果对官方源有访问困难问题&#xff0c;建议尝试使用其他仍在服务的镜像源。 源加速地址 有网友表示百度的 Docker Hub 加速器…