一、说明
这是了解强化学习的一系列基础文章的后续文章。如果您有兴趣了解强化学习,请查看此处。
二、马尔可夫过程
让我们尝试通过一个简单的例子来理解马尔可夫过程。(顺便说一句,我真的希望印度能赢得世界杯!)
好吧,回到这个例子,假设下表代表了印度板球队在世界杯比赛中的历史表现。
| | Winning | Losing | Drawing |
|---------|---------|--------|---------|
| Winning | 0.6 | 0.1 | 0.3 |
| Losing | 0.3 | 0.4 | 0.3 |
| Drawing | 0.4 | 0.2 | 0.4 |
注意:以上表格是转移矩阵,指把当前状态向量输入后,输出预测出可能的结果向量。
这里有 3 种可能的状态:(获胜、失败和平局)。现在,让我们想象一下球队目前的状态是“胜利”。使用上表中的转移概率:
- 赢得下一场比赛的概率 = 0.6
- 输掉下一场比赛的概率 = 0.1
- 打平下一场比赛的概率 = 0.3
如果球队目前处于“获胜”状态,并且我们想要预测两场比赛后的状态,我们可以连续应用这些概率。
一场比赛后:
- 获胜概率 = 0.6
- 失败的概率 = 0.1
- 打平概率 = 0.3
两场比赛后:
- 获胜概率 = (0.6 * 0.6) + (0.1 * 0.3) + (0.3 * 0.4) = 0.36 + 0.03 + 0.12 = 0.51
- 失败概率 = (0.6 * 0.1) + (0.1 * 0.4) + (0.3 * 0.2) = 0.06 + 0.04 + 0.06 = 0.16
- 打平概率 = (0.6 * 0.3) + (0.1 * 0.3) + (0.3 * 0.4) = 0.18 + 0.03 + 0.12 = 0.33
因此,在两场比赛之后,如果球队以“获胜”状态开始,则他们仍有 51% 的机会获胜,16% 的机会输球,33% 的机会平局。
这个简单的马尔可夫过程示例演示了如何根据板球队的历史表现概率对锦标赛中板球队比赛的潜在结果进行建模,从而帮助根据当前状态预测其未来状态。
因此,这构成了随机强化学习问题的基础,我们可以使用马尔可夫决策过程对环境进行建模。
三、马尔可夫奖励过程
现在,我们了解了马尔可夫过程,马尔可夫奖励过程是一个马尔可夫过程,我们可以将奖励与马尔可夫过程的状态转换联系起来,但不涉及决策或行动。马尔可夫奖励过程的关键组成部分是:
状态、转移概率、奖励、折扣因子
折扣系数 (γ):
- 代表未来奖励相对于即时奖励的重要性。
- 有助于在价值评估中权衡未来奖励。
让我们继续前面的例子来了解这个马尔可夫过程的价值函数。我们假设状态之间转换的奖励是:
| | Winning | Losing | Drawing |
|---------|---------|--------|---------|
| Winning | +10 | -5 | 0 |
| Losing | +8 | 0 | +2 |
| Drawing | +5 | -3 | 0 |
状态的价值函数使用以下公式计算:
MRP 的价值函数计算
其中γ 表示折扣因子 ,s' 表示下一个状态,s 表示当前状态。
上面的方程被称为贝尔曼方程,它可以帮助我们迭代计算每个状态的价值函数,提供马尔可夫奖励过程中从不同状态开始的预期累积奖励的估计。
马尔可夫决策过程
马尔可夫决策过程是马尔可夫奖励过程+行动。该流程的主要组成部分是:
{S, A, P, R, γ}
其中马尔可夫决策过程成分之上的附加成分是与每个状态转换相关的又名动作。
四、马尔可夫决策过程中的策略
在马尔可夫决策过程(MDP)中,策略规定了代理在不同状态下选择操作的策略或规则。策略定义代理的行为,并通过指定代理在给定状态下应采取的操作来指导决策。
3.1 保单类型
确定性策略 (π):
- 确定性策略为每个状态选择特定的操作。
- 它将每个状态映射到单个操作。
- 示例:在状态s中,策略可能指定“执行操作a 1”。
随机策略 (π):
- 随机策略提供每个状态的操作的概率分布。
- 它指定在一个状态中选择每个可能动作的概率。
- 示例:在状态s中,策略可能指示“以 0.6 的概率采取行动 1,以0.3 的概率采取行动 2,以0.1的概率采取行动 3” 。
在州 's' 采取行动 'a' 的政策
因此,对于给定的策略 (π),计算与状态相关的价值函数的贝尔曼方程可以表示为:
3.2 政策特点
- 探索与利用:策略在探索(尝试不同的操作来收集信息)和利用(利用已知的操作以获得即时奖励)之间取得平衡。
- 最优性:最优策略随着时间的推移最大化预期累积奖励。
最优策略 π*
- 状态价值:根据引导智能体走向更高价值状态(从长远来看会带来更高奖励的状态)的能力来评估策略。
五、马尔可夫决策过程中的政策改进和评估
让我们考虑一个简单的网格世界场景来说明马尔可夫决策过程 (MDP) 中的策略评估和策略改进。
想象一个代理在 3x3 网格世界中导航。代理可以向上、向下、向左或向右移动,并且每一步都会收到 -1 的奖励,直到到达最终状态,它会收到 +10 的奖励。
5.1 政策评估
- 设置:
- 考虑代理在网格中随机移动的初始策略。
2.价值迭代方程(策略评估):
- 价值函数V ( s )估计当前策略下每个状态的预期累积奖励。
- V ( s )的贝尔曼期望方程为:
V ( s ) = Σ(a) π ( a ∣ s ) Σ( s ′, r) p ( s ′, r ∣ s , a )[ r + γ ⋅ V ( s ′)]
在哪里:
- π ( a ∣ s ) 是根据策略在状态s下采取动作a的概率。
- p ( s ', r ∣ s , a ) 是在状态 s 中采取动作 a 时,以奖励r转移到状态s '的概率。
- γ是折扣因子。
3、迭代:
- 迭代所有状态,根据贝尔曼方程更新值估计,直到收敛。
5.2 政策改进
有多种技术和算法可用于马尔可夫决策过程 (MDP) 中强化学习的策略改进。这些方法的重点是增强代理的策略,以随着时间的推移实现更高的累积奖励。
贪心策略改进:
- 方法:选择在每个状态下最大化价值函数的行动。
- 流程:根据当前价值函数更新策略以支持具有最高估计值的行动。
- 目标:旨在通过偏向看似最有回报的行动,使政策更具剥削性。
5.3 政策迭代:
- 方法:政策评估和政策改进步骤交替进行。
- 流程:迭代评估当前策略并根据评估进行更新。
- 目标:通过基于价值估计迭代细化策略,努力收敛到最优策略。
5.4 值迭代:
- 方法:使用贝尔曼最优方程通过迭代更新确定价值函数。
- 过程:通过重复应用贝尔曼方程直到收敛来计算每个状态的值估计。
- 目标:专注于获得最优价值函数,以便根据这些估计来改进政策。
除了这些技术之外,还有基于 Q 的学习、蒙特卡罗策略改进和 Actor-Critic 方法来改进策略,我们将在另一篇文章中讨论这些方法。
六、可观察和部分可观察马尔可夫过程
可观察马尔可夫决策过程(MDP)是强化学习中的一个场景,其中代理在决策过程中可以完全访问环境的当前状态。简单来说:
- 代理确切地知道环境中每一时刻发生的事情。
- 它具有有关当前情况的清晰且完整的信息。
- 决策仅依赖于当前状态,不需要过去的额外信息。
- 这种类型的 MDP 是理想化的,代表代理的观察完美反映环境状态的场景,允许基于准确的信息直接做出决策。
在部分可观察马尔可夫决策过程(POMDP)中,代理缺乏对环境状态的完整和直接访问。相反,它收到的观察结果不明确且不完整,无法完全揭示真实状态。这种不确定性给决策带来了挑战,因为智能体必须根据观察和过去的行动维持对可能状态的信念。
关键点:
- 信息不完整:代理缺乏有关环境状态的完整详细信息。
- 不确定的观察结果:收到的观察结果没有精确地指定状态,从而导致模糊性。
- 信念空间:代理根据观察到的信息维护可能状态的概率
在 POMDP 中工作:
- 信念更新:使用观察和过去的知识不断更新关于可能状态的信念。
- 政策制定:制定考虑不确定性的策略,以根据对潜在状态的信念做出决策。
希望到目前为止您已经对马尔可夫过程、价值函数有了基本的了解,并对与马尔可夫过程相关的策略有了直观的了解。
参考资料:
机器学习5:关于期望的深入讨论_对一个概率分布求期望有什么
机器学习系列4:期望到底是个啥?_机器学习中的期望乐观度
回到未来:使用马尔可夫转移矩阵分析时间序列数据_马尔科夫转移概率矩阵应用案例
@souptik.reach.095。