从马尔可夫奖励过程到马尔可夫决策到强化学习【01/2】

一、说明

关于马尔可夫过程，如何将马尔可夫决策转化成决策依据，这里介绍的基本的思想路径，为读者将来设计和应用决策模型提供理论上的参考。

这是了解强化学习的一系列基础文章的后续文章。如果您有兴趣了解强化学习，请查看此处。

二、马尔可夫过程

让我们尝试通过一个简单的例子来理解马尔可夫过程。（顺便说一句，我真的希望印度能赢得世界杯！）

好吧，回到这个例子，假设下表代表了印度板球队在世界杯比赛中的历史表现。

|         | Winning | Losing | Drawing |
|---------|---------|--------|---------|
| Winning | 0.6     | 0.1    | 0.3     |
| Losing  | 0.3     | 0.4    | 0.3     |
| Drawing | 0.4     | 0.2    | 0.4     |

注意：以上表格是转移矩阵，指把当前状态向量输入后，输出预测出可能的结果向量。

这里有 3 种可能的状态：（获胜、失败和平局）。现在，让我们想象一下球队目前的状态是“胜利”。使用上表中的转移概率：

赢得下一场比赛的概率 = 0.6
输掉下一场比赛的概率 = 0.1
打平下一场比赛的概率 = 0.3

如果球队目前处于“获胜”状态，并且我们想要预测两场比赛后的状态，我们可以连续应用这些概率。

一场比赛后：

获胜概率 = 0.6
失败的概率 = 0.1
打平概率 = 0.3

两场比赛后：

获胜概率 = (0.6 * 0.6) + (0.1 * 0.3) + (0.3 * 0.4) = 0.36 + 0.03 + 0.12 = 0.51
失败概率 = (0.6 * 0.1) + (0.1 * 0.4) + (0.3 * 0.2) = 0.06 + 0.04 + 0.06 = 0.16
打平概率 = (0.6 * 0.3) + (0.1 * 0.3) + (0.3 * 0.4) = 0.18 + 0.03 + 0.12 = 0.33

因此，在两场比赛之后，如果球队以“获胜”状态开始，则他们仍有 51% 的机会获胜，16% 的机会输球，33% 的机会平局。

这个简单的马尔可夫过程示例演示了如何根据板球队的历史表现概率对锦标赛中板球队比赛的潜在结果进行建模，从而帮助根据当前状态预测其未来状态。

因此，这构成了随机强化学习问题的基础，我们可以使用马尔可夫决策过程对环境进行建模。

三、马尔可夫奖励过程

现在，我们了解了马尔可夫过程，马尔可夫奖励过程是一个马尔可夫过程，我们可以将奖励与马尔可夫过程的状态转换联系起来，但不涉及决策或行动。马尔可夫奖励过程的关键组成部分是：

状态、转移概率、奖励、折扣因子

折扣系数 (γ)：

代表未来奖励相对于即时奖励的重要性。
有助于在价值评估中权衡未来奖励。

让我们继续前面的例子来了解这个马尔可夫过程的价值函数。我们假设状态之间转换的奖励是：

|         | Winning | Losing | Drawing |
|---------|---------|--------|---------|
| Winning | +10     | -5     | 0       |
| Losing  | +8      | 0      | +2      |
| Drawing | +5      | -3     | 0       |

状态的价值函数使用以下公式计算：