马尔可夫Markov决策过程 MDP、马尔可夫奖励过程MRP

引言

在概率论及统计学中,马尔可夫过程(英语:Markov process)是一个具备了马尔可夫性质的随机过程,因为俄国数学家安德雷·马尔可夫得名。马尔可夫过程是不具备记忆特质的(memorylessness)。换言之,马尔可夫过程的条件概率仅仅与系统的当前状态相关,而与它的过去历史或未来状态,都是独立、不相关的。
在这里插入图片描述

概论

在这里插入图片描述

1. Markov Decision Process马尔可夫决策过程

机器学习算法(有监督,无监督,弱监督)中,马尔科夫决策过程是弱监督中的一类叫增强学习。增加学习与传统的有监督和无监督不同的地方是,这些方法都是一次性决定最终结果的,而无法刻画一个决策过程,无法直接定义每一次决策的优劣,也就是说每一次的决策信息都是弱信息,所以某种程度上讲,强化学习也属于弱监督学习。从模型角度来看,也属于马尔科夫模型,其与隐马尔科夫模型有非常强的可比性。

下面是一个常用的马尔科夫模型的划分关系
在这里插入图片描述

1.1 MDP定义

MDP就是具有决策状态的马尔可夫奖励过程。这里我们直接给出了马尔可夫决策过程的定义:
在这里插入图片描述

  • 状态(state): 智能体在每个步骤中所处于的状态集合
  • 行为(action): 智能体在每个步骤中所能执行的动作集合
  • 转移概率(transition): 智能体处于状态s下,执行动作a后,会转移到状态s’的概率
  • 奖励(reward): 智能体处于状态s下,执行动作a后,转移到状态s’后获得的立即奖励值
  • 策略(policy): 智能体处于状态s下,应该执行动作a的概率

在这里插入图片描述
值得注意的是,在马尔科夫决策过程中,状态集合是离散的,动作集合是离散的,转移概率是已知的,奖励是已知的。在这个条件下的学习称之为有模型学习。

在这里插入图片描述

1.2 问题求解1

在这里插入图片描述

1.2.1 策略迭代算法

在这里插入图片描述
在这里插入图片描述

1.2.2 值迭代算法

在这里插入图片描述
在这里插入图片描述

1.3 实例

1.3.1 策略迭代实例

在这里插入图片描述
使用马尔科夫决策过程策略迭代算法进行计算,具体过程详见,

https://github.com/persistforever/ReinforcementLearning/tree/master/carrental

1.3.2 值迭代实例

赌徒问题 :一个赌徒抛硬币下赌注,如果硬币正面朝上,他本局将赢得和下注数量相同的钱,如果硬币背面朝上,他本局将输掉下注的钱,当他输光所有的赌资或者赢得$100则停止赌博,硬币正面朝上的概率为p。赌博过程是一个无折扣的有限的马尔科夫决策问题。

使用马尔科夫决策过程值迭代算法进行计算,具体过程详见,
https://github.com/persistforever/ReinforcementLearning/tree/master/gambler

1.4 问题求解2

1.4.1 Policies策略

在这里插入图片描述

1.4.2 Policy based Value Function基于策略的价值函数

在这里插入图片描述

1.4.3 Bellman Expectation Equation贝尔曼期望方程

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1.4.4 Optimal Value Function最优价值函数

在这里插入图片描述

1.4.5 Theorem of MDP定理

在这里插入图片描述

1.4.6 Finding an Optimal Policy寻找最优策略

在这里插入图片描述

1.4.7 Bellman Optimality Equation贝尔曼最优方程

在这里插入图片描述
在这里插入图片描述

1.4.7.1 Solving the Bellman Optimality Equation求解贝尔曼最优方程

贝尔曼最优方程是非线性的,通常而言没有固定的解法,有很多著名的迭代解法:

  • Value Iteration 价值迭代
  • Policy Iteration 策略迭代
  • Q-learning
  • Sarsa

这个可以大家之后去多了解了解。

1.5 最优决策

也许上面的目标函数还不清晰,如何求解最有决策,如何最大化累积回报

下面结合例子来介绍如何求解上面的目标函数。且说明累积回报函数本身就是一个过程的累积回报,回报函数才是每一步的回报。
在这里插入图片描述
下面再来看求解上述最优问题,其中 就是以s为初始状态沿着决策函数走到结束状态的累积回报。

1.6 值迭代

在这里插入图片描述

1.7 策略迭代

值迭代是使累积回报值最优为目标进行迭代,而策略迭代是借助累积回报最优即策略最优的等价性,进行策略迭代。
在这里插入图片描述

1.8 MDP中的参数估计

回过头来再来看前面的马尔科夫决策过程的定义是一个五元组,一般情况下,五元组应该是我们更加特定的问题建立马尔科夫决策模型时该确定的,并在此基础上来求解最优决策。所以在求解最优决策之前,我们还需更加实际问题建立马尔科夫模型,建模过程就是确定五元组的过程,其中我们仅考虑状态转移概率,那么也就是一个参数估计过程。(其他参数一般都好确定,或设定)。

假设,在时间过程中,我们有下面的状态转移路径:
在这里插入图片描述

2. Markov Reward Process马尔可夫奖励过程

2.1 MRP

简单来说,马尔可夫奖励过程就是含有奖励的马尔可夫链,要想理解MRP方程的含义,我们就得弄清楚奖励函数的由来,我们可以把奖励表述为进入某一状态后收获的奖励。奖励函数如下所示:
在这里插入图片描述

2.2 Return回报

在这里插入图片描述

2.3 Value Function价值函数

在这里插入图片描述

2.4 Bellman Equation贝尔曼方程

在这里插入图片描述

https://zhuanlan.zhihu.com/p/271221558

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/345649.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【渝粤题库】国家开放大学2021春3894理工英语1题目

试卷代号:3894 2021年春季学期期末统一考试 理工英语1 试题 2021年7月 注 意 事 项 一、将你的学号、姓名及分校(工作站)名称填写在答题纸的规定栏 内。考试结束后,把试卷和答题纸放在桌上。试卷和答题纸均不得带 出考场。监考人收…

rxjava 被观察者_RxJava:从未来到可观察

rxjava 被观察者大约4年前,我第一次在Matthew Podwysocki的博客上遇到了Reactive Extensions ,但是直到我几周前看到Matthew在Code Mesh上发表演讲后,我才对它有所了解。 最近它似乎越来越流行,我注意到Netflix编写了一个Java版本…

【渝粤题库】国家开放大学2021春3962金融营销基础题目

试卷代号:3962 2021年春季学期期末统一考试 金融营销基础 试题(开卷) 2021年7月 一、单项选择题(在以下各题的备选答案中只有一个是正确的,请将正确答案的字母标号填在括号内,多选、不选、错选均不得分。每…

母函数(Generating function)、矩母函数(Moment Generating Function)

1. 简介 在数学中,某个序列的母函数(Generating function,又称生成函数)是一种形式幂级数,其每一项的系数可以提供关于这个序列的信息。使用母函数解决问题的方法称为母函数方法。 母函数可分为很多种,包括普通母函数、指数母函…

Lambda表达式Java教程

在本文中,我们提供了全面的Lambda Expressions Java教程。 1. Lambda Expressions Java教程–简介 Lambda表达式被认为是Java 8中引入的最好的功能之一。Lambda表达式被认为是Java进入函数式编程世界的第一步 。 可以将其视为无需类即可创建的函数。 它也可以像参数…

国家开放大学2021春1118机电一体化系统设计基础题目

教育 教育 试卷代号: 1118 2021年春季学期期末统一考试 机电一体化系统设计基础 试题 2021年7月 一、单选题(每小题3分.共24分) 1.以下不属于机电一体化系统主要功能的是( )。 A.控制功能 B.检测功能 C.计算功能 D.动力功能 2.为了提高机电…

随机过程

第一部分:为什么要研究随机过程? 人类认识世界的历史,就是一认识和描绘各种运动的历史,从宏观的天体运动到分子的运动,到人心理的运动-我们通称为变化,就是一个东西随时间的改变。 人们最成功的描绘运动的…

为特使建立控制平面的指南-识别组件

确定控制平面所需的组件 由于操作环境的范围千差万别,因此为Envoy实施控制平面所需的组件也可能如此。 例如,在一种极端情况下,如果您在构建时静态生成了Envoy文件并将其发送到Envoy,则需要以下组件: 模板引擎 数据存…

【渝粤题库】国家开放大学2021春2019统计学原理题目

试卷代号:2019 2021年春季学期期末统一考试 统计学原理试题(开卷) 2021年7月 一、单项选择题(下列各题的备选答案中,只有一个选项是正确的,请把正确答案的序号填写在括号内。每小题2分,共40分&a…

43、实战 - 手写一个 batch norm 算法

这是我们手写的 CNN 网络中第三个经典算法。 在 resnet50 这个神经网络中,总共有 conv , bn, relu, pooling, fc(全连接), softmax 这几个经典算法。 而conv,pooling 在之前的章节已经手写过了,relu 属于一行代码就可以写完的算法,很简单可以暂时忽略,fc(全连接)可以直…

【渝粤题库】国家开放大学2021春2047商业银行经营管理题目

试卷代号:2047 2021年春季学期期末统一考试 商业银行经营管理 试题(开卷) 2021年7月 一、单项选择题(每题2分,共10分) 1.( )是指在进行贷款定价时,银行首先必须确保贷款收益足以弥补资金成本和各…

网络流量模型

传统的网络流量模型假设数据包到达的过程为泊松过程,数据包长度为指数分布,并将这种模型成功应用于ARPANET,但是随着网络规模扩大、Qos保证技术以及新的应用的出现,网络流量特征得到极大改变,经典的泊松模型已经不能再…

java steam_Java,Steam控制器和我

java steam您是否想过是否可以将现有的东西用于新的东西? 我看了一些所谓的“蒸汽控制器”(从现在开始为SC)的镜头,并看着我的游戏手柄。 问我自己是否有可能以类似蒸汽的方式使用它,我找到了一些Java库并创建了一个项…

【渝粤题库】国家开放大学2021春2096经济法学题目

试卷代号:2096 2021年春季学期期末统一考试 经济法学 试题 2021年7月 一、单项选择题(每小题1分,共10分。在每小题的四个备选答案中,选出一个正确的答案,请将正确答案的序号填在括号内) 1.能够体现经济法的…

【渝粤题库】国家开放大学2021春2108刑法学(2)题目

试卷代号:2108 2021年春季学期期末统一考试 刑法学(2) 试题 2021年7月 一、选择题(每小题的备选答案中至少有一个是正确的,请将正确答案的序号字母填入题目括号内。多选、少选均不得分。每小题3分,共21分) 1.信用卡诈骗…

如何在STS中创建Spring Boot项目

你好朋友, 在本教程中,我们将逐步介绍如何在STS(Spring工具套件)中创建Spring Boot项目。 步骤1: 如果您尚未从相应的操作系统的以下链接中下载Spring工具套件,请下载: https://spring.io/to…

【渝粤题库】国家开放大学2021春2175市场营销学题目

试卷代号:2175 2021年春季学期期末统一考试 市场营销学 试题 2021年7月 注意事项 一、将你的学号、姓名及分校(工作站)名称填写在答题纸的规定栏内。考试结束后,把试卷和答题纸放在桌上。试卷和答题纸均不得带出考场。监考人收完考…

置信区间(confidence interval)

要理解置信区间,就要从统计学最基本最核心的思想去思考,那就是用样本估计总体。 置信水平(Confidence level)是指总体参数值落在样本统计值某一区内的概率; 而置信区间(confidence interval)是指在某一置信水平下&…

【渝粤题库】国家开放大学2021春2223物业管理财税基础题目

试卷代号:2223 2021年春季学期期末统一考试 物业管理财税基础 试题(开卷) 2021年7月 一、单项选择题(每题2分,共20分) 1.以下属于零基预算优点的是( )。 A.简单、相对稳定. B.扩大了预算的适用范围,便于预算…

【渝粤题库】国家开放大学2021春2246社会工作概论题目

试卷代号:2246 2021年春季学期期末统一考试 社会工作概论 试题 2021年7月 一、单选题(下列选项中只有一个是正确的,将正确的答案序号填写在括号内。共10题,每题2分,共计20分) 1.下列选项中属于社会工作直接…