马尔可夫Markov决策过程 MDP、马尔可夫奖励过程MRP

引言

在概率论及统计学中,马尔可夫过程(英语:Markov process)是一个具备了马尔可夫性质的随机过程,因为俄国数学家安德雷·马尔可夫得名。马尔可夫过程是不具备记忆特质的(memorylessness)。换言之,马尔可夫过程的条件概率仅仅与系统的当前状态相关,而与它的过去历史或未来状态,都是独立、不相关的。
在这里插入图片描述

概论

在这里插入图片描述

1. Markov Decision Process马尔可夫决策过程

机器学习算法(有监督,无监督,弱监督)中,马尔科夫决策过程是弱监督中的一类叫增强学习。增加学习与传统的有监督和无监督不同的地方是,这些方法都是一次性决定最终结果的,而无法刻画一个决策过程,无法直接定义每一次决策的优劣,也就是说每一次的决策信息都是弱信息,所以某种程度上讲,强化学习也属于弱监督学习。从模型角度来看,也属于马尔科夫模型,其与隐马尔科夫模型有非常强的可比性。

下面是一个常用的马尔科夫模型的划分关系
在这里插入图片描述

1.1 MDP定义

MDP就是具有决策状态的马尔可夫奖励过程。这里我们直接给出了马尔可夫决策过程的定义:
在这里插入图片描述

  • 状态(state): 智能体在每个步骤中所处于的状态集合
  • 行为(action): 智能体在每个步骤中所能执行的动作集合
  • 转移概率(transition): 智能体处于状态s下,执行动作a后,会转移到状态s’的概率
  • 奖励(reward): 智能体处于状态s下,执行动作a后,转移到状态s’后获得的立即奖励值
  • 策略(policy): 智能体处于状态s下,应该执行动作a的概率

在这里插入图片描述
值得注意的是,在马尔科夫决策过程中,状态集合是离散的,动作集合是离散的,转移概率是已知的,奖励是已知的。在这个条件下的学习称之为有模型学习。

在这里插入图片描述

1.2 问题求解1

在这里插入图片描述

1.2.1 策略迭代算法

在这里插入图片描述
在这里插入图片描述

1.2.2 值迭代算法

在这里插入图片描述
在这里插入图片描述

1.3 实例

1.3.1 策略迭代实例

在这里插入图片描述
使用马尔科夫决策过程策略迭代算法进行计算,具体过程详见,

https://github.com/persistforever/ReinforcementLearning/tree/master/carrental

1.3.2 值迭代实例

赌徒问题 :一个赌徒抛硬币下赌注,如果硬币正面朝上,他本局将赢得和下注数量相同的钱,如果硬币背面朝上,他本局将输掉下注的钱,当他输光所有的赌资或者赢得$100则停止赌博,硬币正面朝上的概率为p。赌博过程是一个无折扣的有限的马尔科夫决策问题。

使用马尔科夫决策过程值迭代算法进行计算,具体过程详见,
https://github.com/persistforever/ReinforcementLearning/tree/master/gambler

1.4 问题求解2

1.4.1 Policies策略

在这里插入图片描述

1.4.2 Policy based Value Function基于策略的价值函数

在这里插入图片描述

1.4.3 Bellman Expectation Equation贝尔曼期望方程

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1.4.4 Optimal Value Function最优价值函数

在这里插入图片描述

1.4.5 Theorem of MDP定理

在这里插入图片描述

1.4.6 Finding an Optimal Policy寻找最优策略

在这里插入图片描述

1.4.7 Bellman Optimality Equation贝尔曼最优方程

在这里插入图片描述
在这里插入图片描述

1.4.7.1 Solving the Bellman Optimality Equation求解贝尔曼最优方程

贝尔曼最优方程是非线性的,通常而言没有固定的解法,有很多著名的迭代解法:

  • Value Iteration 价值迭代
  • Policy Iteration 策略迭代
  • Q-learning
  • Sarsa

这个可以大家之后去多了解了解。

1.5 最优决策

也许上面的目标函数还不清晰,如何求解最有决策,如何最大化累积回报

下面结合例子来介绍如何求解上面的目标函数。且说明累积回报函数本身就是一个过程的累积回报,回报函数才是每一步的回报。
在这里插入图片描述
下面再来看求解上述最优问题,其中 就是以s为初始状态沿着决策函数走到结束状态的累积回报。

1.6 值迭代

在这里插入图片描述

1.7 策略迭代

值迭代是使累积回报值最优为目标进行迭代,而策略迭代是借助累积回报最优即策略最优的等价性,进行策略迭代。
在这里插入图片描述

1.8 MDP中的参数估计

回过头来再来看前面的马尔科夫决策过程的定义是一个五元组,一般情况下,五元组应该是我们更加特定的问题建立马尔科夫决策模型时该确定的,并在此基础上来求解最优决策。所以在求解最优决策之前,我们还需更加实际问题建立马尔科夫模型,建模过程就是确定五元组的过程,其中我们仅考虑状态转移概率,那么也就是一个参数估计过程。(其他参数一般都好确定,或设定)。

假设,在时间过程中,我们有下面的状态转移路径:
在这里插入图片描述

2. Markov Reward Process马尔可夫奖励过程

2.1 MRP

简单来说,马尔可夫奖励过程就是含有奖励的马尔可夫链,要想理解MRP方程的含义,我们就得弄清楚奖励函数的由来,我们可以把奖励表述为进入某一状态后收获的奖励。奖励函数如下所示:
在这里插入图片描述

2.2 Return回报

在这里插入图片描述

2.3 Value Function价值函数

在这里插入图片描述

2.4 Bellman Equation贝尔曼方程

在这里插入图片描述

https://zhuanlan.zhihu.com/p/271221558

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/345649.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

母函数(Generating function)、矩母函数(Moment Generating Function)

1. 简介 在数学中,某个序列的母函数(Generating function,又称生成函数)是一种形式幂级数,其每一项的系数可以提供关于这个序列的信息。使用母函数解决问题的方法称为母函数方法。 母函数可分为很多种,包括普通母函数、指数母函…

Lambda表达式Java教程

在本文中,我们提供了全面的Lambda Expressions Java教程。 1. Lambda Expressions Java教程–简介 Lambda表达式被认为是Java 8中引入的最好的功能之一。Lambda表达式被认为是Java进入函数式编程世界的第一步 。 可以将其视为无需类即可创建的函数。 它也可以像参数…

随机过程

第一部分:为什么要研究随机过程? 人类认识世界的历史,就是一认识和描绘各种运动的历史,从宏观的天体运动到分子的运动,到人心理的运动-我们通称为变化,就是一个东西随时间的改变。 人们最成功的描绘运动的…

java steam_Java,Steam控制器和我

java steam您是否想过是否可以将现有的东西用于新的东西? 我看了一些所谓的“蒸汽控制器”(从现在开始为SC)的镜头,并看着我的游戏手柄。 问我自己是否有可能以类似蒸汽的方式使用它,我找到了一些Java库并创建了一个项…

如何在STS中创建Spring Boot项目

你好朋友, 在本教程中,我们将逐步介绍如何在STS(Spring工具套件)中创建Spring Boot项目。 步骤1: 如果您尚未从相应的操作系统的以下链接中下载Spring工具套件,请下载: https://spring.io/to…

置信区间(confidence interval)

要理解置信区间,就要从统计学最基本最核心的思想去思考,那就是用样本估计总体。 置信水平(Confidence level)是指总体参数值落在样本统计值某一区内的概率; 而置信区间(confidence interval)是指在某一置信水平下&…

卫星运动轨道

地球的自转轴与地球公转平面并不垂直,因此,黄道面和地球赤道面并不重合,而是有大约23.4的夹角,通常被称为黄赤交角,也称为转轴倾角、倾角(obliquity)或轴交角(axial inclination&…

随机过程:指数分布、泊松过程、更新过程(renewal process)+大数定律

笔记主要基于中文版《应用随机过程 Introduction to Probability Models 》(Sheldon M. Ross),只有非常少的一部分是我自己的注解。写这个笔记的目的是自己复习用,阅读需要一定的微积分和概率论基础。本人为初学者,且全部为自学,如…

接受拒绝采样(Acceptance-Rejection Sampling)

我们所说的抽样,其实是指从一个概率分布中生成观察值(observations)的方法。而这个分布通常是由其概率密度函数(PDF)来表示的。而且, 即使在已知PDF的情况下,让计算机自动生成观测值也不是一件容…

gradle文件不识别_识别Gradle约定

gradle文件不识别通过约定进行配置具有许多优点,尤其是在简洁方面,因为开发人员不需要显式配置通过约定隐式配置的内容。 但是,在利用约定进行配置时,需要注意这些约定。 这些约定可能已记录在案,但是当我可以编程方式…

Telesat、OneWeb及SpaceX三个全球宽带低轨卫星星座系统的技术对比

编者按:本文来自微信公众号“卫星与网络”(ID:satnetdy),作者Inigo del Portilloa,*, Bruce G. Cameronb, Edward F. Crawleyc,编译 刘帅军、胡月梅(中科院软件所),36氪经…

腾讯人均每月薪酬成本超8万元,员工总数首次超10万

11月10日,腾讯在23岁“生日”即将到来之际发布2021年第三季度业绩报告。财报显示,第三季度腾讯总收入为人民币1424亿元(220亿美元 ),同比增长13%;净利润(Non-IFRS)317.5亿元,同比减少…

低轨卫星通信系统发展综述

最近几年低轨移动通信领域风起云涌,Iridium、OneWeb、Boeing、SpaceX 这些商业航天的 独角兽 都先后实施或宣布自己在这一领域雄心勃勃的计划。 通信、导航和遥感是卫星应用领域的三驾马车,简称 通导遥。鉴于任务特性,通信卫星和导航卫星通常…

创建您的第一个servlet

在本教程中,我们将学习如何使用Servlet创建非常基本的Web应用程序。 Servlet是一类,扩展了服务器拦截和响应传入请求的功能。 Servlet是一个Web组件,可在服务器上进行编写,构建和部署,以创建动态Web页面。 首先&…

StarLink星座最新动态及星间组网动态路由探讨

StarLink星座最新动态及星间组网动态路由探讨 2020-06-24 11:50 StarLink星座最新动态及星间组网动态路由探讨 作者 | 刘帅军、徐帆江、刘立祥、范媛媛、王大鹏 (中国科学院软件研究所,天基综合信息系统重点实验室) 一 概述 自2020年6月开…

累计分布函数CDF、互补累计分布函数CCDF、期望Expection

1 CDF 累积分布函数(Cumulative Distribution Function,CDF),又叫分布函数,是概率密度函数的积分,能完整描述一个实随机变量X的概率分布。一般以大写CDF标记,,与概率密度函数probability density function&#xff08…

markov chain, MRP MDP

在强化学习中,马尔科夫决策过程(Markov decision process, MDP)是对完全可观测的环境进行描述的,也就是说观测到的状态内容完整地决定了决策的需要的特征。几乎所有的强化学习问题都可以转化为MDP。本讲是理解强化学习问题的理论基…

(网络)流和会话

流:指具有相同五元组(源IP,源端口,目的IP,目的端口,协议)的所有包 会话:指由双向流组成的所有包(源和目的互换)

Filtration, σ-algebras

1. Filtration filtration在钱敏平老师和龚光鲁老师的《随机过程论》中直接称其为非降的KaTeX parse error: Undefined control sequence: \sigmma at position 1: \̲s̲i̲g̲m̲m̲a̲代数族。如图。 一般叫σ\sigmaσ-代数流或σ\sigmaσ-域流 在鞅论中的花体FtF_tFt​&…

gradle 命令行_Gradle命令行便利

gradle 命令行在我的《用Gradle构建Java的gradle tasks 》一文中,我简要提到了使用Gradle的“ gradle tasks ”命令来查看特定Gradle构建的可用任务。 在这篇文章中,我将对这一简短提及进行更多的扩展,并查看一些相关的Gradle命令行便利。 Gr…