如何理解马尔可夫决策过程?

1 引言

马尔可夫性:无后效性,指系统的下个状态只与当前状态信息有关,而与更早之前的状态无关;
马尔可夫链(Markov Chain, MC):系统的下一个状态只与当前状态相关;
马尔可夫决策过程(Markov Decision Process, MDP):具有马尔可夫性,与MC不同的是MDP还考虑了动作,即系统下个状态不仅和当前的状态有关,也和当前采取的动作有关。
以下棋为例:我们在某个局面(状态sis_isi)走了一步(动作aia_iai),这时对手的选择(导致下个状态si+1s_{i+1}si+1)我们是不能确定的,但是他的选择只和sis_isiaia_iai有关,而不用考虑更早之前的状态和动作。

2 马尔可夫决策过程

一个马尔可夫决策过程可以由一个四元组表示:
M=(S,A,Psa,R)(1)M = (S, A, P_{sa}, R) \tag1M=(S,A,Psa,R)(1)

  • S={s1,s2,…,sk}S = \{s_1, s_2, \dots, s_k\}S={s1,s2,,sk}:状态集(states),sis_isi表示第iii步的状态;
  • A={a1,a2,…,ak}A = \{a_1, a_2, \dots, a_k\}A={a1,a2,,ak}:一组动作(actions),aia_iai表示第iii步的动作;
  • PsaP_{sa}Psa:状态转移概率,当前si∈Ss_i \in SsiS状态下,经过ai∈Aa_i \in AaiA作用后,会转移到的其它状态的概率分布情况,例如比如,在状态si∈Ss_i \in SsiS下执行动作ai∈Aa_i \in AaiA,转移到si+1∈Ss_{i+1} \in Ssi+1S的概率可以表示为p(si+1∣si,ai)p(s_{i+1} \vert s_i, a_i)p(si+1si,ai);
  • R:S×A↦RR: S \times A \mapsto \mathbb{R}R:S×AR:回报函数(reward function),如果回报只与状态有关,可以简化为R:S↦RR: S \mapsto \mathbb{R}R:SR。如果一组(si,ai)(s_{i},a_i)(si,ai)转移到了下个状态si+1s_{i+1}si+1,那么回报函数可记为r(si+1∣si,ai)r(s_{i+1}|s_i, a_i)r(si+1si,ai)。如果(si,ai)(s_i,a_i)(si,ai)对应的下个状态si+1s_{i+1}si+1是唯一的,那么回报函数也可以记为r(si,ai)r(s_i,a_i)r(si,ai)

MDP 的动态过程如下:

  • 智能体(agent)的初始状态为s0s_0s0;
  • AAA 中挑选一个动作a0a_0a0执行,执行后,agent 按PsaP_{sa}Psa概率随机转移到了下一个s1s_1s1状态,s1∈Ps0a0s_1 \in P_{s_0a_0}s1Ps0a0
  • 然后再执行一个动作a1a_1a1,就转移到了s2s_2s2,接下来再执行a2a_2a2,…;
  • 可以用下面的图表示状态转移的过程:

在这里插入图片描述
如果回报rir_iri是根据状态sis_isi和动作aia_iai得到的,则MDP可以如图表示:
在这里插入图片描述

3 值函数(value function)

增强学习学到的是一个从环境状态到动作的映射(即行为策略),记为策略π:S→Aπ: S→Aπ:SA。而增强学习往往又具有延迟回报的特点: 如果在第nnn步输掉了棋,那么只有状态sns_nsn和动作ana_nan获得了立即回报r(sn,an)=−1r(s_n,a_n)=-1r(sn,an)=1,前面的所有状态立即回报均为0。所以对于之前的任意状态sss和动作aaa,立即回报函数r(s,a)r(s,a)r(s,a)无法说明策略的好坏。因而需要定义值函数(value function,又叫效用函数)来表明当前状态下策略πππ的长期影响。

  • Vπ(s)V^π(s)Vπ(s):策略πππ下,状态sss的值函数;
  • rir_iri:未来第iii步的立即回报。

常见的值函数有以下三种:
Vπ(s)=Eπ[∑i=0hri∣s0=s](2)V^π(s) = E_{\pi}\left[\sum_{i=0}^{h} r_i \vert s_0 = s \right] \tag2Vπ(s)=Eπ[i=0hris0=s](2)

Vπ(s)=lim⁡h→∞Eπ[1h∑i=0hri∣s0=s](3)V^π(s) = \lim_{h \rightarrow \infty}E_{\pi}\left[\frac{1}{h}\sum_{i=0}^{h} r_i \vert s_0 = s \right] \tag3Vπ(s)=hlimEπ[h1i=0hris0=s](3)

Vπ(s)=Eπ[∑i=0∞γiri∣s0=s](4)V^π(s) = E_{\pi}\left[\sum_{i=0}^{\infty} \gamma^{i} r_i \vert s_0 = s \right] \tag4Vπ(s)=Eπ[i=0γiris0=s](4)
其中:
a) 是采用策略π的情况下未来有限h步的期望立即回报总和;
b) 是采用策略π的情况下期望的平均回报;
c) 是值函数最常见的形式,式中γ∈[0,1]γ∈[0,1]γ[0,1]称为折合因子,表明了未来的回报相对于当前回报的重要程度。特别的,γ=0γ=0γ=0时,相当于只考虑立即不考虑长期回报,γ=1γ=1γ=1时,将长期回报和立即回报看得同等重要。

4 策略

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5 对2048游戏的建模

s1s_1s1: 初始化状态,随机产生的棋盘;
a1a_1a1:用户连接相同的数字后,系统为棋盘分配新数字的动作;
s2s_2s2:用户选择如何连线后导致的下一个棋盘,该棋盘依然有空缺,需要填充新数字;
p(s2∣s1,a1)p(s_{2} \vert s_1, a_1)p(s2s1,a1):经过a1a_1a1操作后状态从s1s_1s1s2s_2s2的概率,这个我觉得可以通过统计得到;
奖励函数:是设计的难点
如何进行训练:也是一个难点

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/507489.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

雷电3接口能干嘛_acasis阿卡西斯推出首款雷电3接口WIFI6网卡:内置Intel AX200

手机、笔记本、平板等智能移动设备已经无声无息成为人们不可或缺的一部分,5G、WiFi是作为信息首发的主要通讯技术。还记得以前连接路由器的人多了就开始卡起来,这是旧式WiFi信道拥堵所造成的,随着技术发展,WiFi从802.11n到802.11a…

萤火虫小程序_9.9元起!萤火虫中秋文化节来了!特价门票限量秒杀,手慢无!...

记忆中关于儿时夏天的美好:睡莲娇绽,绿树成荫,抱着大半个西瓜对着吹风扇,叼着冰棍在院子里玩蛐蛐儿,叫上小伙伴们浅溪里扑棱水,带上手电去树林里寻萤火虫…然而充满浪漫色彩的夏天转瞬即逝,心心…

jmeter 加密解密_犯罪大师入门篇密文答案 谜之解密入门篇密文解题详解_游戏资讯...

第一关犯罪大师入门篇密文答案是什么?犯罪大师谜之解密开启了新的入门篇解密,这次的解密分为四章,每章的内容涉及猪圈密码、埃特巴什密码和元音密码三个内容。因此对玩家来讲难度是很高的,那么具体的答案是什么呢?这里就为大家带…

人工智能+录/测井数据的一些应用举例

1 横波速度的预测(油层段) https://www.bilibili.com/video/BV1xt4y1B7Mx?spm_id_from333.337.search-card.all.click 2 泥质含量的预测 https://www.bilibili.com/video/BV1tr4y1P7x6?spm_id_from333.337.search-card.all.click 3 甜点和非甜点预…

redmi airdots手动串联_串联谐振试验装置组成图

原标题:串联谐振试验装置组成图湖北中试高测电气控股有限公司技术博士为您解说:串联谐振试验装置组成图中试控股是串联谐振试验装置的生产厂家,串联谐振试验装置主要针对10kV、35kV电缆,35kV主变,交流耐压试验设计制造…

From AlphaGo Zero to 2048论文分享

0 摘要 近年来,游戏 2048 获得了巨大的人气 [6]。游戏允许玩家移动屏幕上的数字(2 的幂,例如 2、4、8、16 等),总和至少为 2048。因为它只有 4 个动作,所以很容易上手: 上、下、左、右。但是,很…

云计算的概念_近500亿资金汹涌出逃!云计算概念龙头抛压沉重,科技股资金出逃名单出炉...

数据是个宝数据宝炒股少烦恼两市主力资金全天净流出492.93亿元。科技股今日资金集中流出,云计算概念浪潮信息流出资金超9亿元。受假日外围市场不振影响,A股三大指数低开后弱势震荡,最终集体小幅收跌。截至收盘,沪指下跌0.61%&…

iphone8plus屏幕尺寸_百思买在苹果发布会前列出了一款“iPhone SE Plus”屏幕保护保护膜...

百思买旗下品牌Insignia在苹果“时光飞逝”发布会活动前几个小时,在其网站上开始销售一款名叫“iPhone SE Plus”的屏幕保护贴,尽管预计苹果不会活动上发布任何iPhone。更大的iPhone SE过去一直被各路泄露好手提到,不过普遍认为它会在2021年初…

英文写作句子积累

0 摘要 In this paper, another strategy to learn from multi-label data is studied, where label-specific features are exploited to benefit the discrimination of different class labels. Accordingly, an intuitive yet effective algorithm named LIFT, i.e. multi…

手机qq和电脑qq怎么同步消息_手机QQ接入华为HMS!停止运行也能接收消息

腾讯昨日发布了安卓手机QQ 8.4.10正式版,带来了视频包厢、图片提取文字即时翻译、同时扫描多个二维码等新玩法、新功能。据网友@皮蛋棒棒糖发现,新版手机QQ已经悄然接入了华为HMS移动服务框架,基于华为提供…

安卓手机软件开发_无代码手机app软件开发,让人人都是专业开发工程师

点击上方蓝色字关注我们~近期,谷歌发布了自己的无代码在线app开发平台,这款全新工具旨在让任何一个人都可以轻松进行手机app软件开发。这样的动作无疑指引着安卓软件开发的未来。🙊1无代码开发手机app其实由来已久,业内反复讨论了…

AD19 add pins to nets错误_《英雄联盟手游》错误代码问题大全 LOL的错误代码都是什么意思...

英雄联盟手游上线引起广泛的关注,但是有些玩家在进入游戏的时候出现了代码报错的问题,那么针对这些不同的错误代码要如何解决呢?100036 请求超时,网络不好或者加速器速度不够,换个好点的网络或者加速器 10075 100036 账号没有在p…

Linux编程基础 1:初识Linux

0 学分、课时、成绩组成 本课程3学分(包含上机项目) 理论课时24,上机课时24 考核方式介绍及各项所占比重 1 知识准备 计算机网络基础:OSI模型,TCP/IP协议相关知识 C语言与数据结构相关的知识:指针&…

Linux编程基础 2.1:Linux文件系统与操作

1 文件I/O open() read() write() lseek() close() 1.1 open函数 #include <fcntl.h> int open(const char *pathname, int flags[, mode_t mode);open函数参数说明&#xff1a; pathname&#xff1a;待打开文件的文件路径名&#xff1b;flags&#xff1a;访问模式&a…

主成分分析法_探索主成分分析法

主成分分析法 (Principal Component Analysis, PCA) 是一种数据压缩法&#xff0c;可以从数据中提取重要的部分并排除不重要的部分&#xff0c;是奇异值分解 (Singular Value Decomposition, SVD) 的重要应用。SVD 是线性代数的一个亮点。 是一个 的列阵&#xff0c;矩阵秩 &am…

android 插入耳机 使用自身mic录音_这样选用麦克风,耳机降噪效果会更好

降噪耳机已经越来越普及&#xff0c;降噪耳机要想实现好的降噪效果面临很多挑战&#xff0c;其中如何正确选用麦克风又是一项具有重要影响的基础工作。本文目的旨在帮助读者正确选用麦克风以实现更好的耳机降噪性能&#xff0c;当然也可以帮助您更好地了解降噪耳机原理与实现方…

心电图 python_ST段凹面型向上抬高,一定是早期复极?心电图读图第201期

病 历 回 顾一名48岁男性患者&#xff0c;有20年吸烟史。打壁球时出现胸骨后闷痛。他被迫中止并休息。其胸痛仍未缓解&#xff0c;同伴把他送至附近急诊室并做了下列心电图。问题&#xff1a;心电图有何显示&#xff1f;可能的诊断是什么&#xff1f;可能受累的冠脉&#xff1f…

Linux编程基础 3.1:进程控制

1 进程相关概念 1.1 进程和程序 程序&#xff1a;编译好的二进制文件&#xff0c;在磁盘上&#xff0c;不占用系统资源&#xff08;cpu、内存、打开的文件、设备、锁…&#xff09;进程&#xff1a;一个抽象的概念&#xff0c;与操作系统原理联系紧密。进程是活跃的程序&…

nlp mrc的损失是什么_田渊栋从数学上证明ICLR最佳论文“彩票假设”,强化学习和NLP也适用...

新智元报道 来源&#xff1a;Facebook AI作者&#xff1a;Ari Morcos、田渊栋 编辑&#xff1a;肖琴【新智元导读】ICLR 2019最佳论文提出的“彩票假设”能够将神经网络缩小10-100倍&#xff0c;而不损失性能。Facebook田渊栋团队的最新研究发现了第一个确定的证据&#xff0…

Linux编程基础 3.2:exec函数族

2 exec函数族 使用fork()函数创建的子进程&#xff0c;其中包含的程序代码完全相同&#xff0c;只能根据fork()函数的返回值&#xff0c;执行不同的代码分支。 由exec函数族中的函数&#xff0c;则可以根据指定的文件名或路径&#xff0c;找到可执行文件。 fork&#xff1a;子…