planning algorithms chapter 2

planning algorithms chapter 2 :Discrete Planning

离散可行规划导论

问题定义

离散可行规划

在离散规划中,状态是“可数”的,有限的。
离散可行规划:

  1. 非空状态空间 X
  2. 对于每个状态 x,存在一个有限的动作空间 U(x)
  3. 对于每个状态和动作空间,存在状态转移方程,产生一个新的状态
  4. 一个初始状态 xi
  5. 一个目标集 Xg

为了方便表达离散可行规划的定义,通常采用有向状态转移图来表示,图上的顶点集合表示状态空间 X,只有当两顶点之间可状态转移时,图上两顶点之间的有向边才存在。初始状态和目标集可以表示为图上特别指定的顶点。

有向状态转移图

离散规划的例子

  • 2D 网格上移动(“迷宫”)

迷宫

  • 魔方拼图

拼图

图搜索算法

前向搜索算法

通用前向图搜索算法模板

上图显示了通用图搜索算法模板,其中有几点需要注意:Q 内部如何排序,如何判断状态属于目标状态,如何得到计划(动作序列),如何判断该状态是否已经访问过,是否需要更新状态代价值(如在Dijkstra 和 A* 算法)

几种前向搜索算法,区别在于定义了Q 这个优先级队列内部不同的排序方式

  • 广度优先:FIFO
  • 深度优先:LIFO
  • Dijkstra :一种图单源最短路径搜索算法,一种特殊的动态规划形式
    在Dijkstra中,图上每条边附带一个代价(l(x, u) >= 0),Q 内部是按照从初始状态到达该状态的累计代价(C(x),cost-to-come)排序。cost-to-come 在搜索过程中通过DP方式来增量计算(C(x‘) = C(x) + l(x, u), 代表最优)。
    Dijkstra 可以保证一旦某个状态被访问,则该状态的 cost-to-come一定是最优的。Dijkstra 内部 Q 实现采用的 Fibonacci heap 这种数据结构,可以实现在常数时间内判断某个状态是否被访问过。
  • A-star :基于Dijkstra进行扩展,引入启发项值(G(x),cost-to-go),当G(x) = 0 时, A-star 退化成Dijkstra,Q 内部是按照从初始状态到达目标状态的预估最优代价( C(x’) + G(x‘)) 进行排序。
  • 最佳优先搜索:Q 内部是按照 cost-to-go 排序,一种贪心搜索,不保证最优,但搜索速度快。
  • 迭代加深搜索:通过不断增加深度优先搜索深度的一种搜索,将深度优先搜索转换为一种系统性搜索方式(能够访问可到达的所有状态)。
    迭代加深搜索相比 BFS 使用更少的内存,迭代加深搜索结合 A-star 的思想,形成了 IDA* 算法,在每次迭代过程中,最大深度步长为C(x’) + G(x‘)。

其他搜索算法

  • 反向搜索算法

通用反向搜索算法模板

  • 双向搜索算法

通用双向搜索算法模板
当两棵搜索树相遇时,搜索结束,返回成功。如果其中任一搜索树的优先级队列为空, 且两颗树未相遇,则搜索结束,返回失败。

搜索算法的统一视角

上述所有的搜索算法遵循以下一些共同的模式:

  1. 初始
    搜索开始时,搜索图 G(V,E)中 E为空集,V只包含初始状态
  2. 选择顶点
    从V中选择一个顶点,这通常是通过维护一个优先级队列实现
  3. 应用动作
    基于V中选择的某个顶点,应用动作后,生成一个新的状态 x = f(x0, u)
  4. 向搜索图中插入有向边
    新状态 x 如果不在 V 中,则将 x 插入到 V 中
  5. 检查解决方案
    如果只有一颗搜索树,根据搜索图 G 得到从初始状态到目标状态的路径会比较简单。如果搜索树数量大于 1 颗,复杂度会增加。
  6. 返回到步骤 2
    迭代直到找到一个解决方案。

离散最优规划

最优定长规划

离散定长最优规划
\(L\left ( \pi _{K} \right ) = \sum_{k=1}^{K}l(x_{k},u_{k}) + l_{F}(x_{F})\)

通过引入代价项Lf(xf)这一技巧,将离散可行规划中的约束转换为优化问题代价函数中的一项。

基本思想: 最优规划解决方案的子组成方案也是最优的,于是可以通过动态规划方法解决。在最优定长规划中,采用一种迭代算法,称为 值迭代,它的主要思想是在状态空间中迭代计算最优的 cost-to-go(或 cost-to-come)。Dijkstra’s algorithm 也是 值迭代的一种方式。

反向值迭代

基本思想: 在状态空间中迭代计算最优的 cost-to-go 代价值。在特殊场景下,该方法退化为 Dijkstra 方法。

符号: $ G_{k}^{ \ast} $ :F 表示最后一步,$ G_{k}^{ \ast} $ 表示从第 k 步到 最后一步(F 步)最佳计划下的累计代价

G

初始条件: $ G_{F}^{ \ast}\left ( x_{F} \right ) = l_{F}\left ( x_{F} \right ) $
结论:

结论
推导过程:

推导

值迭代过程:
$ G_{F}^{ \ast}\rightarrow G_{K}^{ \ast}\rightarrow G_{K-1}^{ \ast}\cdots G_{k}^{ \ast}\rightarrow G_{k-1}^{ \ast}\rightarrow\cdots G_{2}^{ \ast}\rightarrow G_{1}^{ \ast} $

时间复杂度: $ O\left ( K\left | X \right |\left | U \right | \right ) $

离散最优规划标准定义\(L\left ( \pi _{K} \right ) = \sum_{k=1}^{K}l(x_{k},u_{k}) + l_{F}(x_{F})\),该时间复杂度为 $ O\left | U \right |^K $,通过引入动态规划,极大降低了复杂度。

举例:

最优cost-to-go
如上图,a 列 $ G_{1}^{ \ast} $ 的值 $G_{1}^{ \ast}\left ( a \right ) $ 代表了 5 步定步长最优规划的累计代价为 6 。那么如何体现动态规划思想降低时间复杂度呢?
当计算 $ G_{4}^{ \ast} $ 的值时,只有 b 和 c 可以只经过 1 步到达 d,再经过1 步到达目标 e,因此只有\(G_{4}^{ \ast}\left ( b \right )\)\(G_{4}^{ \ast}\left ( c \right )\)为有限值。再计算 \(G_{3}^{ \ast}\) 的值时,只有经过 b 和 c 的路径才可能经过 5 步到达 目标 e,因此缩小了考虑的范围,具体程序表现为选择到达下一顶点的最小累计代价的行为。

那么,得到了最佳cost-to-go的表,如何提取最佳计划(或路径)?
一种解决方案是为每个顶点存储最优 \(G_{n}^{ \ast}\)所对应的行为,因此这样需要的内存复杂度为 \(O(K\left | X \right |)\)

正向值迭代

  • 为什么需要正向值迭代?正向值和反向值迭代的区别是什么?
    反向:
    反向值迭代可以同时找到各顶点到目标顶点的最优计划;
    反向值迭代需要目标顶点是确定不变的;
    正向:
    正向值迭代可以用来找到从初始顶点出发到其他各顶点的最优计划;
    正向值迭代需要初始顶点是确定不变的;

基本思想: 在状态空间中迭代计算最优的 cost-to-come 代价值。
下图为上例,根据正向值迭代得到的最优 cost-to-come 代价值表。
最优cost-to-come

最优不定步长规划

离散不定长最优规划

\(L\left ( \pi _{K} \right ) = \sum_{k=1}^{K}l(x_{k},u_{k}) + l_{F}(x_{F})\)

通过引入代价项Lf(xf)这一技巧,将离散可行规划中的约束转换为优化问题代价函数中的一项。

对比最优定长规划问题和最优不定步长规划的区别,主要在于终止条件的设置。
定长问题:
定长问题
不定步长:允许不同长度的计划
不定长问题

在最优不定步长问题中,从\(x_{I}\)\(X_{G}\)的两步计划\(\left ( u_{1}, u_{2}\right )\)等效于从\(x_{I}\)\(X_{G}\)的五步计划\(\left ( u_{1}, u_{2},u_{T},u_{T},u_{T}\right )\),因此最优定长规划中的正(反)向值迭代优化方法都可以扩展用于最优不定步长问题中。

使用逻辑定义离散规划

当状态空间巨大时,对于计算机去解决这样的规划问题会比较困难,基于逻辑的表示形式在定义离散规划问题时比较流行,因为输出的结果是逻辑可解释的,但是由于基于逻辑的表示形式难以泛化,因此在连续空间、感知不确定、多决策的规划问题中,状态空间的表示形式仍然适用。

STRIPS-Like 表示法

举例: 放电池到手电筒内
放电池

转载于:https://www.cnblogs.com/zwk-coder/p/11097876.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/410935.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mda.helper.php,dedecms后台更新缓慢甚至卡死怎么办

问题描述:如果我们在使用织梦程序(2018-01-09),有可能会遇到后台更新网站、更新文档HTML、添加文档卡死的问题。该如何解决呢?(学习视频分享:编程视频)解决方法:如果你正在用的是最新版的织梦程序(2018-01-09)&#xf…

P2896 [USACO08FEB]一起吃饭Eating Together 解题报告

题目传送门 题目不是很难,看了一会就想到了,但因为一些细节WA了好几遍qwq 但代码却一点一点压短了(看了别人的精简写法) 题目分析 把一个序列改成不上升或不下降子序列,求最少修改次数。 一般情况有求 LIS 和 LDS 的 O…

MySQL第五天

复制表结构 1 #从src_table复制到dst_table2 CREATETABLEdst_table LIKEsrc_table;3 4 #另外一种方法5 CREATETABLEdst_table SELECT*FROMsrc_table WHERE0;6 7 #第一种方法比第二种方法简单实用效率高8 9 10 #复制表中数据11 #完全复制src_table12 CREATETABLEdet_table SELEC…

九种跨域方式实现原理

前言 前后端数据交互经常会碰到请求跨域,什么是跨域,以及有哪几种跨域方式,这是本文要探讨的内容。 本文完整的源代码请猛戳github 博客 一、什么是跨域? 1.什么是同源策略及其限制内容? 同源策略是一种约定&#xff0…

WinForm控件之【LinkLabel】

基本介绍 超链接标签控件,随处可见应用极为广泛,一般用作触发指定链接跳转指定页面等操作。 常设置属性、事件 ActiveLinkColor:用户单击超链接时超链接显示的颜色; LinkColor:超链接默认状态时显示的颜色;…

Oracle分析函数六——数据分布函数及报表函数

Oracle分析函数——数据分布函数及报表函数 CUME_DIST 功能描述:计算一行在组中的相对位置,CUME_DIST总是返回大于0、小于或等于1的数,该数表示该行在N行中的位置。例如,在一个3行的组中,返回的累计分布值为1/3、2/3、…

Acess 数据库 查询数据表结构等问题小记

今天一次性解决三个小问题: 问题1:本机打开Access数据库老是提示:“Windows 正在配置 Microsoft Office Professional Edition 2003,请稍候” 解决办法: 手动更改注册表步骤操作: 1. 单击“开始”&#xff…

集合计数 (容斥原理)

心路: { 想了个思路打出来硬干掉了样例,然后发现是错的....当时直接崩了...烦躁滴很...其实这个思路和题解大方向上是一样的,想到了用至少含k个的方案数减去含k1个的加上k2的。。。 然后再想怎么求至少含k个的方案数想到了让集合含这k个数然后随机组就行…

codeforces-1176 (div3)

打div3翻车了 A.第一个操作是除二&#xff0c;第二个操作视为两下操作之后除三&#xff0c;第三个操作视为三下操作之后除五&#xff0c;直接计算贡献 #include <map> #include <set> #include <ctime> #include <cmath> #include <queue> #incl…

微软CRM 2011 Beta 新功能之二:不同组织不同基本语言

微软CRM 4.0就开始提供对多语言的支持&#xff0c;在安装微软CRM 4.0时需要选择不同语言的安装程序&#xff0c;安装完成后该部署服务器上默认组织以及任何新建组织的基本语言跟安装程序的语言一致。虽然我们可以在服务器上安装多个语言包&#xff0c;使用户可以选择要使用的语…

php教育项目,六星教育:如何在PHP项目实战中取胜,获得腾讯等大厂的offer

原标题&#xff1a;六星教育&#xff1a;如何在PHP项目实战中取胜&#xff0c;获得腾讯等大厂的offer我们在进行PHP学习的时候&#xff0c;总会强调实战的重要性。事实也是如此&#xff0c;如果光知道理论知识&#xff0c;而缺乏实际项目的参与与运作&#xff0c;就会变得纸上谈…

u盘运行linux系统卡住了,从U盘运行Linux操作系统的三种方法

从U盘运行Linux操作系统的三种方法你或许听说过在U盘上运行live Linux操作系统&#xff0c;但你知不知道可以永久的保存运行时的数据&#xff0c;或者直接将Linux安装到U盘&#xff1f;本文将介绍把Linux装进口袋(U盘)的三种方法&#xff0c;挑一种你最喜欢的方法吧&#xff01…

linux分区从1开始,Linux 学习笔记 1 使用最小的系统,从分区安装系统开始

我们常用的linux系统在安装过程中大多都省略了对系统进行分区的操作&#xff0c;以至于后期&#xff0c;不了解什么是分区以及分区当中最基本的一些概念&#xff0c;我们不说最细的知识&#xff0c;只求了解这个过程&#xff0c;那直接步入正题&#xff0c;开始第一节的学习。开…

理解Javascript_02_理解undefined和null

来自普遍的回答: 其实在 ECMAScript 的原始类型中&#xff0c;是有Undefined 和 Null 类型的。 这两种类型都分别对应了属于自己的唯一专用值&#xff0c;即undefined 和 null。 值 undefined 实际上是从值 null 派生来的&#xff0c;因此 ECMAScript 把它们定义为相等的&#…

《图解CSS3:核心技术与案例实战》

《图解CSS3&#xff1a;核心技术与案例实战》 基本信息 作者&#xff1a; 大漠 丛书名&#xff1a; Web开发技术丛书 出版社&#xff1a;机械工业出版社 ISBN&#xff1a;9787111469209 上架时间&#xff1a;2014-7-2 出版日期&#xff1a;2014 年7月 开本&#xff1a;16开 …

kali linux重启网络服务报错,Web安全学习笔记之在Kali Linux上安装Openvas以及启动失败修复...

现在用的kali linux是2018.1的版本&#xff0c;在安装openvas的时候报错&#xff0c;无法通过网络下载和安装openvas。主要错误是源配置错误&#xff0c;可能现在用的kali很久没更新了。一、解决和配置更新源问题apt-get upgrade报错显示无法更新&#xff0c;apt-get install o…

Rstudio调用plot()函数时,出现错误的处理方法

按照书上的例子敲出代码后&#xff0c;发现Rstudio无法识别C盘user文件夹下的中文用户名。如下图所示&#xff1a; 按照网上的做法&#xff0c;尝试修改计算机user下的用户名&#xff0c;没修改成功。 另一种做法是在plot()函数前面加上一句dev.new(),便可绘制成功&#xff0c;…

linux火狐浏览器49.0安装教程,火狐浏览器Linux最新版下载

火狐浏览器是一款免费开源的跨平台浏览器&#xff0c;firefox for linux引入了扩展同步机制用户能够在家用电脑和办公电脑之间进行无缝同步&#xff0c;能给用户更为流畅和高速的上网浏览体验&#xff0c;同时也让开发者能够开发出更为快速的网络应用和网站&#xff0c;有需要的…

PPA格式Linux安装,Ubuntu12.04 用PPA安装fcitx和搜狗输入法附加组件Linux版

最近Linux的世界中&#xff0c;让人兴奋的就是LinuxDeepin12.1 Beta的发布&#xff0c;但最让人欢喜的就是随之而来的”搜狗输入法Linux版“。网上流传的在Ubuntu下安装搜狗输入法的方法实在是恼人&#xff0c;不仅安装的deb包包多多&#xff0c;而且不能apt-get update 更新。…

Windows Server 2008 系统上c#读取Excel遭遇“用户代码未处理 ComException”错误

以前用代码读取Excel的时候从没有遇到过此错误&#xff0c;开始以为是权限问题&#xff0c;但是用普通的Console Application时却能够读取&#xff0c;放到web application里面就出现此错误&#xff1a; 导致错误的是第三行&#xff1a; object missing Missing.Value;Excel.A…