强化学习MPC——(二)

本篇主要介绍马尔科夫决策(MDP)过程,在介绍MDP之前,还需要对MP,MRP过程进行分析。
什么是马尔科夫,说白了就是带遗忘性质,下一个状态S_t+1仅与当前状态有关,而与之前的状态无关。
在这里插入图片描述
为什么需要马尔科夫性——简化环境模型。帮助强化学习来学习。

马尔科夫过程:通过状态转移概率的实现的过程,马尔科夫过程是一个**<S,P>,S是有限状态集合,P是状态转移概率,状态转移概率矩阵为P_ij
马尔科夫奖励过程:在马尔可夫过程的基础上增加奖励函数R和衰减系数γ,基本上一谈到奖励就会有折扣因子的存在。表示为 (S,P,R,γ)
R是一个奖励函数,S状态下的奖励是某一时t处在状态s下在下一个时刻(t+1)能获得的期望奖励。
在这里插入图片描述
期望的含义也就是说与概率是相关的,求概率平均。
累计回报:从t时刻所得到的折扣回报总和。折扣因子表示了对未来奖励的重视程度。越小就是越短视,越大就越远视。
在这里插入图片描述
价值函数:价值函数给出了某一状态或某一行为的长期价值
状态价值函数和动作价值函数来看待问题(强化学习最重要的公式)
在这里插入图片描述
注意这里的价值函数
可能是状态价值,也可以是动作价值**
在这里插入图片描述
马尔科夫一个重要的内容就是要通过bellman方程求解状态价值函数。
如何求解?
n比较小时直接计算,n比较大时通过迭代来求解:

  • 动态规划
  • 蒙特卡洛评估
  • 时序差分学习
    最后就是马尔科夫决策过程MDP了,由(SAPRγ)五元组成。
    状态动作,状态转移概率,回报函数,折扣因子
    与马尔科夫过程不同的是状态转移多了一个动作的选项。
    在这里插入图片描述
    MDP就引入了policy的概念,策略是决定行为的机制。强化学习的本质就是最优策略的寻找。
    策略同样是仅与当前状态有关。可以是随机策略或者确定性策略。

两大价值函数的引入:
在这里插入图片描述
在这里插入图片描述
最优理论就是关于价值函数的:
从所有策略产生的状态价值函数中,选取使状态s价值最大的函数:
在这里插入图片描述
从所有策略产生的行为价值函数中,选取是状态行为对 价值最大的函数:
在这里插入图片描述
后面我回再推导一下这些函数关系式,并且比较相似的内容进行学习。

后续内容:
线性mpc
包括等式约束和不等式约束
非线性mpc
构建优化问题
泰勒展开线性化
KKT条件处理不等式约束
求解SQP问题

一些重要参数
预测窗口
终端项

预见性的控制(优化问题与控制效果)

SQP解决MPC的优化问题。(解一个序列控制量问题)

另一种求解思路:
HJB方程。
成本函数-状态方程——哈密顿函数
转为泛函优化问题:
变分法,分部积分,求极点的思路。
构造哈密尔顿函数
状态方程,协状态方程
控制最优条件 终值和初值条件

线性模型+二次型优化问题。
求解黎卡提方程。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/804774.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【重磅消息】2024年中国质量协会正式发布六西格玛项目报告编制要求及撰写模板

2024年&#xff0c;中国质量协会正式发布六西格玛系列项目报告编制要求及撰写模板&#xff08;以下简称模板&#xff09;&#xff0c;模板针对项目报告的项目简介、项目背景、项目选择、项目管理、项目实施、效果总结等几个部分的内容、格式以及撰写注意事项等方面作了详细要求…

Android11 以太网修改静态IP后需要网线插拔一下才能上网

mtk6771 Android11 以太网修改静态IP后需要网线插拔一下才能上网_mtk 11 增加以太网动态/静态ip设置-CSDN博客 [RK3399/RK3328][Android10.0]Ethernet:以太网设置静态ip&#xff0c;重启后无法获取IP的问题「建议收藏」-腾讯云开发者社区-腾讯云 (tencent.com)

【前端捉鬼记】使用nvm切换node版本后再用node -v查看仍然是原来的版本

今天遇到一个诡异的问题&#xff0c;使用nvm切换node版本&#xff0c;明明提示已经切换成功&#xff0c;可是再次查看node版本还是之前的&#xff01; 尝试了很多办法&#xff0c;比如重新打开一个cmd窗口、切换前执行nvm install version都没成功&#xff0c;直到找到这篇文章…

New Phytologist | 丛枝菌根真菌介导的土壤有机质动态过程的新概念框架

8月2日&#xff0c;中国科学院生态环境研究中心陈保冬团队等合作在著名期刊New Phytologist上发表题为"Soil organic matter dynamics mediated by arbuscular mycorrhizal fungi – an updated conceptual framework"的观点类文章&#xff0c;详述了丛枝菌根真菌介导…

App 测试必备 - 建议所有测试人收藏

移动端App性能测试需要关注多个方面&#xff0c;包括响应时间、稳定性、内存使用、CPU使用率、网络性能、电池消耗以及设备兼容性等。通过综合考虑这些方面&#xff0c;并在不同条件下进行全面的测试&#xff0c;可以确保应用程序在各种情况下都能够提供优质的用户体验&#xf…

QGIS操作:制作速率专题图

1、修改配色色带 双击打开的矢量文件&#xff0c;弹出如下图所示的图层属性界面&#xff0c;如下图所示&#xff1b; 点击左侧 符号化&#xff0c;选择色带的变化方式、符号、颜色渐变等方式&#xff1b; 设置每个色带所表示的数值范围&#xff0c;变化模式等内容&#xff1…

如何在Java中实现多维数组?

目录 1. 多维数组的基础 2. 多维数组的初始化 3. 多维数组的访问 4. 更高维度的数组 5. 多维数组的应用场景 总结 Java中实现多维数组的方法多样&#xff0c;涵盖了从基础的二维数组到更复杂的多维数组动态初始化等。 1. 多维数组的基础 在Java中&#xff0c;多维数组实…

《深入Linux内核架构》第2章 进程管理和调度 (2)

目录 2.4 进程管理相关的系统调用 2.4.1 进程复制 2.4.2 内核线程 2.4.3 启动新程序 2.4.4 退出进程 本专栏文章将有70篇左右&#xff0c;欢迎关注&#xff0c;订阅后续文章。 2.4 进程管理相关的系统调用 2.4.1 进程复制 1. _do_fork函数 fork vfork clone都最终调用_…

在js中如果a的值是空是不是if(表达式的值是false)?

在JavaScript中&#xff0c;一个变量的“空”值可以有多种含义&#xff0c;具体取决于该变量的类型和内容。对于if语句中的条件表达式&#xff0c;其值会被隐式地转换为布尔值。以下是JavaScript中常见的“空”值以及它们在布尔上下文中的行为&#xff1a; null&#xff1a;在…

逻辑卷和磁盘配额

文章目录 一、逻辑卷二、磁盘配额 一、逻辑卷 为什么会出现技术&#xff1f; 分区的缺点&#xff1a; 没有备份功能无法扩容性能取决于硬盘本身 相关概念 LVM 是 Logical Volume Manager 的简称&#xff0c;译为中文就是逻辑卷管理。它是 Linux 下对硬盘分区的一种管理机制。…

玩转儿童数码摄影,儿童人像摄影指南

一、资料前言 本套儿童人像摄影&#xff0c;大小250.91M&#xff0c;共有8个文件。 二、资料目录 《爱孩子爱摄影》.pdf 《六招拍儿童》.pdf 《数码摄影工坊-儿童摄影》.pdf 《专业儿童人像摄影指南》.pdf 宝贝看镜头.pdf 儿童摄影手册.pdf 儿童摄影艺术.pdf 玩转儿童…

5.7Python之元组

元组&#xff08;Tuple&#xff09;是Python中的一种数据类型&#xff0c;它是一个有序的、不可变的序列。元组使用圆括号 () 来表示&#xff0c;其中的元素可以是任意类型&#xff0c;并且可以包含重复的元素。 与列表&#xff08;List&#xff09;不同&#xff0c;元组是不可…

如何通过VPN访问内网?

VPN&#xff08;Virtual Private Network&#xff09;是一种通过公共网络建立私有网络连接的技术&#xff0c;可以在不同地点的网络中建立安全通道&#xff0c;实现远程访问内网资源的目的。本文将介绍如何通过VPN访问内网&#xff0c;并介绍一款名为“天联”的VPN服务。 什么是…

【Unity实战100例】Unity入门小地图位置同步(第一第三人称)

unity小地图制作包括第一人称控制器和第三人称控制器 目录 一.选择合适自身的人称控制器 二.小地图制作

C/S医学检验LIS实验室信息管理系统源码 医院LIS源码

LIS系统即实验室信息管理系统。LIS系统能实现临床检验信息化&#xff0c;检验科信息管理自动化。其主要功能是将检验科的实验仪器传出的检验数据经数据分析后&#xff0c;自动生成打印报告&#xff0c;通过网络存储在数据库中&#xff0c;使医生能够通过医生工作站方便、及时地…

拥抱智能,IT运维将有哪些变化?

Gartner数据显示&#xff0c;2023年AIOps在中国市场渗透率只达到目标受众的5%-20%。这一数据意味着仍有大量企业还未进行AIOps建设&#xff0c;未来AIOps市场前景广阔。目前&#xff0c;已经开始应用AIOps的企业&#xff0c;智能运维水平普遍还处于辅助智能化运维阶段&#xff…

Linux-线程知识点

目录 线程与进程区别pthread库接口介绍pthread_createpthread_self和syscall(SYS_gettid);pthread_equal测试主线程的栈空间大概是多大pthread_setname_nppthread_exitpthread_join为什么要连接退出的线程 pthread_detach 线程与进程区别 进程是一个动态的实体&#xff0c;有自…

软件测试流程

软件测试需求分析&#xff08;Software testing demand analysis&#xff09; 软件需求分析是软件测试流程中的基础一环&#xff0c;用来明确软件测试对象以及测试范围&#xff0c;并作为测试覆盖的基础。其目的是确保所有风险承担者尽早地对项目功能达成共识并对将来的产品有…

python web学习路线

学习使用 Python 进行 Web 开发是一个循序渐进的过程&#xff0c;涉及到前端开发、后端开发以及相关的 Web 框架和工具。以下是一个基本的 Python Web 学习路线&#xff0c;帮助你逐步掌握 Web 开发所需的知识和技能&#xff1a; 1. 掌握基本的编程知识 在学习 Web 开发之前&…

一维前缀和与差分数组

目录 前缀和 差分数组 性质 例题&#xff1a; 前缀和 前缀和主要适用场景是原始数组不会被修改的情况下&#xff0c;频繁查询某个区间的累加和。 差分数组 性质 当我们需要更新区间[l,r]时候&#xff08;仅指加减运算&#xff09;&#xff0c;我们仅仅可以只更新d[l]x,d[r1…