【强化学习】MDP马尔科夫链

news/2025/10/22 17:40:17/文章来源:https://blog.csdn.net/qq_49400568/article/details/132649452

基本元素

状态集：表示智能体所处所有状态的全部可能性的集合。类似的集合，行为集，回报集
决策：规定我在某个状态下，我做出某个action
马尔可夫链：学术上来说是无记忆性质。说白了就是我只在乎我目前的状态。比如说我有一个trajectory，他走到了某个状态s1.那我只关心他目前已经到了s1，并且我考虑的也只有s1这个状态，至于他怎么到的s1我不关心。也就是跟到s1的过去无关，所以叫无记忆性质。

例子

用迷宫游戏很好理解。游戏规则就是我需要走到S9蓝色位置，黄色位置都是墙不能走。然后我每一个位置我都可以上下左右不动，五种操作。然后目标就是我尽量越短越好。
首先需要对环境进行抽象，环境很简单，我目前棋子处于哪个位置。所以state就是棋盘上的位置。然后按照规则，行为就是上下左右不动。
决策就是指规定了每一个位置应该做出那个action。

然后决策微观一点来看，就是规定我在某个状态需要进行如何action，所以我关心的是我在这个state需要往哪走，而不会关心我怎么来的到了这个state。所以这个就具备了这个马尔可夫的性质。
至于怎么找到最优的决策这不是我要关心的。但每一个决策都具备这个马尔科夫的这个性质。
MDP可以理解为如此。只要我的决策确定下来了，那么就规定了我一个状态我需要做那个行动转移到另外一个状态。并且我的这个action只参照于我所处的状态。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/65821.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Ansible学习笔记9

Ansible学习笔记9

yum_repository模块： yum_repository模块用于配置yum仓库的。测试下： [rootlocalhost ~]# ansible group1 -m yum_repository -a "namelocal descriptionlocalyum baseurlfile:///mnt/ enabledyes gpgcheckno" 192.168.17.106 | CHANGED &g…

阅读更多...

加快 MySQL 数据迁移

加快 MySQL 数据迁移

目录一、先导 1. 自建目标实例 2. 配置目标主从二、源导出 1. 生成查询用户权限的SQL语句 2. 生成权限的SQL语句 3. 生成创建非主键索引的SQL语句 4. 导出源库结构 5. 导出源库数据三、目标导入 1. 目标实例设置 2. 创建用户与权限 3. 处理结构导出文件 4. 导…

阅读更多...

eureka服务注册和服务发现

eureka服务注册和服务发现

文章目录问题实现以orderservice为例orderservice服务注册orderservice服务拉取总结问题我们要在orderservice中根据查询到的userId来查询user，将user信息封装到查询到的order中。一个微服务，既可以是服务提供者，又可以是服务消费者&a…

阅读更多...

云端笔记系统-自动化测试

云端笔记系统-自动化测试

文章目录 1. 思维导图编写 Web 自动化测试用例2. 创建测试项目3. 根据思维导图设计【云端笔记】自动化测试用例3.1. 准备工具类3.2. 测试注册页面3.3. 测试登陆页面3.4. 测试添加博客页3.5. 测试我的博客列表页3.6. 测试修改博客页3.7. 测试博客列表页3.8. 测试博客详情页3.9. …

阅读更多...

MATLAB中residue函数用法

MATLAB中residue函数用法

目录语法说明示例求解具有实根的部分分式展开式展开具有复数根和同次分子及分母的分式展开分子次数高于分母次数的分式 residue函数的功能是部分分式展开（部分分式分解）。语法 [r,p,k] residue(b,a) [b,a] residue(r,p,k) 说明 [r,p…

阅读更多...

多维时序 | Matlab实现GRU-Adaboost和GRU多变量时间序列预测对比

多维时序 | Matlab实现GRU-Adaboost和GRU多变量时间序列预测对比

多维时序 | Matlab实现GRU-Adaboost和GRU多变量时间序列预测对比目录多维时序 | Matlab实现GRU-Adaboost和GRU多变量时间序列预测对比预测效果基本介绍模型描述程序设计参考资料预测效果基本介绍多维时序 | Matlab实现GRU-Adaboost和GRU多变量时间序列预测对比模型描述 M…

阅读更多...

Elasticsearch终端命令行用法大全

Elasticsearch终端命令行用法大全

API作用使用场景curl localhost:9200/_cluster/health?pretty查看ES健康状态curl localhost:9200/_cluster/settings?pretty查看ES集群的设置其中persistent为永久设置，重启仍然有效；trainsient为临时设置，重启失效curl localhost:9200/_ca…

阅读更多...

1921. 消灭怪物的最大数量

1921. 消灭怪物的最大数量

原题地址解法一排序贪心即可。思想为先计算出每一个怪兽到达城市的时间，然后排序，有小到大进行消灭，此时的下标可视作时间。当怪兽到达城市的时间超过或等于当前时间时，即已经到达了城市，游戏失败，下标…

阅读更多...

PVE 8 出现CPU 100% 冻结（卡死）

PVE 8 出现CPU 100% 冻结（卡死）

最近在研究PVE，然后下载官方最新版本系统8.x安装好后出现卡死问题，就连开个软件CPU也能飙到100%，开始我以为是硬件问题可能是资源不够，但是将系统切换回裸机（不用PVE启动）一点问题也没有，后来逐…

阅读更多...

Java 复习笔记 - 方法篇

Java 复习笔记 - 方法篇

文章目录一，方法的定义二，最简单的方法定义和调用三，带参数的方法定义和调用四，带返回值方法的定义和调用五，小结六，方法的重载七，方法简单练习1，数组遍历2，数组最大值3…

阅读更多...

每日一题 2511. 最多可以摧毁的敌人城堡数目

每日一题 2511. 最多可以摧毁的敌人城堡数目

难度：简单翻译：寻找距离最远的 1 和 -1 的组合，要求它们之间只有0 class Solution:def captureForts(self, forts: List[int]) -> int:res, t 0, -1for i, fort in enumerate(forts):if fort -1 or fort 1:if t > 0 and fort ! f…

阅读更多...

YOLO目标检测——室内场景识别数据集下载分享

YOLO目标检测——室内场景识别数据集下载分享

目标检测室内场景识别数据集可以广泛应用于各种需要对室内场景进行目标识别和跟踪的领域，包括安防监控、智能家居、物流仓储管理等数据集点击下载： YOLO室内场景识别数据集（一）5950图片26类别.rar YOLO室内场景识别数据集&#…

阅读更多...

【Python常用函数】一文让你彻底掌握Python中的numpy.clip函数

【Python常用函数】一文让你彻底掌握Python中的numpy.clip函数

大数据时代的到来，使得很多工作都需要进行数据挖掘，从而发现更多有利的规律，或规避风险，或发现商业价值。而大数据分析的基础是学好编程语言。本文和你一起来探索Python中的clip函数，让你以最短的时间明白这个函数的原理。也可以利用碎片化的时间巩固这个函数，让你在处理…

阅读更多...

使用 Privoxy 在 Linux 上配置本地代理服务器详细教程

使用 Privoxy 在 Linux 上配置本地代理服务器详细教程

Privoxy 是一个功能强大的开源网络代理软件，它可以帮助我们在 Linux 系统上搭建本地代理服务器。通过配置和使用 Privoxy，您可以实现更安全、匿名以及自定义过滤规则等高级特性。本文将详细介绍如何在 Linux 环境下利用 Privoxy 配置并运行本地代理服务器…

阅读更多...

【Java基础】深入理解反射、反射的应用（工厂模式、代理模式）

【Java基础】深入理解反射、反射的应用（工厂模式、代理模式）

文章目录 1. Java反射机制是什么？1.2 Java反射例子 2. Java反射机制中获取Class的三种方式及区别？3. Java反射机制的应用场景有哪些？3.1. 优化静态工厂模式（解耦）3.1.1 优化前（工厂类和产品类耦合&#xff…

阅读更多...

nsq中diskqueue详解 - 第三篇

nsq中diskqueue详解 - 第三篇

前面一篇博客 nsq中diskqueue详解 - 第二篇_YZF_Kevin的博客-CSDN博客我们讲了diskqueue的两种文件存储格式，diskqueue的启动入口，元数据文件的读取和写入，如果你还没了解过，强烈建议先看一下这篇博客，我们重点讲dis…

阅读更多...

JavaScript运行机制与实践应用

JavaScript运行机制与实践应用

一、JavsScript运行机制 1、JavaScript 是一种解释型语言，它的执行机制主要包括以下几个步骤： 2、事件循环 3、JavaScript运行模型 4、JavaScript任务 5、JavaScript宏任务和微任务 6、案例分析 console.log(script start) setTimeout(function () {co…

阅读更多...

【面试题精讲】Spring Framework有哪些模块？

【面试题精讲】Spring Framework有哪些模块？

首发博客地址系列文章地址 Spring Framework是一个广泛使用的开源应用程序框架，用于构建企业级Java应用程序。它提供了许多不同的模块，用于支持各种不同的应用程序开发需求。以下是Spring Framework的一些核心模块： 「Spring Core Container…

阅读更多...

RocketMQ消息队列-@RocketMQMessageListener实现原理

RocketMQ消息队列-@RocketMQMessageListener实现原理

使用Spring-RocketMQ时，只需要引入rocketmq-spring-boot-starter包，并且定义以下消费者，就可以很简单的实现消息消费 Component RocketMQMessageListener(topic "first-topic", consumerGroup "my-producer-group", s…

阅读更多...

代码随想录Day_51打卡

代码随想录Day_51打卡

①、买卖股票的最佳时机含冷冻期给定一个整数数组prices，其中第 prices[i] 表示第 i 天的股票价格。设计一个算法计算出最大利润。在满足以下约束条件下，你可以尽可能地完成更多的交易（多次买卖一支股票）: 卖出股票后&#…

阅读更多...

最新文章