【强化学习公式推导】状态价值函数与动作价值函数贝尔曼期望方程，贝尔曼最优方程推导过程

【强化学习公式推导】状态价值函数与动作价值函数贝尔曼期望方程，贝尔曼最优方程推导过程

news/2025/4/5 6:43:54/文章来源:https://blog.csdn.net/Ever_____/article/details/136838777

【强化学习公式推导】状态价值函数与动作价值函数贝尔曼期望方程，贝尔曼最优方程推导过程

1.回报
在这里插入图片描述
2.当前时刻的回报与下一时刻回报的关系

3.状态价值函数

4.动作价值函数
在这里插入图片描述

5.状态价值函数与动作状态价值函数的关系

6.贝尔曼期望方程

7.状态价值函数的贝尔曼期望方程
在这里插入图片描述
8.动作价值函数的贝尔曼期望方程

9.贝尔曼期望方程的另一种理解方式，结合下图理解

10.一点疑惑 在这里插入图片描述

上图中的1式和2式右边部分形式相同，那么可得q(s，a)与v(s)相等，这么理解肯定是错误的；1式是在动手学强化学习的3.3.2 价值函数这一节中，1式是马尔科夫奖励过程，未涉及动作，如果考虑动作也就成了马尔科夫决策过程，应该推导成下面这种形式
在这里插入图片描述
11.最优策略、最优状态价值函数、最优动作价值函数

12.贝尔曼最优方程

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/762675.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

迷宫（蓝桥杯）——DFS和BFS

迷宫（蓝桥杯）——DFS和BFS

迷宫题目描述下图给出了一个迷宫的平面图，其中标记为 1 的为障碍，标记为 0 的为可以通行的地方。 010000 000100 001001 110000迷宫的入口为左上角，出口为右下角，在迷宫中，只能从一个位置走到这个它的上、下、左…

阅读更多...

[云] vmware: host: net: Net.CoaleseDefaultOn

[云] vmware: host: net: Net.CoaleseDefaultOn

https://communities.vmware.com/t5/Storage-Performance/Advanced-Networking-Performance-Options/ta-p/2792649 在vsphere client下的路径是： 选择使用的host -> 右键setting->configure-> system->advanced system setting->edit->Net.Coales…

阅读更多...

微信小程序开发之创建一个自己的项目和项目目录下各个文件的了解

微信小程序开发之创建一个自己的项目和项目目录下各个文件的了解

1、小程序开发工具基础 （1）菜单栏：可以对开发工具进行一些简单的设置，还可以在帮助一行获取学习相关api文档 （2）模拟器显示栏：每当我们在进行便写好代码之后，通过编译可以在模拟显示…

阅读更多...

华为ensp中ospf基础原理及配置命令（详解）

华为ensp中ospf基础原理及配置命令（详解）

CSDN 成就一亿技术人！ 作者主页：点击！ ENSP专栏：点击！ CSDN 成就一亿技术人！ ————前言———— OSPF 的全称是 Open Shortest Path First，意为“开放式最短路径优先”。是一种内部网关协…

阅读更多...

【wpf 应用6】基本控件-Label的详解与示例

【wpf 应用6】基本控件-Label的详解与示例

在WPF中，Label控件主要用于显示文本信息，通常用于作为其他控件的说明或者展示数据。Label控件本身不支持交互，它仅用于展示目的。与TextBlock控件相比，Label控件提供了一些特定的样式和行为，使其更适合作为说明性文本使…

阅读更多...

【算法刷题day3】Leetcode: 203.移除链表元素、707.设计链表、 206.反转链表

【算法刷题day3】Leetcode: 203.移除链表元素、707.设计链表、 206.反转链表

链表基础知识分类： 单链表、双链表、循环连链表存储方式： 链表中的节点在内存中不是连续分布的 ，而是散乱分布在内存中的某地址上，分配机制取决于操作系统的内存管理。链表的定义： struct ListNode{int val; //节…

阅读更多...

【如何安装odl: 1.0.0.dev0】

【如何安装odl: 1.0.0.dev0】

【如何安装odl: 1.0.0.dev0】 ODL官网 pip install odl可能容易报错，建议使用下述命令安装 pip install https://github.com/odlgroup/odl/archive/master.zip检查是否安装成功 conda list

阅读更多...

面试 Java 基础八股文十问十答第十八期

面试 Java 基础八股文十问十答第十八期

面试 Java 基础八股文十问十答第十八期作者：程序员小白条，个人博客相信看了本文后，对你的面试是有一定帮助的！关注专栏后就能收到持续更新！ ⭐点赞⭐收藏⭐不迷路！⭐ 1）多线程场景下如何使用…

阅读更多...

聊聊车载以太网PMA测试解决方案

聊聊车载以太网PMA测试解决方案

自2013年起，车载以太网技术日益成熟，在电子电气系统中应用越来越广泛，因此逐渐有很多主机厂和供应商加入到车载以太网技术的开发应用中，同时对传输速率的要求逐步提高，产生了传输速率更高的车载以太网技术，…

阅读更多...

排序算法练习——实现合并区间：给定一组区间，将所有重叠的区间合并为一个区间

排序算法练习——实现合并区间：给定一组区间，将所有重叠的区间合并为一个区间

要实现合并区间，你可以按照区间的起始位置对区间进行排序，然后依次遍历区间，将重叠的区间合并。以下是实现的示例代码： def merge_intervals(intervals):if not intervals:return []# 按照区间的起始位置进行排序intervals.sort(…

阅读更多...

低代码开发平台开源：依靠科技力量实现数字化转型！

低代码开发平台开源：依靠科技力量实现数字化转型！

在竞争激烈的当今社会，数字化转型、流程化办公等字眼早已充斥在我们的职场生活中。虽然如此，但是我们依然要面临着这样一个现实问题：很多中小企业发展面临着资源有限、技术储备不足、人才短缺的现实问题，进入流程化办公困境依然明…

阅读更多...

Linux东方通下载及使用

Linux东方通下载及使用

解压文件 mkdir /usr/local/java 加压包拖进去 vi /etc/profile 复制路径修改路径 export JAVA_HOME/usr/local/java/jdk1.8.0_151 export CLASSPATH.:${JAVA_HOME}/jre/lib/rt.jar:${JAVA_HOME}/lib/dt.jar:${JAVA_HOME}/lib/tools.jar export PATH$PATH:${JAVA_HOME}/bin 进入…

阅读更多...

Day41：WEB攻防-ASP应用HTTP.SYS短文件文件解析Access注入数据库泄漏

Day41：WEB攻防-ASP应用HTTP.SYS短文件文件解析Access注入数据库泄漏

目录 ASP-默认安装-MDB数据库泄漏下载 ASP-中间件-CVE&短文件&解析&写权限 HTTP.SYS（CVE-2015-1635）主要用作蓝屏破坏，跟权限不挂钩 IIS短文件(iis全版本都可能有这个问题) IIS文件解析 IIS写权限 ASP-SQL注入-SQLMAP使用…

阅读更多...

C语言实现射击小游戏

C语言实现射击小游戏

以下是一个简单的C语言射击小游戏的实现示例。这个游戏中，玩家控制一个飞船，敌方飞船会随机出现并向玩家移动。如果玩家的飞船与敌方飞船相撞，玩家就失去一条生命，代码如下： #include <stdio.h> #include <s…

阅读更多...

1.1-编程语言是什么

1.1-编程语言是什么

编程语言是什么正式学习 Python 之前，我们有必要先搞清楚【编程语言】这个概念。在我们很小的时候，父母就教我们开口说话，也教我们如何理解别人讲话的意思。经过长时间的熏陶和自我学习，我们在不知不觉中学会了说话&#xff0…

阅读更多...

软件推荐篇三十七：安卓软件推荐IP Tools「IP工具」：全面解析网络状态与管理的必备神器

软件推荐篇三十七：安卓软件推荐IP Tools「IP工具」：全面解析网络状态与管理的必备神器

引言： 随着互联网的普及，网络已经成为我们日常生活中不可或缺的一部分。无论是工作、学习还是娱乐，我们都需要通过网络来进行各种操作。然而，网络问题的出现往往会给我们带来诸多困扰。为了更好地管理和优化网络，我们…

阅读更多...

SunFMEA冠翔（台山）工业FMEA培训会圆满结束

SunFMEA冠翔（台山）工业FMEA培训会圆满结束

近日，SunFMEA软件成功在冠翔（台山）工业有限公司举办了为期三天的FMEA软件系统培训，通过重要知识讲解、现场答疑、演练互动、软件实操等环节，把培训氛围推向高潮。此次培训分为DFMEA与PFMEA两部分，按照七…

阅读更多...

LiveGBS流媒体平台GB/T28181常见问题-如何订阅设备状态在线离线状态redis订阅设备或是通道状态subscribe device操作及示例

LiveGBS流媒体平台GB/T28181常见问题-如何订阅设备状态在线离线状态redis订阅设备或是通道状态subscribe device操作及示例

LiveGBS如何订阅设备状态在线离线状态redis订阅设备或是通道状态subscribe device操作及示例 1、如何监听设备状态2、device订阅2.1、设备上线消息2.2、设备离线消息2.2、通道上线消息2.2、通道离线消息 3、订阅示例3.1、连接REDIS3.2、订阅device示例3.3、设备上线示例3.3.1、…

阅读更多...

Oracle数据库进行sql优化的思路和方法

Oracle数据库进行sql优化的思路和方法

1. 查询语句优化精简SQL: 避免使用 SELECT *，只选择需要的列，减少数据传输量。避免NOT IN 和 NOT EXISTS: 当可行时，改用 LEFT JOIN 或其他形式的查询，因为NOT IN和NOT EXISTS往往导致全表扫描或较差的执行计划。避免在WHERE子句…

阅读更多...

binary.write 和 binary.read

binary.write 和 binary.read

golang中encoding/binary包 1、golang包中的binary包是什么？ 2、binary为我们开发者提供了哪些内容？以及怎么使用？ 3、编解码有哪几种方法？ 转化成二进制格式与原本数据转字符串相比会更节省空间一、golang包中的binary包是什…

阅读更多...

最新文章