【强化学习公式推导】状态价值函数与动作价值函数贝尔曼期望方程,贝尔曼最优方程推导过程

【强化学习公式推导】状态价值函数与动作价值函数贝尔曼期望方程,贝尔曼最优方程推导过程

1.回报
在这里插入图片描述
2.当前时刻的回报与下一时刻回报的关系
在这里插入图片描述
3.状态价值函数
在这里插入图片描述

4.动作价值函数
在这里插入图片描述
在这里插入图片描述
5.状态价值函数与动作状态价值函数的关系
在这里插入图片描述
在这里插入图片描述
6.贝尔曼期望方程
在这里插入图片描述

7.状态价值函数的贝尔曼期望方程
在这里插入图片描述
8.动作价值函数的贝尔曼期望方程
在这里插入图片描述
9.贝尔曼期望方程的另一种理解方式,结合下图理解
在这里插入图片描述在这里插入图片描述

10.一点疑惑在这里插入图片描述

上图中的1式和2式右边部分形式相同,那么可得q(s,a)与v(s)相等,这么理解肯定是错误的;1式是在动手学强化学习的3.3.2 价值函数这一节中,1式是马尔科夫奖励过程,未涉及动作,如果考虑动作也就成了马尔科夫决策过程,应该推导成下面这种形式
在这里插入图片描述
11.最优策略、最优状态价值函数、最优动作价值函数
在这里插入图片描述
12.贝尔曼最优方程
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/762675.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

迷宫(蓝桥杯)——DFS和BFS

迷宫 题目描述 下图给出了一个迷宫的平面图,其中标记为 1 的为障碍,标记为 0 的为可以通行的地方。 010000 000100 001001 110000迷宫的入口为左上角,出口为右下角,在迷宫中,只能从一个位置走到这 个它的上、下、左…

[云] vmware: host: net: Net.CoaleseDefaultOn

https://communities.vmware.com/t5/Storage-Performance/Advanced-Networking-Performance-Options/ta-p/2792649 在vsphere client下的路径是: 选择使用的host -> 右键setting->configure-> system->advanced system setting->edit->Net.Coales…

微信小程序开发之创建一个自己的项目和项目目录下各个文件的了解

1、小程序开发工具基础 (1)菜单栏:可以对开发工具进行一些简单的设置,还可以在帮助一行获取学习相关api文档 (2)模拟器显示栏:每当我们在进行便写好代码之后,通过编译可以在模拟显示…

华为ensp中ospf基础 原理及配置命令(详解)

CSDN 成就一亿技术人! 作者主页:点击! ENSP专栏:点击! CSDN 成就一亿技术人! ————前言———— OSPF 的全称是 Open Shortest Path First,意为“开放式最短路径优先”。是一种内部网关协…

【算法刷题day3】Leetcode: 203.移除链表元素、707.设计链表、 206.反转链表

链表基础知识 分类: 单链表、双链表、循环连链表 存储方式: 链表中的节点在内存中不是连续分布的 ,而是散乱分布在内存中的某地址上,分配机制取决于操作系统的内存管理。 链表的定义: struct ListNode{int val; //节…

【如何安装odl: 1.0.0.dev0】

【如何安装odl: 1.0.0.dev0】 ODL官网 pip install odl可能容易报错,建议使用下述命令安装 pip install https://github.com/odlgroup/odl/archive/master.zip检查是否安装成功 conda list

聊聊车载以太网PMA测试解决方案

自2013年起,车载以太网技术日益成熟,在电子电气系统中应用越来越广泛,因此逐渐有很多主机厂和供应商加入到车载以太网技术的开发应用中,同时对传输速率的要求逐步提高,产生了传输速率更高的车载以太网技术,…

低代码开发平台开源:依靠科技力量实现数字化转型!

在竞争激烈的当今社会,数字化转型、流程化办公等字眼早已充斥在我们的职场生活中。虽然如此,但是我们依然要面临着这样一个现实问题:很多中小企业发展面临着资源有限、技术储备不足、人才短缺的现实问题,进入流程化办公困境依然明…

Linux东方通下载及使用

解压文件 mkdir /usr/local/java 加压包拖进去 vi /etc/profile 复制路径修改路径 export JAVA_HOME/usr/local/java/jdk1.8.0_151 export CLASSPATH.:${JAVA_HOME}/jre/lib/rt.jar:${JAVA_HOME}/lib/dt.jar:${JAVA_HOME}/lib/tools.jar export PATH$PATH:${JAVA_HOME}/bin 进入…

Day41:WEB攻防-ASP应用HTTP.SYS短文件文件解析Access注入数据库泄漏

目录 ASP-默认安装-MDB数据库泄漏下载 ASP-中间件-CVE&短文件&解析&写权限 HTTP.SYS(CVE-2015-1635)主要用作蓝屏破坏,跟权限不挂钩 IIS短文件(iis全版本都可能有这个问题) IIS文件解析 IIS写权限 ASP-SQL注入-SQLMAP使用…

软件推荐 篇三十七:安卓软件推荐IP Tools「IP工具」:全面解析网络状态与管理的必备神器

引言: 随着互联网的普及,网络已经成为我们日常生活中不可或缺的一部分。无论是工作、学习还是娱乐,我们都需要通过网络来进行各种操作。然而,网络问题的出现往往会给我们带来诸多困扰。为了更好地管理和优化网络,我们…

SunFMEA冠翔(台山)工业FMEA培训会圆满结束

近日,SunFMEA软件成功在冠翔(台山)工业有限公司举办了为期三天的FMEA软件系统培训,通过重要知识讲解、现场答疑、演练互动、软件实操等环节,把培训氛围推向高潮。 ​ 此次培训分为DFMEA与PFMEA两部分,按照七…

LiveGBS流媒体平台GB/T28181常见问题-如何订阅设备状态在线离线状态redis订阅设备或是通道状态subscribe device操作及示例

LiveGBS如何订阅设备状态在线离线状态redis订阅设备或是通道状态subscribe device操作及示例 1、如何监听设备状态2、device订阅2.1、设备上线消息2.2、设备离线消息2.2、通道上线消息2.2、通道离线消息 3、订阅示例3.1、连接REDIS3.2、订阅device示例3.3、设备上线示例3.3.1、…

用DevOpsGPT 5分钟开发一个网页小游戏

前言: 今天教大家如何制作一个简易的网页小游戏,步骤很简单,我们只需要用到一个智能开发软件,即可自动帮助我们完成开发。话不多说,接下来,我们直接上教程! ​ 官网:KUAFUAI - AI 驱…

基于Matlab的视频人体动作识别,Matlab实现

博主简介: 专注、专一于Matlab图像处理学习、交流,matlab图像代码代做/项目合作可以联系(QQ:3249726188) 个人主页:Matlab_ImagePro-CSDN博客 原则:代码均由本人编写完成,非中介,提供…

智过网:一级建造师必须两年考过吗?有效期多久?

在建筑行业,一级建造师的职业资格证书是众多从业者追求的目标。然而,获得这一证书并非易事,它要求考生不仅具备扎实的专业知识,还需要在限定的时间内完成所有科目的考试。那么,一级建造师是否必须在两年内考完所有科目…

鸿蒙Harmony应用开发—ArkTS-全局UI方法(文本滑动选择器弹窗)

根据指定的选择范围创建文本选择器,展示在弹窗上。 说明: 该组件从API Version 8开始支持。后续版本如有新增内容,则采用上角标单独标记该内容的起始版本。 本模块功能依赖UI的执行上下文,不可在UI上下文不明确的地方使用&#xf…

ArkTS编写的HarmonyOS原生聊天UI框架

简介 ChatUI,是一个ArkTS编写的HarmonyOS原生聊天UI框架,提供了开箱即用的聊天对话组件。 下载安装 ohpm install changwei/chatuiOpenHarmony ohpm 环境配置等更多内容,请参考如何安装 OpenHarmony ohpm 包 接口和属性列表 接口列表 接…

day15-maven高级

1. 分模块设计与开发 步骤 创建 maven 模块 tlias-pojo&#xff0c;存放实体类。创建 maven 模块 tlias-utils&#xff0c;存放相关工具类。 <dependency><groupId>com.itheima</groupId><artifactId>tlias-pojo</artifactId><version>1.0…

线性表:关于链表(主要以单链表为例)的相关理解和应用

多清澈这天空 晴雨相拥 同心逐梦&#xff01; 坚守我信心 一路出众&#xff01;&#xff01; 首先&#xff0c;按照惯例&#xff0c;欢迎大家边听歌边观看本博客 ▶ 紫荆花盛开 (163.com)&#xff08;建议复制链接&#xff0c;浏览器打开&#xff0c;csdn打开太慢了&#x…