17.蒙特卡洛强化学习之批量式策略评估

文章目录

  • 1. 是什么
  • 2. 为什么直接估计Q而不是V
  • 2. 根据多条完整轨迹计算Q(s,a)
  • 3. 初访法和每访法哪个更好?

1. 是什么

智能体利用完整轨迹数据估计出 Q π ( s , a ) Q_\pi(s,a) Qπ(s,a)的过程

2. 为什么直接估计Q而不是V

因为策略评估的目的在于改进现有策略 π ( a ∣ s ) \pi(a|s) π(as),而改进策略就涉及到选取最优行为 a , Q ( s , a ) a,Q(s,a) aQ(s,a)刚好能衡量状态s时,采取各种动作a的价值(累积回报期望)。如果采用 V ( s ) V(s) V(s),则最终还是要由 V ( s ) V(s) V(s)(参考贝尔曼方程)计算出Q(s,a),而由于立即回报矩阵和状态转移数组未知,这一点做不到。因此,干脆直接从Q(s,a)出发进行策略评估和控制。

2. 根据多条完整轨迹计算Q(s,a)

在当前策略 π \pi π下,假设我们获得了K条完整轨迹数据 [ ( s k , 0 , a k , 0 , r k , 1 ) , ⋯ , ( s k , L k , a k , L k , r k , L k + 1 ) , ( s T , a k , L k + 1 , r k , L k + 2 ) ] ‾ , k = 0 , 1 , ⋯ , K − 1 \underline{[(s_{k,0},a_{k,0},r_{k,1}),\cdots,(s_{k,L_k},a_{k,L_k},r_{k,L_k+1}),(s_T,a_{k,L_k+1},r_{k,L_k+2})]},k=0,1,\cdots,K-1 [(sk,0,ak,0,rk,1),,(sk,Lk,ak,Lk,rk,Lk+1),(sT,ak,Lk+1,rk,Lk+2)],k=0,1,,K1
则估计Q(s,a)的批处理算法流程如下:

  • step 1:把所有完整轨迹中的立即回报 r k , m r_{k,m} rk,m的值替换为累积回报值 G k , m G_{k,m} Gk,m
    G k , m = ∑ n = m L k + 2 γ n − m r k , n G_{k,m}=\sum_{n=m}^{L_k+2}\gamma^{n-m}r_{k,n} Gk,m=n=mLk+2γnmrk,n
  • step 2:计算各个**状态行为对(s,a)**的函数值V(s,a)
    • 初访法(first-visit)
      V(s)=全部轨迹中状态行为对的值**首次等于(s,a)**的所有三元组中的累积回报的均值

    • 每访法(every-visit)
      V(s)=全部轨迹中状态行为对的值**等于(s,a)**的所有三元组中的累积回报的均值

根据大数定律可知:如果求一个状态的累积回报时,找到的状态值为s的三元组的个数越多,所得的均值越接近Q(s,a)真实值。

3. 初访法和每访法哪个更好?

  • 每方法能更充分地利用轨迹数据,但需耗费更多的计算资源
  • 实际使用时,要根据具体场景合理选择。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/628049.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Springboot中时间格式化

时间格式化方式 JsonFromat方式全局配置方式格式化工具方式 JsonFromat方式 前端传参或后端响应 yyyy-MM-dd HH:mm:ss 格式,直接属性字段上加注解 JsonFromat JsonFromat(pattern "yyyy-MM-dd HH:mm:ss", timezone "GMT8") private Date fi…

文件的创建时间可以修改吗,怎么改?

文件的创建时间可以修改吗,怎么改?文件的创建时间是由操作系统自动生成并记录的,通常情况下无法直接修改。创建时间是文件的属性之一,它反映了文件在文件系统中的生成时间。一旦文件被创建,其创建时间就被确定下来&…

pod配置资源管理

secret 保存密码,token,敏感的k8s资源 configmap(重点) 1.2加入的新特征 这类数据可以存放在镜像当中,但是放在secret当中可以更方便的控制,减少暴露的风险,保存加密的信息 secret的类型 docker-registry 存储docke…

Vulnhub-tr0ll-1

一、信息收集 端口收集 PORT STATE SERVICE VERSION 21/tcp open ftp vsftpd 3.0.2 | ftp-anon: Anonymous FTP login allowed (FTP code 230) |_-rwxrwxrwx 1 1000 0 8068 Aug 09 2014 lol.pcap [NSE: writeable] | ftp-syst: | STAT: | FTP …

Java使用Quartz做定时任务并持久化

一、导包 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-quartz</artifactId></dependency> 二、创建定时任务 创建一个定时任务如下&#xff0c;需要传入定时任务执行的class、定时任务名字…

【PostgreSQL】函数与操作符-比较函数和操作符

PostgreSQL函数与操作符-比较函数和操作符 PostgreSQL中的比较函数和操作符 PostgreSQL中的比较函数和操作符用于比较两个表达式的值。它们的作用是确定表达式的值是否满足某种条件&#xff0c;例如等于、大于、小于等。 比较函数是一个接受两个参数的函数&#xff0c;返回一…

leetcode-2719统计证书数目

题目链接 2719. 统计整数数目 - 力扣&#xff08;LeetCode&#xff09; 解题思路 题目实际上求的是[num1,...num2]中&#xff0c;数位和在[min_sum,...max_sum]的数的个数。对于这种区间[l,...r]的问题&#xff0c;我们可以考虑转化为求[1,...r]和[1,...l-1]的答案&#xff…

分布式搜索——Elasticsearch

Elasticsearch 文章目录 Elasticsearch简介ELK技术栈Elasticsearch和Lucene 倒排索引正向索引倒排索引正向和倒排 ES概念文档和字段索引和映射Mysql与Elasticsearch 安装ES、Kibana安装单点ES创建网络拉取镜像运行 部署kibana拉取镜像部署 安装Ik插件扩展词词典停用词词典 索引…

Linux 内核大转变:是否将迈入现代 C++ 的时代?

Linux开发者 H. Peter Anvin 在邮件列表中重启了关于 Linux内核C代码转换为C的讨论&#xff0c;并陈述了自己的观点。说之前先看一下这个话题的历史背景。 早在2018年4月1日&#xff0c;Andrew Pinski提议将 Linux 内核源码转为 C&#xff0c;在文中写道之所以引入是由于以下优…

centos7配置时间同步网络时间

centos7配置时间同步网络时间 1、安装 NTP 工具。 sudo yum install -y ntp2启动 NTP 服务。 sudo systemctl start ntpd3、将 NTP 服务设置为开机自启动。 sudo systemctl enable ntpd4、验证 date

50-Js控制元素显示隐藏

1.使用style样式,两个按钮:显示按钮,隐藏按钮 <style>div{width: 300px;height: 300px;background-color: red;transition: .4s;}</style></head><body><button>显示</button><button>隐藏</button><div></div>…

Xmind 网页端登录及多端同步

好久没用 Xmind 了&#xff0c;前几天登录网页端突然发现没办法登录了&#xff0c;总是跳转到 Xmind AI 页面。本以为他们不再支持网页端了&#xff0c;后来看提示才知道只是迁移到了新的网址&#xff0c;由原来的 xmind.works 现在改成了的 xmind.ai。又花费好长时间才重新登录…

WiFi7: MLO操作之AP MLD的发现—ML probe request和response的使用

原文:ML probe request能够让non-AP MLD下的non-AP请求AP MLD下的某AP,要求在response 帧中包含AP MLD下的AP的完整或者部分的capabilities, parameters, operation elements列表。被请求的完整或者部分的AP profile在35.3.3.3(Advertisement of complete or partial per-lin…

JAVAEE——request对象(三)

1. request对象 1.1 知识点 &#xff08;1&#xff09;乱码问题的两种解决方式 &#xff08;2&#xff09;post和get提交的区别 &#xff08;3&#xff09;request接收同名参数的问题 1.2 具体内容 使用request接收参数 <%page contentType"text/html; charsetut…

探索2023年大模型与AIGC峰会:程序员的学习之旅与未来展望

在2023年的技术前沿&#xff0c;大模型与AIGC峰会无疑是一个备受瞩目的盛会。 作为程序员&#xff0c;你将从这次大会中学到什么&#xff1f;这次峰会将为你揭示哪些前沿科技趋势&#xff1f;让我们一起来探讨这个问题。 一、理解大模型与AIGC 大模型和AIGC是人工智能领域中两…

离线数据仓库-关于增量和全量

数据同步策略 数据仓库同步策略概述一、数据的全量同步二、数据的增量同步三、数据同步策略的选择 数据仓库同步策略概述 应用系统所产生的业务数据是数据仓库的重要数据来源&#xff0c;我们需要每日定时从业务数据库中抽取数据&#xff0c;传输到数据仓库中&#xff0c;之后…

x-cmd pkg | mermaid - 流程图、时序图等图表绘制工具

简介 mermaid-cli 是由 Mermaid 官方提供的命令行工具&#xff0c;用于将 Mermaid 语法的文本转换为 SVG / PNG / PDF。 Mermaid 是一个基于 JavaScript 的图表绘制工具&#xff0c;它使用简单的文本描述语法&#xff0c;就可以绘制出流程图、时序图、甘特图等多种图表。 首次…

C++标准学习--智能指针

shared_ptr和weak_ptr的配合使用是个问题。unique_ptr的使用场合似乎比较局限。 文章C 智能指针详解&#xff08;一&#xff09;——unique_ptr - 知乎 (zhihu.com) 介绍了unique_ptr的使用。它可以由shared_ptr转来&#xff0c;主要用到了std::move。 主要场景其中提到&#…

100天精通Python(实用脚本篇)——第112天:图像处理批量给图片添加水印,防盗必备建议收藏!!!(附上脚本代码)

文章目录 专栏导读1. 图片设置水印的意义?2. 需求3. 实现效果4. 添加全屏水印4.1 单张图片添加全屏水印4.2 批量给多张图片添加全屏水印5. 添加指定位置水印5.1 模块介绍5.2 批量添加脚本实现专栏导读 🔥🔥本文已收录于《100天精通Python从入门到就业》:本专栏专门针对零…

ES数据聚合

1.数据聚合 聚合&#xff08;aggregations&#xff09;可以让我们极其方便的实现对数据的统计、分析、运算。例如&#xff1a; 什么品牌的手机最受欢迎&#xff1f; 这些手机的平均价格、最高价格、最低价格&#xff1f; 这些手机每月的销售情况如何&#xff1f; 实现这些…