强化学习------时序差分(Temporal-Difference Learning)

简介

时序差分方法(Temporal-Difference Learning)简称TD算法是强化学习中非常经典的一种方法,Sarsa算法Q-learning算法都是基于时序差分这种方法的。
强化学习分为基于模型不基于模型的方法

  • 基于模型的方法:是一种通过建立对环境的模型来预测状态和行动结果,然后基于这些预测来制定最优策略的方法在基于模型的强化学习中,智能体会尝试建立一个对环境的内部模型,该模型可以预测在给定状态下采取某个行动后可能产生的下一个状态,以及相应的奖励。这个内部模型可以是一个确定性模型,也可以是一个概率性模型。
  • 不基于模型的方法:一种直接通过与环境的交互来学习最优策略的方法,而不依赖于对环境的内部模型的预测。在不基于模型的强化学习中,智能体通过与环境的交互来学习,观察采取不同行动后环境的反馈,并根据这些反馈来调整自己的策略。不基于模型的方法通常包括两个主要步骤:首先是通过与环境的交互来收集数据,然后使用这些数据来直接学习最优的策略。

总结来讲就是: 不基于模型,就基于数据

TD算法

TD算法是不基于模型的,即是基于数据的。

要的数据是什么呢?就是以下的数据:经验
在这里插入图片描述
就是策略 π \pi π产生的经验,即状态s、奖励r、下一状态s…这种序列。

TD算法的形式如下:
在这里插入图片描述

解释:
v t ( s t ) v_t(s_t) vt(st)就是估计的state value值,state value的定义在贝尔曼方程中,可以翻看之前的文章进行查看。

首先 v t + 1 ( s t ) v_{t+1}(s_t) vt+1(st)是对 v t ( s t ) v_t(s_t) vt(st)的一个新的估计值,是由式子右边得到的。
r t + 1 + γ v t ( s ( t + 1 ) ) r_{t+1}+γv_t(s_(t+1)) rt+1+γvt(s(t+1))叫做TD target,实际上是希望 v t ( s t ) v_t(s_t) vt(st)朝着TD target方向进行调整,就是更加接近于TD target,之后我们会介绍原理。

v t ( s t ) v_t(s_t) vt(st)减去TD target,叫做TD error相当于损失值,
在这里插入图片描述

TD算法是怎么让 v t ( s t ) v_t(s_t) vt(st)朝着TD target方向进行调整?
证明:

我们设TD target v ‾ t \overline{v}_t vt,则:
在这里插入图片描述

在这里插入图片描述

最下面这个式子表示,由 v t ( s t ) v_t(s_t) vt(st)变成 v t + 1 ( s t ) v_{t+1}(s_t) vt+1(st),会缩短和 v ‾ t \overline{v}_t vt的距离,即越来越靠近 v ‾ t \overline{v}_t vt,所以TD算法就是为了让 v t ( s t ) v_t(s_t) vt(st)朝着TD target方向进行调整

TD error表示什么意思呢?

在这里插入图片描述
首先他表示了两个不同时间之间的差异,因为 v s t v_{s_t} vst表示t时间, v s t + 1 v_{s_{t+1}} vst+1表示t+1的时间,这也是为什么叫做时序差分算法的原因。

其次他表示一种革新,我们的 v t ( s t ) v_t(s_t) vt(st)是一种估计值,但只这种估计可能是不准确的,这时候我们将其与新的经验( s t s_t st, r t + 1 r_{t+1} rt+1, s t + 1 s_{t+1} st+1)进行对比,产生了一个误差error,然后我们可以用这个error改进我们当前的这个估计。

TD 算法的性质

其本质就是在给定的策略下去估计state value,

并且他有如下的局限性:

  • 不能估计action value
  • 不能找到最优策略

不过以上两个问题,可以通过Sarsa算法以及Q-learning算法得到解决

Sarsa算法
Q-learning算法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/193281.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Redis之五大基础数据类型(详细总结 面试必备)

Redis之五大基础数据类型 Redis 共有 5 种基本数据类型:String(字符串)、List(列表)、Set(集合)、Hash(散列)、Zset(有序集合)。 这 5 种数据类…

64. 最小路径和(Leetcode)

文章目录 前言一、题目分析二、算法原理1.状态表示2.状态转移方程3.初始化4.填表顺序5.返回值是什么 三、代码实现总结 前言 在本文章中,我们将要详细介绍一下Leetcode6最小路径相关的内容 一、题目分析 二、算法原理 1.状态表示 列出dp表,dp[i][j]代…

IDEA导入JavaWeb项目(Maven)

IDEA导入JavaWeb(Maven)项目教程 运行教程 亲爱的粉丝们,我深知你们对IDEA导入JAVAWeb工程的迫切需求。在这个充满竞争的时代,每一个项目都离不开高效的沟通。过程中需要对应的环境适配和软件安…

操作PDF相关的工具,EPUB转PDF,golang

unipdf 安装依赖 go get github.com/unidoc/unipdf/v3 示例代码 https://github.com/unidoc/unipdf-examples 获取KEY 登录 https://cloud.unidoc.io/ 注册账号,生成 KEY,但是需要收费。 chromedp 使用Golang编写,主要功能是调用浏览器内…

代码随想录算法训练营第四十一天 _ 动态规划_343. 整数拆分、96.不同的二叉搜索树、01背包问题。

学习目标: 动态规划五部曲: ① 确定dp[i]的含义 ② 求递推公式 ③ dp数组如何初始化 ④ 确定遍历顺序 ⑤ 打印递归数组 ---- 调试 引用自代码随想录! 60天训练营打卡计划! 学习内容: 343. 整数拆分 动态规划五步曲&…

Mysql之数据处理增删改

Mysql之数据处理增删改查 插入数据INSERT INTO语句的使用INSERT 与子查询结合 更新数据(修改数据)UPDATE SET语句 删除数据DELETE FROM语句 Mysql8新特性:计算列 插入数据 INSERT INTO语句的使用 用 INSERT INTO 语句,向表中插入数据 方式一:…

Web漏洞分析-SQL注入XXE注入(上)

随着互联网的不断普及和Web应用的广泛应用,网络安全问题愈发引起广泛关注。在网络安全领域中,SQL注入和XXE注入是两个备受关注的话题,也是导致许多安全漏洞的主要原因之一。本博客将深入研究这两种常见的Web漏洞,带您探寻背后的原…

一个用c#瞎写的sftp工具

0.下载地址 https://wwus.lanzouj.com/iOZUv1gkgpze 密码:123456 1.能进行单个和批量下载, 没有弄上传 2.速度奇差,可能是某些地方没弄好.有一定的进度显示,但是不太准. 3.很多地方没弄好,有能力的自己弄一下 4.在app.config文件配置sftp

深度学习 第3章 Python程序设计语言(3.2 Python程序流程控制)

无论是在机器学习还是深度学习中,Python已经成为主导性的编程语言。而且,现在许多主流的深度学习框架,例如PyTorch、TensorFlow也都是基于Python。本课程主要是围绕“理论实战”同时进行,所以本章将重点介绍深度学习中Python的必备…

Echarts大屏可视化_03 定制柱状图

柱状图模块引入 1.找到合适的图表 在echarts中寻找与目标样式相近的图表 Examples - Apache ECharts 2. 引入柱状图 使用立即执行函数构建,防止变量全局污染 实例化对象 将官网中提供的option复制到代码中,并且构建图表 // 柱状图模块1 (function () {/…

Python爬虫:通过js逆向分析某翻译网站的原理

Python爬虫:通过js逆向分析某翻译网站的原理 1. 网站实现原理2. 抓取接口3. 参考代码和运行结果 1. 网站实现原理 首先,说一下爬取的网站:百度翻译。网站实现翻译的效果是通过接口实现的,也就是各位听到的ajax技术(只需要更换对应…

Sharding-Jdbc(4):Sharding-Jdbc分库

1 新建数据库 创建ds_0数据库和ds_1数据库,在两个数据库新建表如下: CREATE TABLE t_order (order_id bigint(20) NOT NULL,user_id bigint(20) NOT NULL,PRIMARY KEY (order_id) ) ENGINEInnoDB DEFAULT CHARSETutf8 COLLATEutf8_bin; 2 新建maven项目…

QNX时钟调研

SYSPAGE_ENTRY()的使用&#xff0c;SYSPAGE_ENTRY 测试QNX下printf(“poo\n”);的耗时 #include <sys/neutrino.h> #include <inttypes.h> #include <stdio.h> #include <stdlib.h> #include <sys/syspage.h>int main( void ) {uint64_t cps, …

计算机网络的性能

目录 一、计算机网络的性能指标——宽带 二、计算机网络的性能指标——时延 三、计算机网络的性能指标——时延带宽积 四、计算机网络的性能指标——往返时延 五、计算机网络的性能指标——吞吐量 六、计算机网络的能能指标——利用率 计算机网络的定义&#xff1a;计算机网络时…

9. 双向队列

在队列中&#xff0c;我们仅能删除头部元素或在尾部添加元素。如下图所示&#xff0c;双向队列(double-ended queue)提供了更高的灵活性&#xff0c;允许在头部和尾部执行元素的添加或删除操作。 9.1 双向队列常用操作 双向队列的常用操作如下表所示&#xff0c;具体的方法名称…

Docker镜像制作与推送

目录 Docker镜像制作 搭建私服 将本地镜像推送到私有库 Docker镜像制作 以创建一个新ubuntu镜像&#xff0c;并安装vim命令示例 运行一个ubuntu镜像&#xff0c;发现在镜像里面无法使用vim命令&#xff0c;因为该ubuntu镜像只包括了其最基本的内核命令 [rootlocalhost ~]…

qt5.15播放音频示例(4种方法)

文章目录 Qt播放音频方法一 QMediaPlayer方法二 QSound方法三 QSoundEffect方法四 QAudioOutput问题1 播放无声问题2 QAudioOutput播放嗡嗡声的问题参考Qt播放音频 在linux系统中,可以通过aplay进行简单的播放音频,如 aplay /opt/Audio/test.wav在图形界面,也可以封装apla…

【接口测试】Apifox实用技巧干货分享

前言 不知道有多少人和我有着这样相似的经历&#xff1a;从写程序只要不报错就不测试&#x1f60a;&#xff0c;到写了程序若是有bug就debug甚至写单元测试&#xff0c;然后到了真实开发场景&#xff0c;大哥和你说&#xff0c;你负责的功能模块的所有接口写完要测试一遍无误在…

canvas基础:fillStyle 和strokeStyle示例

canvas实例应用100 专栏提供canvas的基础知识&#xff0c;高级动画&#xff0c;相关应用扩展等信息。 canvas作为html的一部分&#xff0c;是图像图标地图可视化的一个重要的基础&#xff0c;学好了canvas&#xff0c;在其他的一些应用上将会起到非常重要的帮助。 文章目录 上色…

百度收录批量查询工具,免费SEO优化排名工具

拥有一个在搜索引擎中得到良好收录的网站对于个人和企业都至关重要。而百度&#xff0c;作为中国最大的搜索引擎&#xff0c;其收录情况直接影响着网站的曝光度和流量。 百度搜索引擎是中文用户获取信息的重要途径之一。而在这个竞争激烈的网络环境中&#xff0c;了解自己网站…