强化学习的数学原理:值函数近似

在上次课介绍了 TD Learning,实际上这次课依然是介绍 TD ,但是上次是用的表格形式介绍的,这次课我们将会介绍基于函数的方式。

算法其实不太难,难的是思路和想法,另外这一节将引入神经网络。

另外最经典的 Deep Q-learning 在这里也会学习到。

大纲如下:

在这里插入图片描述

Motivating examples:curve fitting

这一节将使用 曲线拟合 的例子来进行表格到函数的过渡。

虽然没有明说,但是到目前为止实际上 state value 和 action value 全部都假设它们是用表格的形式表达出来的,比如下图中的 action value 就由两个下标可以围城一个表格,在编程的时候我们会将这样的表格重组成向量矩阵或者是数组,其优缺点也很明显:

在这里插入图片描述

而通过函数近似的方法我们可以很好的解决其缺点:

在这里插入图片描述

如上图所示,横坐标是 S ,其表示状态空间中的每个状态,而纵坐标表示的是 state value,那些 state value 分别就对应了那些离散的圆点。

那现在的问题是如果状态的个数非常非常多,如果要把它全部存储下来,其实要花非常大的内存,那有没有可能用一个曲线把这些离散的点给它串起来?然后用这个曲线来代表这些点呢?为什么要用曲线呢就是因为这个曲线它所对应的参数的个数其实是非常少的,我只要存储比较少的参数就能来表示所有的这些状态它的 state value。

答案肯定是可以的,最最简单的情况就是我们用一条直线来拟合这些点:

在这里插入图片描述

当然也可以是非线性的,但先从简单的入手嘛。

在这里插入图片描述

有了上面这个函数之后,我们就不需要存储大量的数据了,只需要根据近似的 vhat(s, w),第一步先计算出来特征向量,然后再用这个特征向量和参数向量 w 相乘就可以计算得到 state value ,也就是 vhat。

但其缺点就是精度有缺失,明显的这样一条直线很难拟合所有的点,这也是为什么这种方法叫 值近似 。

接下来我们就可以使用更高阶的曲线来进行拟合:

在这里插入图片描述

在这种情况下,参数向量和特征向量的维数提高了但是好处也是显而易见的,其拟合精度是有可能提高的。

在这里插入图片描述

简单小结一下:

在这里插入图片描述

Algorithm for state value estimation

第二节包含了很多小节,它介绍了值函数近似这种方法的思想和概念还有相关细节。

Objective function

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

第一种方式采用平均分布显然有缺陷,但这种缺陷将在第二种方式平稳分布中被解决:

在这里插入图片描述

在这里插入图片描述

简单说明的一个例子:

在这里插入图片描述

在这里插入图片描述

Optimization algorithms

有了刚才的目标函数,下面我们要去优化这个目标函数,来看一下这个优化的算法是什么。

第一个该想到的就应该梯度下降:

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Selection of function approximators

怎么通过函数去逼近这个我们想要的值呢?有两种方法:

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Illustrative examples

接下来给出一些例子。

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
那么 TD Linear 是不是也能很好地去估计出来 state value:

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Summary of the story

在这里插入图片描述

尽管上述说的这一套流程对于理解值函数近似的思想是有帮助的,但从数学上来说是不严谨的。

Theoretical analysis

简单从数学上分析一下:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Sarsa with function approximation

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Q-learning with function approximation

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Deep Q-learning

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

DQN采用了两种精妙的 technique,其中一种就是刚刚说的采用了两个网络:

在这里插入图片描述

还有一种 technique 就是 Experience replay,经验回放:

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

该算法伪代码如下:

在这里插入图片描述

下面将会举一些例子:

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

这些例子说明了就算再强大的算法也得有好的数据,没有好的数据还是不行的。

Summary

就不总结了,就是前面各个章节的内容,看看标题就能回忆起来。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/868496.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

NTP权威时间源地址参考

概述 NTP 是 Network Time Protocol 的简称,也就是网络时间协议,它可以通过网络来同步时间的服务器。Windows 自带的 NTP 服务器都在美国,有时间经常无法访问。 中国境内 中国 NTP 快速授时服务 cn.ntp.org.cn阿里云公共 NTP 服务器 ntp…

AutoDL部署半自动大模型标注工具踩坑实录

效果演示 克隆代码 git clone http://github.com/yoletPig/Annotation-with-SAM.git安装SAM cd segment-anything pip install -e .安装SAM-Tool依赖包 pip install -r requirements.txt下载权重 wget https://dl.fbaipublicfiles.com/segment_anything/sam_vit_h_

论文新思路!双通道卷积神经网络!最新成果准确率近100%

双通道CNN是一种创新的卷积神经网络架构,它能捕捉到比单通道CNN更丰富的信息,从而提高模型的性能和鲁棒性。 具体点讲,传统CNN采用单个卷积层提取特征,形成特征映射;而双通道CNN则通过两个并行卷积层同时处理输入数据…

越来越多用户和商家选择小程序商城的原因是什么?小程序商城怎么搭建?

得益于小程序的便捷性,越来越多的用户选择在小程序商城购物,越来越多的商家也开始搭建自己的小程序商城。背后原因是什么呢?小程序商城怎么搭建? 用户为何青睐小程序商城? 1、便捷性 小程序商城无需下载安装&#xff…

数据结构——二叉树之c语言实现堆与堆排序

目录 前言: 1.二叉树的概念及结构 1.1 特殊的二叉树 1.2 二叉树的存储结构 1.顺序存储 2.链式存储 2. 二叉树的顺序结构及实现 2.1 堆的概念 ​编辑 2.2 堆的创建 3.堆的实现 3.1 堆的初始化和销毁 初始化: 销毁: 插入&…

华为HCIP Datacom H12-821 卷28

1.单选题 下面是一台路由器的部分配置,关于该部分配置描述正确的是,[HUAWEI]ip ip-prefx pl permit 10.0.192.0 8greater-equal17 less-equal 18 A、10.0.192.0/8网段内,掩码长度为18的路由会匹配到该前缀列表,匹配规则为允许 B、10.0.192.0/8网段内掩码长度为21的路…

开源屏幕分享项目:轻量好用无延迟!!【送源码】

想必大家在日常的工作中,会经常需要分享代码、演示项目或者进行在线教学,这就需要一个既高效又便捷的屏幕共享工具。然而,现有的一些解决方案往往存在延迟高、画质差等问题。 今天就分享一个开源的屏幕共享项目 - screego,不但免…

WIN32核心编程 - 文件系统 - 文件操作 - 目录操作

公开视频 -> 链接点击跳转公开课程博客首页 -> 链接点击跳转博客主页 目录 文件系统基本概念 文件操作(基本) 文件操作(属性) 文件系统基本概念 文件(File):计算机中存储数据的基本单位。文件可以是文本文件、图像文件、音频文件、视…

PHP灵活用工任务小灵通微信小程序系统源码

💼灵活赚钱新风尚!灵活用工任务小灵通微信小程序,兼职自由两不误🚀 🔍 一、海量任务,随时随地接单赚外快 还在为找不到合适的兼职而烦恼吗?🤔 灵活用工任务小灵通微信小程序&#…

Java-Sql注入以及如何解决

sql脚本注入: 如果sql语句使用字符串拼接,可能会出现字符串的拼接,导致sql注入。 #是会先进行预编译,传进来的参数通过占位符填入到已经完成编译的语句中去。

paddleocr运行报错?谈谈解决思路。

🏆本文收录于「Bug调优」专栏,主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收藏&&…

代码随想录算法训练营第四十七天|1143.最长公共子序列、 1035.不相交的线、53. 最大子序和、392.判断子序列

1143.最长公共子序列 题目链接:1143.最长公共子序列 文档讲解:代码随想录 状态:一开始没想明白为啥要 max(dp[i - 1][j], dp[i][j - 1]) 思路: 如果text1[i - 1] 与 text2[j - 1]相同,那么找到了一个公共元素&#xff…

亚马逊个人卖家掌控物流,教你在单个ERP端口上实现全自动发货

亚马逊个人卖家可对接20多家国际物流,个人如何发货打单? 大家好,今天介绍这款erp有了订单后怎么发货。个人ERP在选择发货的时候只能选择中转仓,这是要把货发给ERP的商家,由商家代打包,打包费。这块开发了自…

协议转换网关的工作原理-天拓四方

在当今数字化和网络化的社会中,不同系统和设备之间的通信至关重要。然而,由于技术多样性、厂商差异以及应用需求的复杂性,不同的系统和设备常常采用不同的通信协议,这使得它们之间的直接通信变得困难。为了解决这一问题&#xff0…

新型过滤沉淀池设备优点

新型过滤沉淀池设备优点 磁混凝一体化设备优点: (1)磁混凝水头损失较少,本质上是混凝沉淀工艺,较过滤水头损失很少,而出水达到过滤的效果。磁混凝滤池低水位差约0.6m,主要体现在沉淀池出水槽跌水…

如何利用Java进行大数据处理?

如何利用Java进行大数据处理? 大家好,我是微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿! 1. 引言 在当今信息爆炸的时代,处理大数据是许多应用程序和系统的核心需求之一。Java作为一种…

单片机软件架构连载(5)-队列

前面讲了指针、结构体之类的基础知识。 这篇内容开始,就要对这些基础知识,做一些复杂的应用了,比如说队列。 其实,在2018年的时候,我录制过一套程序架构的视频,里面有手把手写队列的教程,讲了一…

中国计量大学理学院访问赛氪网:共探校企合作新篇章来

2024年7月5日,中国计量大学理学院代表团莅临环球赛乐(北京)科技有限公司,进行了一场深入的调研交流活动。代表团成员包括中国计量大学理学院副院长王义康教授、数据科学系副主任刘学艺副教授以及金世举老师。此次访问旨在进一步强…

暑期限定|get你的联邦学习技能,隐私计算暑期夏令营开启报名!

伴随着数字经济时代的来临,数据的安全流通和隐私保护也迎来了新的发展和挑战。隐私技术作为关键技术,可以在保护数据安全的同时,联合多方进行安全计算。 “隐语”是蚂蚁集团于2022年开源的一套可信隐私计算技术框架,支持了包括多…

复合机器人:手脚眼脑的完美结合

在现代工业制造的舞台上,复合机器人如同一位精密而高效的工匠,以其独特的手脚眼脑,正深刻改变着传统的生产方式。这些机器人不仅仅是机械臂的简单延伸,它们汇聚了先进的机械结构、智能的感知系统、精密的控制技术和灵活的思维能力…