01强化学习的数学原理:大纲

01强化学习学习路线大纲

  • 前言
  • 强化学习脉络图
  • 章节介绍
    • Chapter 1:Basic Concepts
    • Chapter 2:Bellman Equation
    • Chapter 3:Bellman Optimality Equation
    • Chapter 4:Value Iteration / Policy Iteration
    • Chapter 5:Monte Carlo Learning
    • Chapter 6:Stochastic Approximation
    • Chapter 7:Temporal-Difference Learning
    • Chapter 8:Value Function Approximation
    • Chapter 9:Policy Gradient Methods
    • Chapter 10:Actor-Critic Methods

前言

本文来自西湖大学赵世钰老师的B站视频。本文首先对要学习的内容做一个总结,没有基础的看不懂也很正常,可以先了解一下,后期学完各个章节之后再回头来看。

强化学习脉络图

在这里插入图片描述
分成了两个板块,基本工具和算法方法。基本工具包括基本概念:贝尔曼公式、贝尔曼最优公式,算法和方法包括值迭代、策略迭代、蒙特卡洛方法、时序差分方法、基于value function approximation、policy Gradient Methonds、Actor-Critic Methods。

章节介绍

Chapter 1:Basic Concepts

基本概念:状态、动作、奖励、回报、episode、策略…。通过一个网格世界的例子,一个机器人找到目标区域的例子。之后会将这些概念放在Markov decision process(MDP)的框架下去介绍。

Chapter 2:Bellman Equation

第二章介绍贝尔曼公式。
在这里插入图片描述
这里要搞清一个概念(状态值)和一个工具(Bellman equation)以及它们之间的关系。状态值就是从一个状态出发,沿着一个策略所得到奖励汇报的一个平均值,状态值越高就越说明对应的策略越好,我评价了一个策略,得到了一个值,然后基于它的值再改进策略,就这样循环下去,最后就能得到一个最优的策略。

Chapter 3:Bellman Optimality Equation

贝尔曼最优公式实际上是贝尔曼公式的一个特殊情况,每一个贝尔曼公式都对应了一个策略,贝尔曼最优公式作为一个特殊的贝尔曼公式,对应最优策略,为什么要研究贝尔曼最优公式呢?就是因为它和最优策略有关系,这里就涉及到一个基础的问题,强化学习的终极目标是什么?强化学习的终极目标就是在求解最优策略。因此第三章非常重要。
在这里插入图片描述

最优策略的定义:沿着最优策略能够得到最大的状态值(重要)。最优策略很重要,那么如何分析它呢?需要用到一个工具,即贝尔曼最优公式。它写出来的形式其实是非常简洁的,是矩阵向量的形式。分析这个公式我们用到了不动点原理,不动点原理告诉了我们两个方面的性质,一个是判断最优的策略、最优的状态值到底存在不存在。最优的策略不一定是唯一的,但最优的状态值一定是唯一的。另一方面它能求解贝尔曼最优公式。

Chapter 4:Value Iteration / Policy Iteration

第一批能够求解最优策略的方法和算法是什么,包括值迭代、策略迭代和Truncated policy iteration。Truncated policy iteration是值迭代、策略迭代的统一化表达方式。这三个算法是迭代式算法,并且在每个迭代步骤当中有两个子步骤Policy update和value update,也就是说在当前时刻的策略不太好,此时进行估计该策略的值,进行策略评价,然后根据该策略的值来改进策略,改进之后再得到值,然后再改进如此反复迭代进行。Policy update和value update这两个步骤会不断地迭代,最后就能找到最优策略。
在这里插入图片描述

Chapter 5:Monte Carlo Learning

蒙特卡罗方法是最简单也是第一个不需要模型就能找到的最优策略的方法。没有模型实际上就是学习随机变量的期望,之前提到的state value、action value等都是随机变量的期望值,对x做随机采样,得到平均值,这个平均值就可有作为E(x)的一个很好的近似。总之,没模型要有数据,没数据的话要有模型,既没有模型也没有数据的话什么也学不了。在这里插入图片描述
具体来说第五章介绍了三个算法,分别是MC Basic、MC Exploring Starts和MC ε-greedy。难度依次增加,MC Basic模型在实际中不能用,因为效率很低;
强化学习得学习是一环扣一环得,比如,这里要学会蒙特卡罗方法首先要学会Policy Iteration,要学Policy Iteration我们首先得知道value iteration,要学value iteration我们就得先知道Bellman optimality equation。

Chapter 6:Stochastic Approximation

本章学习随机近似理论。第一个问题是来估计一个随机变量的期望,我们想用这个例子来说明什么是non-incremental,什么是incremental。估计E(x)有两种方法,non-incremental的方法就是比如我有一万次采样,我要等所有的采样全部采到了,一次性求平均,就得到了E(x)的近似。incremental的思想是在最开始的时候对它有一个估计,这个估计可能不准,但是没关系,我们每得到一个采样就用这个采样来更新我们的估计,这样慢慢的我们的估计就会越来越准。
具体来说,第六章介绍了三个算法,如下:
在这里插入图片描述
总结:第六章的目的是为我们打基础。主要学习掌握增量式的算法的思想,以及SGD这个算法还有它的思想在后边都会有很广泛的应用。

Chapter 7:Temporal-Difference Learning

本章学习时序差分方法,时序差分是强化学习中非常经典的方法,具体介绍以下几种:
在这里插入图片描述

Chapter 8:Value Function Approximation

从第七章到第八章也存在一个比较大的鸿沟。从第七章到前边全都是基于表格形式的,比如说状态值Vπ(s),s是一个状态, 每一个状态都对应一个状态值,这些状态值存在一个表格或者向量当中,如果去访问或者修改的话都是非常容易的,但是如果状态非常多或者状态是连续的,那这种表格形式的效率就比较低下或者就不再适用了,这时我们就需要用函数的形式来进行代替,用V_(s,w),w是这个函数对应的参数,我们希望这个函数能和真实的Vπ(s)越接近越好。
在这里插入图片描述
总的来说,第八章我们引入了一个函数进来,而神经网络是函数非常好的表达方式,所以第八章神经网络首次进入到强化学习中。

Chapter 9:Policy Gradient Methods

从第八章到第九章也存在一个比较大的鸿沟,第八章之前全都是value-based方法,而第九章和第十章开始变成了policy-based方法。
value-based和policy-based方法的区别如下:
第八章有一个目标函数J(w),w是值函数的参数,我要更新值函数的参数使得这个值函数能够很好地近似或者估计出一个策略所对应的值,在这个基础上我再更新策略然后得到新的策略,然后在估计它的值,这样不断迭代。Policy gradient方法有些不一样,它是有一个目标函数J(θ),θ是策略的参数,这里我们也把策略从表格形式变成了函数的形式,所以我们是直接优化这个参数θ,即直接改变策略,慢慢的得到最优的策略。
在这里插入图片描述

Chapter 10:Actor-Critic Methods

Actor-Critic 方法实际上是把alue-based和policy-based方法相结合,更准确来说是把第八章和第九章中的内容结合在一起。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/83304.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华为OD机试 - 靠谱的车 - 逻辑分析(Java 2023 B卷 100分)

目录 专栏导读一、题目描述二、输入描述三、输出描述四、解题思路五、Java算法源码六、效果展示1、输入2、输出3、说明 华为OD机试 2023B卷题库疯狂收录中,刷题点这里 专栏导读 本专栏收录于《华为OD机试(JAVA)真题(A卷B卷&#…

JOSEF约瑟 智能电流继电器KWJL-20/L KWLD26 零序孔径45mm 柜内导轨式安装

KWJL-20智能电流继电器 零序互感器: KWLD80 KWLD45 KWLD26 KWJL-20 一、产品概述 KWJL-20系列智能剩余电流继电器(以下简称继电器)适用于交流电压至660V或更高的TN、TT、和IT系统,频率为50Hz。通过零序电流互感器检测出超过…

IOTE 2023国际物联网展直击:芯与物发布全新定位芯片,助力多领域智能化发展

IOTE 2023国际物联网展,作为全球物联网领域的盛会,于9月20日在中国深圳拉开帷幕。北斗星通集团应邀参展,旗下专业从事物联网、消费类GNSS芯片研发设计的芯与物公司也随其亮相本届盛会。 展会上,芯与物展示了一系列创新的GNSS定位…

消费盲返模式:一种让消费者和商家都受益的新型消费返利模式

消费盲返是一种新型的消费返利模式,它的核心思想是:消费者在平台购买商品后,可以获得后续一定数量的订单的部分利润作为奖励。这样,消费者不仅可以享受商品的优惠,还有可能赚取更多的钱。 这种模式对于平台和消费者都有…

iOS蓝牙 Connection Parameters 关键参数说明

1. 先贴苹果文档 《 Accessory Design Guidelines for Apple Devices 》 2. 几个关键词 connection Event Interval 事件间隔,为1.25ms的倍数。可以简单理解为,是两个连接着的蓝牙设备发送“心跳包”的时间间隔; 范围是 6 ~ 3200,即 7.5…

Jmeter性能测试吞吐量控制器使用小结

吞吐量控制器(Throughput Controller)场景: 在同一个线程组里, 有10个并发, 7个做A业务, 3个做B业务,要模拟这种场景,可以通过吞吐量模拟器来实现.。 jmeter性能测试:2023最新的大厂jmeter性能测试全过程项目实战详解,悄悄收藏,后面就看不到…

Pytorch史上最全torch全版本离线文件下载地址大全(9月最新)

以下为pytorch官网的全版本torch文件离线下载地址 torch全版本whl文件离线下载大全https://download.pytorch.org/whl/torch/其中的文件版本信息如下所示(部分版本信息,根据需要仔细寻找进行下载):

Web(1) 搭建漏洞环境(metasploitable2靶场/DVWA靶场)

简述渗透测试的步骤; 前期交互阶段→情报搜集阶段→威胁建模阶段→漏洞分析阶段→渗透攻击阶段→后渗透攻击阶段→报告阶段 (2)配置好metasploitable2靶场,截图 下载metasploitable2,VMware打开.vmx文件,登录,登陆用…

React 全栈体系(五)

第三章:React 应用(基于 React 脚手架) 一、使用 create-react-app 创建 react 应用 1. react 脚手架 xxx 脚手架: 用来帮助程序员快速创建一个基于 xxx 库的模板项目 包含了所有需要的配置(语法检查、jsx 编译、devServer…)下载好了所有…

一、8086

1、三大总线: (1)基础: 地址总线、数据总线、控制总线 (2)例题: 2、8086CPU (1)通用寄存器: 数据寄存器: 指针寄存器和变址寄存器&#xff1a…

国内首个潮玩行业沉浸式IP主题乐园,泡泡玛特城市乐园即将开园

近年来,泡泡玛特以潮玩IP为核心,不断拓展业务版图,推进国际化布局同时实现集团化运营,而泡泡玛特首个城市乐园将于9月下旬开业。据了解,泡泡玛特城市乐园是由泡泡玛特精心打造的沉浸式IP主题乐园,占地约4万…

linux新版本io框架 io_uring

从别的博主那copy过来: 1 io_uring是Linux内核的一个新型I/O事件通知机制,具有以下特点: 高性能:相比传统的select/poll/epoll等I/O多路复用机制,io_uring采用了更高效的ring buffer实现方式,可以在处理大量…

html form表单高级用法

场景&#xff1a;想单纯使用表单内置的api完成提交&#xff0c;不使用js代码 代码如下&#xff1a; <form name"myForm" action"http://localhost:13734/form" method"post"><label>用户名<input type"text" name&qu…

卓越领先!安全狗入选2023年福建省互联网综合实力50强

近日&#xff0c;福建省互联网协会在2023年东南科技论坛——智能算力助力数字经济产业融合发展论坛上正式发布2023年福建省互联网综合实力前50家企业最终评定结果。 作为国内云原生安全领导厂商&#xff0c;安全狗凭借突出的竞争力和市场表现入选。 据悉&#xff0c;福建省互…

【面试题】forEach能跳出循环吗?

前端面试题库 &#xff08;面试必备&#xff09; 推荐&#xff1a;★★★★★ 地址&#xff1a;前端面试题库 【国庆头像】- 国庆爱国 程序员头像&#xff01;总有一款适合你&#xff01; 如果面试官&#xff0c;或者有人问你foreach怎么跳出循环&#xff0c;请你…

开源媒体浏览器Kyoo

什么是 Kyoo &#xff1f; Kyoo 是一款开源媒体浏览器&#xff0c;可让您流式传输电影、电视节目或动漫。它是 Plex、Emby 或 Jellyfin 的替代品。Kyoo 是从头开始创建的&#xff0c;它不是一个分叉。一切都将永远是免费和开源的。 软件特性&#xff1a; 管理您的电影、电视剧…

QT : 仿照QQ 完成弹出登录窗口,并实例化组件

1. 运行效果图 2. Headers #ifndef MAINWINDOW_H #define MAINWINDOW_H#include <QMainWindow>class MainWindow : public QMainWindow {Q_OBJECTpublic:MainWindow(QWidget *parent nullptr);~MainWindow(); }; #endif // MAINWINDOW_H 3. mainWindow.cpp &#xff1a…

SpringMVC之JSON返回及异常处理机制

目录 一、JSON处理 1.1 导入依赖 1.2 配置Spring-mvc.xml 1.3 ResponseBody注解使用 ​编辑 1.4 Jackson 1.4.1 定义 1.4.2 用途 1.4.3 用法 1.4.4 常用注解 1.5 作用 二、统一异常处理 2.1 为什么要全局异常处理&#xff1f; 2.2 异常处理思路 2.3 SpringMVC异…

喜报:项目验收季之陕西融通军民服务社会议室大屏系统项目建设顺利通过竣工验收

由达之云承建的陕西融通军民服务社会议室大屏系统项目建设日前完满完成各项建设任务&#xff0c;建设成果达到预期项目建设目标&#xff0c;并于9月19日顺利通过项目竣工验收。 陕西融通军民服务社有限公司会议大屏系统建设项目为大会议室增加一套视频会议系统&#xff0c;将原…