▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch1 基本概念

▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch1 基本概念

web/2025/4/11 11:03:50/文章来源:https://blog.csdn.net/weixin_46034116/article/details/138477873

PPT 截取有用信息。课程网站做习题。总体 MOOC 过一遍

1、视频 + 学堂在线习题
2、相应章节过电子书复习
3、总体 MOOC 过一遍

学堂在线课程页面链接
中国大学MOOC 课程页面链接
B 站视频链接

PPT和书籍下载网址：【github链接】
onedrive链接：
【书】
【课程PPT】

通过例子介绍强化学习的基本概念
基于马尔可夫决策过程介绍

状态 State： $s_1, s_2, ..., s_9$
状态空间 State space : $\mathcal{S} = \{s_i\}_{i = 1}^9$

行动 Action： $a_1,..., a_5$
行动空间 Action space： $\mathcal{A}(s_i) = \{a_i\}_{i = 1}^5$

状态转移 state transition： $s_1\xrightarrow{a_2} s_2$

在这里插入图片描述
只能表示确定的情况，无法表示状态转移多种可能的情况

状态转移概率 State transition probability:

既可描述确定性情况，也可描述具有随机性的情况。
$p(s_2|s_1,a_2) = 1$
$p(s_i|s_1, a_2)=0, \forall ~ i\neq 2$

策略 Policy
策略告诉 agent 在每个状态下要采取哪些行动。

三种表示方法：
在这里插入图片描述

数学表示：
$\pi$ ：条件概率，任何一个状态下，任何一个 action 的概率

在这里插入图片描述

——————
奖励 Reward：实数、标量。人机交互的手段

$r (s, a)$

一般
正：鼓励
负：惩罚

即时奖励大并不意味着能获得最大的总体奖励。

在这里插入图片描述

轨迹 Trajectory：状态-动作-奖励链

回报 return：沿轨迹获得的所有奖励的总和

在这里插入图片描述
return 越大，策略越好。

Discounted return 折扣回报

在这里插入图片描述

折扣率 discount rate $\gamma$

在这里插入图片描述
每多进行一个动作，前面的参数多乘上一个 $\gamma$

作用：
1、和不再发散。
2、平衡更近未来得到的 reward 和更远未来得到的 reward。

减小 $\gamma$ ，近视，更加注重最近的 reward。
增大 $\gamma$ ，远视，更加注重长远的 reward。

回合 Episode: 试了一次。有限步

episodic tasks: 最终停在某处的任务
continuing tasks：agent 和环境的交互会永远持续

将 episodic tasks 转成 continuing tasks，统一处理
方法一：将目标状态视为特殊的吸收状态 (absorbing state)。一旦 agent 到达一个吸收状态，就不会再离开。之后的奖励都为 0.
方法二：将目标状态视为带策略的普通状态。耗费更多的搜索，更一般化。【本课程选择这种】

通过折扣率计算折扣回报避免发散。

马尔科夫决策过程 (Markov decision process，MDP)

MDP 的关键要素：
集合：
状态集合 State $\mathcal{S}$
动作集合 Action $\mathcal{A(s)}$ , 其中 $\in \mathcal{S}$
奖励集合 Reward $\mathcal{R(s, a)}$

概率分布：
状态转移概率 State transition probability

状态 $\mathcal{s}$ ，进行动作 $\mathcal{a}$ ，转移到状态 $\mathcal{s}^{\prime}$ 的概率为 $p(\mathcal{s}^{\prime}|(s, a))$

奖励概率 Reward probability

状态 $\mathcal{s}$ ，进行动作 $\mathcal{a}$ ，获得奖励 $\mathcal{r}$ 的概率为 $p (r ∣ (s, a))$

策略 Policy：状态为 $\mathcal{s}$ ，进行动作 $\mathcal{a}$ 的概率为 $\pi(a|s)$

Markov 特性：无记忆性，下一刻 $t + 1$ 的状态和奖励仅和当前时刻 $t$ 的状态有关。

$p(s_{t + 1}|a_{t + 1}, s_t,...,a_1,s_0)=p(s_{t + 1}|a_{t + 1}, s_t)$
$p(r_{t + 1}|a_{t + 1}, s_t,...,a_1,s_0)=p(r_{t + 1}|a_{t + 1}, s_t)$

马尔科夫决策过程 + 确定的策略 ——> 马尔科夫过程

回报和下一状态 $s^\prime$ 有关。
$a)=\sum\limits_{s^\prime}p(r|s,a,s^{\prime})p(s^\prime|s,a)$

习题笔记：

每一个状态最优的动作是能得到 长期回报均值最大 的那个，而不是得到立即奖励最大的那个。
MDP是和策略有关系的，其中 decision 对应的就是 policy。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/web/30769.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

基于低代码开发平台的科技管理系统构建：简化运维，提升效率

基于低代码开发平台的科技管理系统构建：简化运维，提升效率

随着科技的发展，企业对管理系统的需求日益增长。为了满足这一需求，本文介绍了一种基于低代码开发平台的科技管理系统构建方法。通过简化开发流程、提高运维效率，该系统能够帮助企业实现科技管理的高效运作。引言在当今信息化时代&#xff0…

阅读更多...

Python4 操作MySQL数据库

Python4 操作MySQL数据库

通过python的pymysql库连接到本地的MySQL数据库，并执行查询操作来获取数据，然后打印出每一行的数据，这里以一个简单的学生表为例进行介绍。 1. MySQL的安装与数据准备首先需要安装MySQL，在安装完成之后使用Navicat与本地数据库…

阅读更多...

Docker 部署项目，真的太雅了~

Docker 部署项目，真的太雅了~

大家好，我是南城余！ 最近在找工作，正好手里有台服务器，之前项目上线用的宝塔部署项目上线，在公司实习了一年后，发现如今项目部署都使用的是容器化部署方案，也就是类似于和 Docker 一样的部署方案…

阅读更多...

对于图片转3d人脸方面的研究

对于图片转3d人脸方面的研究

1.一个开源的可以运行的项目（face3d/README.md at master yfeng95/face3d GitHub） 在配置好环境后，让我们一个一个py文件运行它（我将给出中文注释） 1）1_pipeline.py 将一个3d头像的mat文件转换为jpg…

阅读更多...

海外仓系统能解决海外仓哪些难题？海外仓标准化管理实用指南

海外仓系统能解决海外仓哪些难题？海外仓标准化管理实用指南

海外仓管理问题常常导致业务流程变慢，根据我们的调查显示，至少有48%的海外仓每周都会出现一些“小意外”。甚至这些小问题每天都在发生，问题的出现已经严重影响到了海外仓业务的进行。今天我们将重点分析海外仓比较常见的一些问题&#xff0c…

阅读更多...

springboot vue 开源会员收银系统 (7) 收银台的完善新增开卡结算

springboot vue 开源会员收银系统 (7) 收银台的完善新增开卡结算

前言完整版演示开发版演示在前面的开发中，我们成功完成了商品分类和商品信息的搭建，开发了收银台基础。现在，我们将进一步完善收银台的功能，添加开卡和结算功能，并在后台实现会员卡的创建和订单保存。同时&#xff…

阅读更多...

使用 Monkey Patch 解决 Sahi 可视化的中文乱码问题

使用 Monkey Patch 解决 Sahi 可视化的中文乱码问题

其实如果是对算法的输出结果进行可视化的话，使用 Pillow 库是完全没有问题的。但是存在着这样一种情况，我们调用的公共包当中，里面已经有了可视化的接口，但是使用的是 OpenCV 中的 cv2.putText 进行可视化的。正常来说&#xff0c…

阅读更多...

地瓜网络技术综合助手教你一键下载腾讯会议高清视频

地瓜网络技术综合助手教你一键下载腾讯会议高清视频

当您错过腾讯会议的直播课程，不必担心，地瓜网络技术综合助手帮您轻松获取视频回放。只需几个简单步骤，即可在手头保留珍贵的学习资料。首先，启动地瓜网络技术综合助手， 进行软件初始化并开启监测功能。接下来&…

阅读更多...

智慧乡村和美人家信息化系统

智慧乡村和美人家信息化系统

一、简介智慧乡村和美人家信息化系统是一个综合管理平台，集成了首页概览、一张图可视化、数据填报、智能评估、便捷申报、公开公示、任务管理、活动发布和灵活配置等功能。该系统不仅提升了乡村管理效率，也优化了家庭生活的便捷性。通过一张图&#xf…

阅读更多...

BEVM背靠比特大陆打造新赛道，算力RWA成下一个千亿市场？

BEVM背靠比特大陆打造新赛道，算力RWA成下一个千亿市场？

众所周知，在加密行业，每隔一段时间就会有一个新的概念或者一个新词出现，并引来社区和资本的追捧关注，笔者近期在浏览新闻时，发现了一个特别有意思的新概念——算力RWA，在社区引起了不少讨论。该词最早出现…

阅读更多...

工时管理系统的优势及推荐

工时管理系统的优势及推荐

企业发展离不开每一个员工，而员工的工作效率高低也是影响着企业在行业内的竞争力，所以规范管理员工时间，提升员工工作效率势在必行。工时管理系统在现代企业中的应用越来越广泛，不仅是因为它能显著提高企业管理效率，更…

阅读更多...

Flutter【组件】按钮

Flutter【组件】按钮

简介 flutter 按钮组件。提供一种封装按钮组件的思路，并不支持过多的自定义属性。根据使用场景及设计规范进行封装，使用起来比较方便。 github地址：https://github.com/ThinkerJack/jac_uikit pub地址：https://pub.dev/package…

阅读更多...

IOS 关于Apple Pay 与内购

IOS 关于Apple Pay 与内购

一、什么是Apple Pay、什么是内购首先这两个不是一样的，很多人一看觉得这两是一回事，我之前也是这么想的。今天我来给大家阐述一下： Apple Pay：是指支付实物类。类似国内的微信、支付宝。支付超市食品类啥的。内购&#xff1…

阅读更多...

el-upload组件校验不通过预览列表依然显示图片问题解决

el-upload组件校验不通过预览列表依然显示图片问题解决

如图校验不通过的图片依然显示在预览列表了，需要在校验不通过的时候移除图片 <el-uploadclass"upload-cls":action"ossSignature.host":auto-upload"false"ref"upload":list-type"listType":limit"limi…

阅读更多...

如何在React中使用CSS模块，并解释为什么使用它们比传统CSS更有益？

如何在React中使用CSS模块，并解释为什么使用它们比传统CSS更有益？

在React中使用CSS模块是一种将CSS类名局部化到单个组件的方法，从而避免了全局作用域中的类名冲突。CSS模块允许你为组件编写样式，并确保这些样式只应用于该组件，而不会影响到其他组件。以下是在React中使用CSS模块的步骤： 安装C…

阅读更多...

通过CSS样式来禁用href

通过CSS样式来禁用href

<style>.disabled-link {pointer-events: none;cursor: default;text-decoration: none;color: inherit; }</style><a href"https://www.example.com" class"disabled-link">禁用链接</a> 在上述CSS样式中， pointer-…

阅读更多...

前端项目如何规范文件命名

前端项目如何规范文件命名

前端项目如何规范文件命名 ls-lint 是一个非常快的文件和目录名称 linter，可方便约束项目目录和文件的命名。特点： 快速依赖少适用所有文件配置简单安装依赖 npm install ls-lint/ls-lint -D 在 husky 加入 git hook:"husky": {"h…

阅读更多...

医疗器械3D全景展会在线漫游创造数字化时代的展览新篇章

医疗器械3D全景展会在线漫游创造数字化时代的展览新篇章

在数字化浪潮的引领下，VR虚拟网上展会正逐渐成为企业展示品牌实力、吸引潜在客户的首选平台。我们与广交会携手走过三年多的时光，凭借优质的服务和丰富的经验，赢得了客户的广泛赞誉。面对传统展会活动繁多、企业运营繁忙的挑战，许…

阅读更多...

日语词汇

日语词汇

あつい　熱いさむい寒いひろい　広いせまい　狭い　　おおき　大き　ちいさい　小さいおおい　多いしょう　　少はやい　早い　速い　おそい　遅いわるい　悪いたかい　高い　ひくい　低いつよい　強いよわい　弱いふかい　深いうすい　薄いあつい　…

阅读更多...

深入浅出Git原理与Gitflow流程

深入浅出Git原理与Gitflow流程

1 Git原理版本控制系统在软件开发和团队协作中扮演着至关重要的角色。它们帮助开发人员跟踪和管理代码的变化，协调多人同时编辑同一代码库，回溯历史版本，并解决代码冲突等问题。Git作为当今最流行的分布式版本控制系统，为开发人…

阅读更多...

最新文章