▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch1 基本概念

PPT 截取有用信息。 课程网站做习题。总体 MOOC 过一遍

  • 1、视频 + 学堂在线 习题
  • 2、相应章节 过电子书 复习
  • 3、总体 MOOC 过一遍

学堂在线 课程页面链接
中国大学MOOC 课程页面链接
B 站 视频链接

PPT和书籍下载网址: 【github链接】
onedrive链接:
【书】
【课程PPT】


通过 例子 介绍 强化学习 的基本概念
基于 马尔可夫决策过程 介绍

状态 State: s 1 , s 2 , . . . , s 9 s_1, s_2, ..., s_9 s1,s2,...,s9
状态空间 State space : S = { s i } i = 1 9 \mathcal{S} = \{s_i\}_{i = 1}^9 S={si}i=19

行动 Action: a 1 , . . . , a 5 a_1,..., a_5 a1,...,a5
行动空间 Action space: A ( s i ) = { a i } i = 1 5 \mathcal{A}(s_i) = \{a_i\}_{i = 1}^5 A(si)={ai}i=15

状态转移 state transition: s 1 → a 2 s 2 s_1\xrightarrow{a_2} s_2 s1a2 s2

在这里插入图片描述
只能表示确定的情况,无法表示 状态转移多种可能的情况

状态转移概率 State transition probability:

  • 既可描述 确定性情况,也可描述具有 随机性的情况。
    p ( s 2 ∣ s 1 , a 2 ) = 1 p(s_2|s_1,a_2) = 1 p(s2s1,a2)=1
    p ( s i ∣ s 1 , a 2 ) = 0 , ∀ i ≠ 2 p(s_i|s_1, a_2)=0, \forall ~ i\neq 2 p(sis1,a2)=0, i=2

策略 Policy
策略 告诉 agent 在每个状态下 要采取 哪些行动。

三种表示方法:
在这里插入图片描述

数学表示:
π \pi π: 条件概率,任何一个状态下, 任何一个 action 的概率

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

——————
奖励 Reward: 实数、标量。人机交互的手段

r ( s , a ) r(s, a) r(s,a)

一般
正: 鼓励
负: 惩罚

即时奖励 大 并不意味着 能获得 最大的总体奖励。

在这里插入图片描述
在这里插入图片描述

轨迹 Trajectory: 状态-动作-奖励 链

回报 return:沿轨迹 获得的所有奖励的总和

在这里插入图片描述
return 越大, 策略越好。

Discounted return 折扣回报

在这里插入图片描述

折扣率 discount rate γ \gamma γ

在这里插入图片描述
每多进行 一个 动作, 前面的 参数多乘上一个 γ \gamma γ

作用:
1、和 不再发散。
2、平衡 更近未来 得到的 reward 和 更远未来 得到的 reward。

减小 γ \gamma γ, 近视,更加注重最近的 reward。
增大 γ \gamma γ, 远视,更加注重长远的 reward。

回合 Episode: 试了一次。有限步

episodic tasks: 最终停在某处的 任务
continuing tasks:agent 和 环境的交互会永远持续

将 episodic tasks 转成 continuing tasks, 统一处理
方法一: 将 目标状态 视为 特殊的 吸收状态 (absorbing state)。一旦 agent 到达 一个 吸收状态, 就不会再离开。之后的奖励 都为 0.
方法二: 将目标状态 视为 带策略的普通状态。耗费更多的搜索,更一般化。【本课程 选择这种】

  • 通过 折扣率 计算折扣回报 避免 发散。

马尔科夫决策过程 (Markov decision process,MDP)

MDP 的关键要素:
集合:
状态集合 State S \mathcal{S} S
动作集合 Action A ( s ) \mathcal{A(s)} A(s), 其中 s ∈ S s \in \mathcal{S} sS
奖励集合 Reward R ( s , a ) \mathcal{R(s, a)} R(s,a)

概率分布:
状态转移概率 State transition probability

  • 状态 s \mathcal{s} s ,进行动作 a \mathcal{a} a,转移到 状态 s ′ \mathcal{s}^{\prime} s 的概率为 p ( s ′ ∣ ( s , a ) ) p(\mathcal{s}^{\prime}|(s, a)) p(s(s,a))

奖励概率 Reward probability

  • 状态 s \mathcal{s} s ,进行动作 a \mathcal{a} a,获得奖励 r \mathcal{r} r 的概率为 p ( r ∣ ( s , a ) ) p(r|(s, a)) p(r(s,a))

策略 Policy: 状态为 s \mathcal{s} s, 进行动作 a \mathcal{a} a 的概率为 π ( a ∣ s ) \pi(a|s) π(as)

Markov 特性: 无记忆性,下一刻 t + 1 t + 1 t+1 的 状态 和 奖励 仅和当前时刻 t t t 的 状态 有关。

p ( s t + 1 ∣ a t + 1 , s t , . . . , a 1 , s 0 ) = p ( s t + 1 ∣ a t + 1 , s t ) p(s_{t + 1}|a_{t + 1}, s_t,...,a_1,s_0)=p(s_{t + 1}|a_{t + 1}, s_t) p(st+1at+1,st,...,a1,s0)=p(st+1at+1,st)
p ( r t + 1 ∣ a t + 1 , s t , . . . , a 1 , s 0 ) = p ( r t + 1 ∣ a t + 1 , s t ) p(r_{t + 1}|a_{t + 1}, s_t,...,a_1,s_0)=p(r_{t + 1}|a_{t + 1}, s_t) p(rt+1at+1,st,...,a1,s0)=p(rt+1at+1,st)

马尔科夫决策过程 + 确定的策略 ——> 马尔科夫过程

回报 和 下一状态 s ′ s^\prime s 有关。
p ( r ∣ s , a ) = ∑ s ′ p ( r ∣ s , a , s ′ ) p ( s ′ ∣ s , a ) p(r|s, a)=\sum\limits_{s^\prime}p(r|s,a,s^{\prime})p(s^\prime|s,a) p(rs,a)=sp(rs,a,s)p(ss,a)

习题笔记:

  • 每一个状态最优的动作是能得到 长期回报 均值最大 的那个,而不是得到立即奖励最大的那个。

  • MDP是和策略有关系的,其中 decision 对应的就是 policy。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/30769.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于低代码开发平台的科技管理系统构建:简化运维,提升效率

随着科技的发展,企业对管理系统的需求日益增长。为了满足这一需求,本文介绍了一种基于低代码开发平台的科技管理系统构建方法。通过简化开发流程、提高运维效率,该系统能够帮助企业实现科技管理的高效运作。 引言 在当今信息化时代&#xff0…

Python4 操作MySQL数据库

通过python的pymysql库连接到本地的MySQL数据库,并执行查询操作来获取数据,然后打印出每一行的数据,这里以一个简单的学生表为例进行介绍。 1. MySQL的安装与数据准备 首先需要安装MySQL,在安装完成之后使用Navicat与本地数据库…

Docker 部署项目,真的太雅了~

大家好,我是南城余! 最近在找工作,正好手里有台服务器,之前项目上线用的宝塔部署项目上线,在公司实习了一年后,发现如今项目部署都使用的是容器化部署方案,也就是类似于和 Docker 一样的部署方案…

对于图片转3d人脸方面的研究

1.一个开源的可以运行的项目(face3d/README.md at master yfeng95/face3d GitHub) 在配置好环境后,让我们一个一个py文件运行它(我将给出中文注释) 1)1_pipeline.py 将一个3d头像的mat文件转换为jpg…

海外仓系统能解决海外仓哪些难题?海外仓标准化管理实用指南

海外仓管理问题常常导致业务流程变慢,根据我们的调查显示,至少有48%的海外仓每周都会出现一些“小意外”。甚至这些小问题每天都在发生,问题的出现已经严重影响到了海外仓业务的进行。今天我们将重点分析海外仓比较常见的一些问题&#xff0c…

springboot vue 开源 会员收银系统 (7) 收银台的完善 新增开卡 结算

前言 完整版演示 开发版演示 在前面的开发中,我们成功完成了商品分类和商品信息的搭建,开发了收银台基础。现在,我们将进一步完善收银台的功能,添加开卡和结算功能,并在后台实现会员卡的创建和订单保存。同时&#xff…

使用 Monkey Patch 解决 Sahi 可视化的中文乱码问题

其实如果是对算法的输出结果进行可视化的话,使用 Pillow 库是完全没有问题的。但是存在着这样一种情况,我们调用的公共包当中,里面已经有了可视化的接口,但是使用的是 OpenCV 中的 cv2.putText 进行可视化的。正常来说&#xff0c…

地瓜网络技术综合助手教你一键下载腾讯会议高清视频

当您错过腾讯会议的直播课程,不必担心,地瓜网络技术综合助手帮您轻松获取视频回放。 只需几个简单步骤,即可在手头保留珍贵的学习资料。 首先,启动地瓜网络技术综合助手, 进行软件初始化并开启监测功能。 接下来&…

智慧乡村和美人家信息化系统

一、简介 智慧乡村和美人家信息化系统是一个综合管理平台,集成了首页概览、一张图可视化、数据填报、智能评估、便捷申报、公开公示、任务管理、活动发布和灵活配置等功能。该系统不仅提升了乡村管理效率,也优化了家庭生活的便捷性。通过一张图&#xf…

BEVM背靠比特大陆打造新赛道,算力RWA成下一个千亿市场?

众所周知,在加密行业,每隔一段时间就会有一个新的概念或者一个新词出现,并引来社区和资本的追捧关注,笔者近期在浏览新闻时,发现了一个特别有意思的新概念——算力RWA,在社区引起了不少讨论。 该词最早出现…

工时管理系统的优势及推荐

企业发展离不开每一个员工,而员工的工作效率高低也是影响着企业在行业内的竞争力,所以规范管理员工时间,提升员工工作效率势在必行。工时管理系统在现代企业中的应用越来越广泛,不仅是因为它能显著提高企业管理效率,更…

Flutter【组件】按钮

简介 flutter 按钮组件。提供一种封装按钮组件的思路,并不支持过多的自定义属性。根据使用场景及设计规范进行封装,使用起来比较方便。 github地址:https://github.com/ThinkerJack/jac_uikit pub地址:https://pub.dev/package…

IOS 关于Apple Pay 与内购

一、什么是Apple Pay、什么是内购 首先这两个不是一样的,很多人一看觉得这两是一回事,我之前也是这么想的。今天我来给大家阐述一下: Apple Pay:是指支付实物类。类似国内的微信、支付宝。支付超市食品类啥的。 内购&#xff1…

el-upload组件校验不通过预览列表依然显示图片问题解决

如图校验不通过的图片依然显示在预览列表了&#xff0c;需要在校验不通过的时候移除图片 <el-uploadclass"upload-cls":action"ossSignature.host":auto-upload"false"ref"upload":list-type"listType":limit"limi…

如何在React中使用CSS模块,并解释为什么使用它们比传统CSS更有益?

在React中使用CSS模块是一种将CSS类名局部化到单个组件的方法&#xff0c;从而避免了全局作用域中的类名冲突。CSS模块允许你为组件编写样式&#xff0c;并确保这些样式只应用于该组件&#xff0c;而不会影响到其他组件。 以下是在React中使用CSS模块的步骤&#xff1a; 安装C…

通过CSS样式来禁用href

<style>.disabled-link {pointer-events: none;cursor: default;text-decoration: none;color: inherit; }</style><a href"https://www.example.com" class"disabled-link">禁用链接</a> 在上述CSS样式中&#xff0c; pointer-…

前端项目如何规范文件命名

前端项目如何规范文件命名 ls-lint 是一个非常快的文件和目录名称 linter&#xff0c;可方便约束项目目录和文件的命名。 特点&#xff1a; 快速依赖少适用所有文件配置简单 安装依赖 npm install ls-lint/ls-lint -D 在 husky 加入 git hook:"husky": {"h…

医疗器械3D全景展会在线漫游创造数字化时代的展览新篇章

在数字化浪潮的引领下&#xff0c;VR虚拟网上展会正逐渐成为企业展示品牌实力、吸引潜在客户的首选平台。我们与广交会携手走过三年多的时光&#xff0c;凭借优质的服务和丰富的经验&#xff0c;赢得了客户的广泛赞誉。 面对传统展会活动繁多、企业运营繁忙的挑战&#xff0c;许…

日语 词汇

あつい 熱い さむい 寒い ひろい 広い せまい 狭い   おおき 大き  ちいさい 小さい おおい 多い しょう  少 はやい 早い 速い  おそい 遅い わるい 悪い たかい 高い  ひくい 低い つよい 強い よわい 弱い ふかい 深い うすい 薄い あつい …

深入浅出Git原理与Gitflow流程

1 Git原理 版本控制系统在软件开发和团队协作中扮演着至关重要的角色。它们帮助开发人员跟踪和管理代码的变化&#xff0c;协调多人同时编辑同一代码库&#xff0c;回溯历史版本&#xff0c;并解决代码冲突等问题。Git作为当今最流行的分布式版本控制系统&#xff0c;为开发人…