强化学习的数学原理学习笔记 - 策略梯度(Policy Gradient)

文章目录

  • 概览:RL方法分类
  • 策略梯度(Policy Gradient)
    • Basic Policy Gradient
      • 目标函数1:平均状态值
      • 目标函数2:平均单步奖励
      • 🟡PG梯度计算
    • 🟦REINFORCE


本系列文章介绍强化学习基础知识与经典算法原理,大部分内容来自西湖大学赵世钰老师的强化学习的数学原理课程(参考资料1),并参考了部分参考资料2、3的内容进行补充。

系列博文索引:

  • 强化学习的数学原理学习笔记 - RL基础知识
  • 强化学习的数学原理学习笔记 - 基于模型(Model-based)
  • 强化学习的数学原理学习笔记 - 蒙特卡洛方法(Monte Carlo)
  • 强化学习的数学原理学习笔记 - 时序差分学习(Temporal Difference)
  • 强化学习的数学原理学习笔记 - 值函数近似(Value Function Approximation)
  • 强化学习的数学原理学习笔记 - 策略梯度(Policy Gradient)
  • 强化学习的数学原理学习笔记 - Actor-Critic

参考资料:

  1. 【强化学习的数学原理】课程:从零开始到透彻理解(完结)(主要)
  2. Sutton & Barto Book: Reinforcement Learning: An Introduction
  3. 机器学习笔记

*注:【】内文字为个人想法,不一定准确

概览:RL方法分类

图源:https://zhuanlan.zhihu.com/p/36494307
*图源:https://zhuanlan.zhihu.com/p/36494307

策略梯度(Policy Gradient)

在先前的内容中,策略用表(tabular)的形式进行表达,其也可以用函数的形式进行表达(尤其是当状态空间或动作空间连续或非常大时),优势在于降低存储开销和提升泛化能力。

之前的方法(值函数近似)称之为Value-based,而策略梯度(Policy Gradient)和Actor-Critic均为Policy-based。Value-based方法围绕状态值/动作值设计,而Policy-based优化关于策略的目标函数,从而直接得到最优策略。

Basic Policy Gradient

将策略表示为参数化函数: π ( a ∣ s , θ ) \pi(a|s, \theta) π(as,θ),其中 θ ∈ R m \theta \in \mathbb{R} ^m θRm为参数向量, π \pi π是关于 θ \theta θ的函数。
*其他写法: π ( a , s , θ ) \pi(a,s, \theta) π(a,s,θ) π θ ( a ∣ s ) \pi_\theta(a|s) πθ(as) π θ ( a , s ) \pi_\theta(a,s) πθ(a,s)

与tabular representation的区别:

  1. 最优策略:不是能够最大化每个状态值的策略,而是能够最大化特定scalar metrics的策略
  2. 动作概率:不能直接获取,需要进行计算
  3. 策略更新:不能直接更新,需要通过改变参数 θ \theta θ来进行改变

策略梯度方法通过优化指定目标函数 J ( θ ) J(\theta) J(θ),直接得到最优策略:
θ t + 1 = θ t + α ∇ θ J ( θ t ) \theta_{t+1} = \theta_t + \alpha \nabla_\theta J(\theta_t) θt+1=θt+αθJ(θt)
目标函数 J ( θ ) J(\theta) J(θ)通常有以下两种类型:平均状态值 v ˉ π \bar{v}_\pi vˉπ和平均单步奖励 r ˉ π \bar{r}_\pi rˉπ。实际上,当折扣因子 γ < 1 \gamma<1 γ<1时,二者是等价的: r ˉ π = ( 1 − γ ) v ˉ π \bar{r}_\pi = (1- \gamma) \bar{v}_\pi rˉπ=(1γ)vˉπ

目标函数1:平均状态值

平均状态值(average state value / average value):
v ˉ π = ∑ s ∈ S d ( s ) v π ( s ) = E [ v π ( S ) ] \bar{v}_\pi = \sum_{s\in{\mathcal{S}}} d(s) v_\pi(s) = \mathbb{E}[v_\pi(S)] vˉπ=sSd(s)vπ(s)=E[vπ(S)]
其中, d ( s ) ≥ 0 d(s) \geq 0 d(s)0 ∑ s ∈ S d ( s ) = 1 \textstyle\sum_{s\in{\mathcal{S}}} d(s) =1 sSd(s)=1,因此 d ( s ) d(s) d(s)既可以看作是状态 s s s的权重,也可以看作是随机变量 S S S的概率分布。

其他形式: v ˉ π = E [ ∑ t = 0 ∞ γ t R t + 1 ] \bar{v}_\pi = \mathbb{E} \Big[\sum_{t=0}^{\infin} \gamma^t R_{t+1} \Big] vˉπ=E[t=0γtRt+1]

向量形式: v ˉ π = d T v π \bar{v}_\pi = d^T v_\pi vˉπ=dTvπ

在常见的情况下, d d d是取决于 π \pi π的平稳分布,即 d π ( s ) d_\pi(s) dπ(s),其具有以下性质:
d π T P π = d π T d^T_\pi P_\pi = d^T_\pi dπTPπ=dπT
其中, P π P_\pi Pπ是状态转移概率矩阵。

目标函数2:平均单步奖励

平均单步奖励(average one-step reward / average reward)
r ˉ π = ∑ s ∈ S d ( s ) r π ( s ) = E [ r π ( S ) ] \bar{r}_\pi = \sum_{s\in{\mathcal{S}}} d(s) r_\pi(s) = \mathbb{E}[r_\pi(S)] rˉπ=sSd(s)rπ(s)=E[rπ(S)]
其中, S ∼ d π S \sim d_\pi Sdπ d π d_\pi dπ为平稳分布。 r π ( s ) = ∑ a ∈ A π ( a ∣ s ) r ( s , a ) r_\pi(s) = \sum_{a\in\mathcal{A}} \pi(a|s) r(s, a) rπ(s)=aAπ(as)r(s,a)为策略 π \pi π在状态 s s s下取得的平均单步奖励,而 r ( s , a ) = E [ R ∣ s , a ] = ∑ r r p ( r ∣ s , a ) r(s, a) = \mathbb{E} [R|s, a] = \sum_r r p(r | s, a) r(s,a)=E[Rs,a]=rrp(rs,a)

另一种形式:
假设agent遵循一个策略生成了奖励为 ( R t + 1 , R t + 2 , ⋯ ) (R_{t+1}, R_{t+2}, \cdots) (Rt+1,Rt+2,)的trajectory,其平均单步奖励为:
lim ⁡ n → ∞ 1 n E [ ∑ k = 1 n R t + k ∣ S t = s 0 ] \lim_{n\rarr\infin} \frac{1}{n} \mathbb{E} \Big[ \sum_{k=1}^{n} R_{t+k} | S_t = s_0 \Big] limnn1E[k=1nRt+kSt=s0]
其中, s 0 s_0 s0为该trajectory的起始状态。考虑无穷多步的极限,上式等价于【似乎是与平稳随机过程有关,时间平均等于统计平均,不确定】:
lim ⁡ n → ∞ 1 n E [ ∑ k = 1 n R t + k ] = r ˉ π \lim_{n\rarr\infin} \frac{1}{n} \mathbb{E} \Big[ \sum_{k=1}^{n} R_{t+k} \Big] = \bar{r}_\pi limnn1E[k=1nRt+k]=rˉπ

🟡PG梯度计算

策略梯度方法的梯度计算可以统一总结为下式:
∇ θ J ( θ ) = ∑ s ∈ S η ( s ) ∑ a ∈ A ∇ θ π ( a ∣ s , θ ) q π ( s , a ) \nabla_\theta J(\theta) = \sum_{s\in\mathcal{S}} \eta (s) \sum_{a\in\mathcal{A}} \nabla_\theta \pi (a|s, \theta) q_\pi(s, a) θJ(θ)=sSη(s)aAθπ(as,θ)qπ(s,a)
其中:

  • J ( θ ) J(\theta) J(θ)可以为 v ˉ π \bar{v}_\pi vˉπ r ˉ π \bar{r}_\pi rˉπ v ˉ π 0 \bar{v}_\pi^0 vˉπ0
  • = = =可以为相等、约等 ≈ \approx 、成比例 ∝ \propto
  • η \eta η是状态的分布或权重(如上文中的 d π d_\pi dπ

进一步地,可以基于下式计算梯度
∇ θ J ( θ ) = E [ ∇ θ ln ⁡ π ( A ∣ S , θ ) q π ( S , A ) ] \nabla_\theta J(\theta) = \mathbb{E} [\nabla_\theta \ln\pi (A|S, \theta) q_\pi(S, A) ] θJ(θ)=E[θlnπ(AS,θ)qπ(S,A)]
其中, S ∼ η S\sim\eta Sη A ∼ π ( A ∣ S , θ ) A\sim\pi(A|S, \theta) Aπ(AS,θ)。通过随机采样的方式估计期望,则有:
∇ θ J ( θ ) ≈ ∇ θ ln ⁡ π ( A ∣ S , θ ) q π ( S , A ) \nabla_\theta J(\theta) \approx \nabla_\theta \ln\pi (A|S, \theta) q_\pi(S, A) θJ(θ)θlnπ(AS,θ)qπ(S,A)

注意:为了计算对数 ln ⁡ \ln ln,对所有的 s , a , θ s, a,\theta s,a,θ,策略必须满足: π ( a ∣ s , θ ) > 0 \pi(a|s, \theta) > 0 π(as,θ)>0。即:策略必须是随机性(stochastic)的,且为探索性(exploratory)的。(*确定性策略见后续介绍的Actor-Critic中的DPG)
这可以通过softmax实现,将向量从 ( − ∞ , + ∞ ) (-\infin,+\infin) (,+)限界至 ( 0 , 1 ) (0,1) (0,1)。softmax限界后的形式为:
π ( a ∣ s , θ ) = e h ( s , a , θ ) ∑ a ′ ∈ A e h ( s , a ′ , θ ) \pi(a|s, \theta) = \frac{e^{h(s, a, \theta)}}{\textstyle\sum_{a' \in \mathcal{A}} e^{h(s, a', \theta)}} π(as,θ)=aAeh(s,a,θ)eh(s,a,θ)
其中, h ( s , a , θ ) h(s, a, \theta) h(s,a,θ)类似于特征函数,具体由神经网络确定。

推导:
已知 d ln ⁡ x d x = 1 x \frac{\mathrm{d} \ln x}{\mathrm{d} x} = \frac{1}{x} dxdlnx=x1,则 ∇ ln ⁡ f ( x ) = ∇ f ( x ) f ( x ) \nabla \ln f(x) = \frac{\nabla f(x)}{f(x)} lnf(x)=f(x)f(x),故有: ∇ θ ln ⁡ π ( a ∣ s , θ ) = ∇ θ π ( a ∣ s , θ ) π ( a ∣ s , θ ) \nabla_\theta \ln \pi(a|s, \theta) = \frac{\nabla_\theta \pi(a|s, \theta)}{\pi(a|s, \theta)} θlnπ(as,θ)=π(as,θ)θπ(as,θ)
进一步地, π \pi π的梯度可以计算为: ∇ θ π ( a ∣ s , θ ) = π ( a ∣ s , θ ) ∇ θ ln ⁡ π ( a ∣ s , θ ) {\nabla_\theta \pi(a|s, \theta)} = {\pi(a|s, \theta)} \nabla_\theta \ln \pi(a|s, \theta) θπ(as,θ)=π(as,θ)θlnπ(as,θ)
image.png

🟦REINFORCE

策略梯度(PG)方法基于梯度上升方法最大化目标函数:
θ t + 1 = θ t + α E [ ∇ θ ln ⁡ π ( A ∣ S , θ t ) q π ( S , A ) ] \theta_{t+1} = \theta_t + \alpha \mathbb{E} \big[ \nabla_\theta \ln\pi (A|S, \theta_t) q_\pi(S, A) \big] θt+1=θt+αE[θlnπ(AS,θt)qπ(S,A)]

实际中,通过随机采样的方式估计期望与 q π ( s t , a t ) q_\pi(s_t, a_t) qπ(st,at),有:
θ t + 1 = θ t + α ∇ θ ln ⁡ π ( a t ∣ s t , θ t ) q t ( s t , a t ) \theta_{t+1} = \theta_t + \alpha \nabla_\theta \ln\pi (a_t|s_t, \theta_t) q_t(s_t, a_t) θt+1=θt+αθlnπ(atst,θt)qt(st,at)

注意: A ∼ π ( A ∣ S , θ ) A\sim\pi(A|S,\theta) Aπ(AS,θ) a t a_t at的采样依赖于状态 s t s_t st下的策略 π ( θ t ) \pi(\theta_t) π(θt),因此策略梯度是on-policy方法。

估计 q π ( s t , a t ) q_\pi(s_t,a_t) qπ(st,at)有两种方法:

  • 蒙特卡洛(MC):REINFORCE(策略梯度的代表性算法)
  • 时序差分(TD):Actor-Critic系列算法

REINFORCE算法步骤(伪代码):
初始化: π ( a ∣ s , θ ) \pi(a|s, \theta) π(as,θ) γ ∈ ( 0 , 1 ) \gamma \in (0,1) γ(0,1) α > 0 \alpha >0 α>0
目标:最大化 J ( θ ) J(\theta) J(θ)
步骤:在第 k k k次迭代中,选择策略 π ( θ k ) \pi(\theta_k) π(θk)的起始状态 s 0 s_0 s0,设其episode为 { s 0 , a 0 , r 1 , ⋯ , s T − 1 , a T − 1 , r T } \{ s_0, a_0, r_1, \cdots, s_{T-1}, a_{T-1}, r_T \} {s0,a0,r1,,sT1,aT1rT}

  • 在每个时间步 t = 0 , 1 , ⋯ , T − 1 t=0,1,\cdots,T-1 t=0,1,,T1
    • 值更新(蒙特卡洛方法): q t ( s t , a t ) = ∑ k = t + 1 T γ k − t − 1 r k q_t(s_t,a_t) = \textstyle \sum_{k=t+1}^T \gamma^{k-t-1} r_k qt(st,at)=k=t+1Tγkt1rk
    • 策略更新:更新参数 θ t + 1 \theta_{t+1} θt+1,公式见上
      • *注意:蒙特卡洛是offline的,需要整个episode的数据,所以这里更新完参数后不立即使用策略去采集数据
  • θ k = θ T \theta_k = \theta_T θk=θT,在下次迭代中生成下一组episode的数据

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/607670.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

速卖通跨境智星:解决IP及环境问题,实现批量注册轻松搞定

如果想要注册大批量的速卖通买家号&#xff0c;关键问题之一就是IP及浏览环境的管理。为了确保每个账号都能独立运行&#xff0c;使用独立的IP是必不可少的。近期&#xff0c;速卖通跨境智星备受关注&#xff0c;支持绑定代理IP&#xff0c;并内置反指纹技术&#xff0c;为用户…

WinForms中的UI卡死

WinForms中的UI卡死 WinForms中的UI卡死通常是由于长时间运行的操作阻塞了UI线程所导致的。在UI线程上执行的操作&#xff0c;例如数据访问、计算、文件读写等&#xff0c;如果耗时较长&#xff0c;会使得UI界面失去响应&#xff0c;甚至出现卡死的情况。 解决方法 为了避免…

USACO(美国计算机竞赛)详细介绍 如何备赛 训练资料整理

竞赛简介&#xff1a; USACO&#xff08;美国信息学奥林匹克竞赛&#xff09;初次举办于1992年&#xff0c;其官网是美国一个著名在线题库&#xff0c;更是美国中学生的官方竞赛网站&#xff0c;开设目的是为每年夏季举办的国际信息学奥林匹克竞赛&#xff08;IOI&#xff09;…

深度学习——R-CNN目标检测原理

R-CNN系列算法需要先产生候选区域&#xff0c;再对候选区域做分类和位置坐标的预测&#xff0c;这类算法被称为两阶段目标检测算法。近几年&#xff0c;很多研究人员相继提出一系列单阶段的检测算法&#xff0c;只需要一个网络即可同时产生候选区域并预测出物体的类别和位置坐标…

开源C语言库Melon:I/O线程模型

本文展示开源C语言库Melon中的I/O线程模型。在Melon中存在三种线程模型&#xff0c;本篇仅对I/O线程模型进行说明。 关于 Melon 库&#xff0c;这是一个开源的 C 语言库&#xff0c;它具有&#xff1a;开箱即用、无第三方依赖、安装部署简单、中英文文档齐全等优势。 Github …

如何创建容器搭建节点

1.注册Discord账号 https://discord.com/这是登录网址&#xff1a; https://discord.com/ 2.点击startnow注册&#xff0c;用discord注册或者邮箱注册都可&#xff0c;然后登录tickhosting Tick Hosting这是登录网址&#xff1a;Tick Hosting 3.创建servers 4.点击你创建的s…

欧洲编程语言四巨头

从左往右&#xff0c;依次是 尼克劳斯沃斯 (Niklaus Wirth)&#xff0c;迪杰斯特拉&#xff08;Edsger Dijkstra&#xff09;&#xff0c;霍尔&#xff08;Tony Hoare&#xff09; 尼克劳斯沃斯 (Niklaus Wirth) 瑞士人&#xff0c;一生发明了8种编程语言&#xff0c;其中最著…

暖冬志愿服务在行动

1月7日&#xff0c;为了传递温暖与关爱&#xff0c;由雅安市群团中心指导&#xff0c;雅安市志愿服务联合会支持&#xff0c;雅安市雨城区梦飞翔公益社会服务中心执行的“暖冬志愿服务行动”在雨城区上里镇、碧峰峡镇、八步镇等乡镇&#xff0c;走访慰问困境儿童&#xff0c;为…

淘宝搜索指定店铺所有商品接口API调用介绍-含请求key代码示例

接口名称&#xff1a;item_search_shop 请求地址&#xff1a;taobao.item_search_shop 接口说明&#xff1a;此接口用于获取指定淘宝/天猫店铺的所有商品&#xff0c;通过传入shop_id或者seller_id可以获取到该店铺的所有商品&#xff0c;支持翻页展示。每页返回60个商品&…

1.4~1.5链表复习,代码操作(反转链表(用栈解决,双指针),删除链表指定元素),链表选择题,广义表

删除链表内指定范围的数 思路是双指针&#xff0c;定义两个指针&#xff0c;一个去找当前这个数满不满足要求&#xff0c;然后另一个定义为删除区间的起点 &#xff0c; 当不满足时&#xff0c;两个指针同时向后移动&#xff1b;当满足时&#xff0c;前驱指针就不动了&#xf…

sqlmap性能优化

sqlmap性能优化 &#x1f388;&#x1f388;&#x1f388;&#x1f388;&#x1f388;&#x1f388;&#x1f388;&#x1f388;&#x1f388;&#x1f388;&#x1f388;&#x1f388;&#x1f388;&#x1f388;&#x1f388;&#x1f388;&#x1f32d;&#x1f32d;&#…

SpringBoot多环境配置以及热部署

多环境配置 使用多环境配置的原因&#xff1a; 在SpringBoot项目的生命周期中&#xff0c;存在不同的环境&#xff0c;例如开发时的环境&#xff0c;测试时的环境&#xff0c;交付使用后的生产环境&#xff0c;每种环境的配置可能不一样&#xff0c;这种情况下可以通过多环境…

百元蓝牙耳机推荐有哪些?百元平价的开放式蓝牙耳机推荐

无论是通勤、运动还是休闲时刻&#xff0c;一款好的蓝牙耳机都能为我们带来优质的听觉体验&#xff0c;特别是在预算有限的情况下&#xff0c;如何选择一款性价比高的百元蓝牙耳机变得尤为重要&#xff0c;那么我就根据我的使用经验给大家伙推荐几款百元平价的开放式蓝牙耳机&a…

11.文件和异常

文件和异常 实际开发中常常会遇到对数据进行持久化操作的场景&#xff0c;而实现数据持久化最直接简单的方式就是将数据保存到文件中。说到“文件”这个词&#xff0c;可能需要先科普一下关于文件系统的知识&#xff0c;但是这里我们并不浪费笔墨介绍这个概念&#xff0c;请大…

轻松搞定!微信快速导出好友数据备份

作为一款集聊天、朋友圈、支付等功能于一身的应用&#xff0c;微信中存储了我们与朋友、家人和同事以及客户之间的重要沟通记录和联系方式。然而&#xff0c;如果不小心丢失了手机或者账号出现问题&#xff0c;这些宝贵的数据可能会永远丢失。为了避免这种情况的发生&#xff0…

【HarmonyOS4.0】第三篇-类web开发模式

【HarmonyOS4.0】第三篇-类web开发模式 一、鸿蒙介绍 课程核心 为什么我们需要学习鸿蒙&#xff1f; 哪些人适合直接转鸿蒙&#xff1f; 鸿蒙系统优势是什么&#xff1f; 课程内容 (1)为什么要学习鸿蒙 从行情出发&#xff1a; 美国商务部长访问中国&#xff0c;2023年…

工程部设备巡检管理的必要性!使用智能化设备巡检系统有什么好处?

随着科技的发展&#xff0c;智能化管理已逐渐成为企业提升效率、确保设备运行安全的重要手段。工程部作为企业内维护设施运行的关键部门&#xff0c;其巡检工作的重要性不言而喻。本文将探讨如何利用智能化技术优化工程部的设备巡检工作&#xff0c;以确保设备的及时有效维护。…

华媒舍:溯源媒体发稿,助推品牌快速突破

在当今残酷竞争的市场环境中&#xff0c;品牌的快速突破变成了公司发展的关键之一。溯源新闻媒体发稿作为一项强有力营销推广方式&#xff0c;为品牌快速建立名气、提升口碑品牌形象提供了重要适用。下面我们就详细介绍如何给品牌订制溯源新闻媒体发稿对策&#xff0c;并探讨其…

*5.1 Global Memory Bandwidth

并行程序的执行速度可能因计算硬件的资源限制而有很大差异。虽然管理并行代码和硬件资源约束之间的交互对于在几乎所有并行编程模型中实现高性能很重要&#xff0c;但这是一种实用技能&#xff0c;最好通过为高性能设计的并行编程模型中的实践练习来学习。在本章中&#xff0c;…

Springboot3(一、lambda、::的应用)

文章目录 一、使用lambda简化实例创建1.语法&#xff1a;2.示例&#xff1a;3.Function包3.1 有入参&#xff0c;有返回值【多功能函数】3.2 有入参&#xff0c;无返回值【消费者】3.3 无入参&#xff0c;有返回值【提供者】3.4 无入参&#xff0c;无返回值 二、类::方法的使用…