深度强化学习Deep Rrinforcement Learning|MDP|POMDP

目录

一、深度强化学习概述(DRL)

1、DRL可以获得复杂网络优化的解决方案

2、DRL允许网络实体学习和构建有关通信和网络环境的知识

3、DRL提供自主决策

4、DRL显著提高了学习速度,特别是在具有大状态和大动作空间的问题中

5、通信和网络中的其他几个问题,如网络物理攻击、干扰管理和数据卸载,可以建模为游戏

二、马尔科夫决策过程(Markov Decision Process)

1、典型的马尔科夫过程建模(MDP)

2、部分可观测马尔科夫决策过程(Partially Observable Markov Decision Process,POMDP):

3、对比MDP与POMDP: 

三、总结

1、与Markov相关的四个概念

2、MDP和POMDP与深度强化学习DRL/强化学习RL间的关系


一、深度强化学习概述(DRL)

现代网络规模大、结构复杂,计算复杂度很快变得难以控制。因此,DRL一直在发展成为克服这一挑战的替代解决方案。一般来说,DRL方法提供以下优点:

1、DRL可以获得复杂网络优化的解决方案

    因此,它使现代网络中的网络控制器,如基站,在没有完整准确的网络信息的情况下,解决联合用户关联、计算、传输调度等非凸复杂问题,达到最优解。

2、DRL允许网络实体学习和构建有关通信和网络环境的知识

    因此,通过使用DRL,网络实体(例如移动用户)可以在不知道信道模型和移动模式的情况下学习最优策略,例如基站选择、信道选择、切换决策、缓存和卸载决策

3、DRL提供自主决策

    使用DRL方法,网络实体可以在最小或不需要相互交换信息的情况下局部观察并获得最佳策略。这不仅减少了通信开销,而且提高了网络的安全性和健壮性。

4、DRL显著提高了学习速度,特别是在具有大状态和大动作空间的问题中

    因此,在大型网络中,例如拥有数千台设备的物联网系统,DRL允许网络控制器或物联网网关动态控制大量物联网设备和移动用户的用户关联、频谱接入和传输功率

5、通信和网络中的其他几个问题,如网络物理攻击、干扰管理和数据卸载,可以建模为游戏

    例如,非合作游戏。DRL最近被用作解决博弈的有效工具,例如,在没有完整信息的情况下找到纳什均衡

二、马尔科夫决策过程(Markov Decision Process)

    MDP是一个离散的时间随机控制过程。MDP为决策问题的建模提供了一个数学框架,在这些问题中,结果是随机的,并且受决策者或代理的控制。MDP对于研究可以通过动态规划和强化学习技术解决的优化问题是有用的。

1、典型的马尔科夫过程建模(MDP)

    首先,MDP被定义为一个元组(S,A,p,r)。其中,S是状态的有限集合,A是动作的有限集合,p是指在动作a(a\in A )执行后从状态s到状态s'的转移概率,并且r是执行动作a之后获得的即时奖励

     我们将\pi表示为一个策略,它是一个从状态到动作的映射。MDP的目标是找到一个使奖励函数最大化的最优策略。MDP可以是有限或无限的时间范围。对于有限时间范围MDP,使得期望总汇报最大化的最优策略\pi ^{*}定义,其中,a_{t}=\pi (s_{t}),指的就是策略在st下选择动作at。对于无限时间范围MDP,目标可以是最大化预期的折扣总奖励或最大化平均奖励。折扣总奖励被定义为,平均奖励被定义为。其中\gamma \epsilon [0,1]表示的是折扣率,折现系数γ决定了未来奖励相比于当前奖励的重要性。\gamma =0时,智能体只考虑当前利益,即最大化即时的奖励;相反,若\gamma接近于1,智能体/代理agent将会争取长期更高的奖励。

2、部分可观测马尔科夫决策过程(Partially Observable Markov Decision Process,POMDP):

    在MDP中,我们假设系统状态是被agent完全观察到的。然而,在许多情况,智能体agent仅能观察到系统状态的一部分,因此因此,部分可观察马尔可夫决策过程(POMDPs)可用于建模决策问题。

 一个典型的POMDP模型可以被定义为六元组(S,A,p,r,\Omega ,O),其中,元组中的前面四个元素可以看到,与基本的MDP模型所代表的含义相同。这其中的\Omega和O分别表示观测集合和观测概率。在每个时间点(at each time epoch),agent智能体处于状态s,基于它对当前状态s的信念b(s)选择一个动作a,并观察即时奖励r和当前观察值o。基于观察值o和它对当前状态的信念b(s),然后智能体更新关于新状态s'的信念b(s'),如下所示(as follows):

 其中,O(o|s,a,s')指的是agent在状态s下采取动作a获得观测o的概率以及agent移动到状态s'。p(s'|s,a)的定义与MDP相同,表示在状态s下执行动作a从状态s到状态s'的转移概率。最后,agent获得的即时奖励r等于MDp中的r(s,a)。与MDP模型相类似,POMDP中的智能体也以寻找最优策略\pi ^{*}为目标,以最大化它的预期长期贴现奖励

3、对比MDP与POMDP: 

在下图fig3中,主要强调对比了MDP和POMDP模型。

    对于MDP模型来说,当前智能体需要观测状态st,然后根据策略\pi/值函数(V/Q函数)选出最优的动作并执行,此时会反馈一个即时的奖励rt,并且会进入到下一时刻的状态st+1。

    对于POMDP模型来说,引入了观测空间O。由于在POMDP模型中,智能体无法直接观察到环境的状态,而是通过观察到的部分信息来推断环境的状态。观测到的信息可以是不完全的、模糊的,又或者是有噪声的,这就使得智能体需要在不完全信息的情况下做出决策。

三、总结

1、与Markov相关的四个概念

马尔科夫链(Markov Chain)、马尔科夫决策过程(Markov Decision Process,MDP)、部分可观察马尔科夫决策过程(Partially Obserable Markov Decision Process,POMDP)、隐马尔科夫模型(HMM)。

2、MDP和POMDP与深度强化学习DRL/强化学习RL间的关系

    MDP和POMDP都是一种数学模型,它是现实中一部分问题的抽象表达形式;而深度强化学习则是一种利用深度学习技术解决强化学习问题的方法;强化学习是一种机器学习范式,旨在让智能体agent通过与环境的交互学习如何做出决策,以最大化长期奖励。

    由此可见,MDP和POMDP都提供了强化学习问题的数学框架,而DRL是一种利用深度学习技术解决这些问题的方法,DRL可以应用于MDP和POMDP的求解,为解决复杂的问题提供了一种有效的途径。

参考论文:Applications of Deep Reinforcement Learning in Communications and Networking: A Survey.

还有一些其它方面已学习过的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/46794.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

7月5日,自然保护地总体规划智能编制系统,线上宣讲会(腾讯会议:638-228-003)

7月5日(本周五)下午2:30,国家林草局林草调查规划院胡理乐研究员,介绍自然保护地总体规划智能编制系统,欢迎大家线上参加!(腾讯会议号:638-228-003) 系统主要特色&#x…

【python】pandas报错:UnicodeDecodeError详细分析,解决方案以及如何避免

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,…

OpenMesh入门,安装,运行示例Hello World

安装 环境 win10&#xff0c;qt5 源码下载编译 进入OpenMesh官网OpenMesh官网 https://www.graphics.rwth-aachen.de/software/openmesh/download/ 使用cmake gui 注意&#xff1a;先安装qt5 使用 CMake-Gui 构建 vs 2019 项目 注意 where is the source code 是<project…

PE73_E6_BLE

PE73_E6_BLE 产品参数 产品型号 PE73_E6_BLE 尺寸(mm) 180*130*13mm 显示技术 电子墨水屏 显示区域(mm) 163.2(H) * 97.92(V) 分辨率(像素) 800*480 像素尺寸(mm) 0.204*0.204 显示颜色 黑/白/红/黄/橙/蓝/绿 视觉角度 180 工作温度 0-50℃ …

前端开发(基础)

目录 一、Web前端项目初始化 环境准备 创建项目 前端工程化配置 引入组件库 开发规范 全局通用布局 基础布局结构 全局底部栏 动态替换内容 全局顶部栏 通用路由菜单 支持多套布局 请求 请求工具库 全局自定义请求 自动生成请求代码 全局状态管理 全局权限管…

Ti_MSPM0开发环境搭建(keil版本)

一&#xff1a;基础软件下载 开发MSPM0的软件组合方式有很多&#xff0c;但是最常见的就是keilsysSDK或者CCSsysSDK,这里先明确一下几个软件是干什么的&#xff0c;SDK文件里面提供了Ti的案例&#xff0c;驱动等我们可以理解为他的开发环境都是基于SDK的所以这个SDK是必须要下载…

【C++航海王:追寻罗杰的编程之路】智能指针

目录 1 -> 为什么需要智能指针&#xff1f; 2 -> 内存泄漏 2.1 ->什么是内存泄漏&#xff0c;以及内存泄漏的危害 2.2 -> 内存泄漏分类 2.3 -> 如何避免内存泄漏 3 -> 智能指针的使用及原理 3.1 -> RAII 3.2 -> 智能指针的原理 3.3 -> std…

台达DVP系列串口驱动全面解析

1 驱动简介 台达DVP系列PLC&#xff08;包括ES2、SS、EX等&#xff09;使用串口通讯&#xff0c;外部设备可通过此口采集与PLC进行数据交互。网关使用台达DVP系列驱动&#xff0c;按照下述过程操作即可实现网关与PLC直接通讯 默认串口参数&#xff1a;9600/7/偶/1。 串口号&…

聚鼎装饰画:装饰画行业还有前景吗未来

在这个快速变化的时代&#xff0c;人们对于美的追求与日俱增。装饰画作为家居和公共空间美化的重要元素&#xff0c;其市场前景一直受到业界和消费者关注。但问题随之而来&#xff0c;装饰画行业在未来是否还有发展前景?本文将从多个角度进行分析。 从文化层面看&#xff0c;装…

【iOS】——MRC

一、引用计数 内存管理的核心是引用计数器&#xff0c;用一个整数来表示对象被引用的次数&#xff0c;系统需要根据引用计数器来判断对象是否需要被回收。 在每次 RunLoop 迭代结束后&#xff0c;都会检查对象的引用计数器&#xff0c;如果引用计数器等于 0&#xff0c;则说明…

面对人工智能发展的伦理挑战:应对策略与未来方向

✨✨ 欢迎大家来访Srlua的博文&#xff08;づ&#xffe3;3&#xffe3;&#xff09;づ╭❤&#xff5e;✨✨ &#x1f31f;&#x1f31f; 欢迎各位亲爱的读者&#xff0c;感谢你们抽出宝贵的时间来阅读我的文章。 我是Srlua小谢&#xff0c;在这里我会分享我的知识和经验。&am…

手写new

手写new new是什么执行new会发生什么实现new new是什么 new 操作符是可以创建一个用户定义的对象的实例或具有构造函数的内置对象的实例 function Car (make, model, year) {this.make makethis.model modelthis.year year } Car.prototype.running function () {return …

[Linux]添加sudoers

之前我们讲过sudo这个命令,它可以让我们普通用户进行短暂的提权,上回我们讲完了vim 本篇是个短篇,目的就是让我们之后的学习中可以使用sudo命令。 首先我们先登录root用户 ls /etc/sudoer 我们需要改的就是上面的这个文件 vim /etc/sudoers 我们用vim打开 把光标移动到这…

微信小程序实现和AI语音对话功能

1.效果 微信小程序与AI语音对话 2.效果主要实现技术 ①AI语音合成&#xff08;阿里云平台&#xff09; ②微信小程序同声传译功能 ③本功能是用原生微信小程序实现的&#xff08;可自行转成uniapp代码&#xff09; 3.同声传译 进入微信服务市场&#xff0c;搜索同声传译就能找…

python关于excel常用函数(pandas篇)

iterrows函数&#xff1a; Pandas的基础数据结构可以分为两种&#xff1a;DataFrame和Series。不同于Series的是&#xff0c;Dataframe不仅有行索引还有列索引 。df.iterrows( )函数&#xff1a;可以返回所有的行索引&#xff0c;以及该行的所有内容。 pd.read_excel&#xf…

小型数控车床对现代制造业的影响

小型数控车床作为现代制造业的重要生产工具&#xff0c;集成了计算机控制、精密机械、电子技术和自动化技术&#xff0c;为各种复杂零件的加工&#xff0c;在生产效率和精度上带来了显著提升&#xff0c;它是制造业中不可或缺的基础装备&#xff0c;在金属切削加工领域发挥着关…

车间数据采集网关的工作原理和应用场景-天拓四方

在智能制造日益盛行的今天&#xff0c;车间数据采集作为整个生产流程中的关键环节&#xff0c;其重要性愈发凸显。数据采集网关作为这一环节的核心设备&#xff0c;扮演着承上启下的重要角色。本文旨在深入探讨车间数据采集网关的工作原理和应用场景。 一、数据采集网关的工作…

Java基础知识——继承

目录 一、什么是继承 二、类的继承格式 三、继承的特点 四、继承的类型 五、继承的关键字 六、为什么使用继承 一、什么是继承 继承是面向对象编程&#xff08;OOP&#xff09;的四大基本原则之一&#xff0c;它允许我们创建一个新类&#xff0c;继承并扩展现有类的属性和…

【HarmonyOS学习】Calendar Kit日历管理

简介 Calendar Kit提供日历与日程管理能力&#xff0c;包括日历的获取和日程的创建能力。 Calendar Kit为用户提供了一系列接口来获取日历账户&#xff0c;并使用特定的接口向日历账户中写入日程。 如果写入的日程带有提醒时间则系统会在时间到达时向用户发送提醒。 约束点…

eclipse 新建类class文件增加copyright版权信息

1、Window -> Preferences 2、输入code,找到code templates Java > Code Style > Code Templates 比如进行如何的设置&#xff1a; 3、新增类文件&#xff0c;会自动增加版权&#xff1a;