08MARL深度强化学习——模型种类

文章目录

  • 前言
  • 1、训练与执行的模型
  • 2、Centralised Training and Execution
    • 2.1 Example——central learning
    • 2.2 局限性
  • 3、Decentralised Training and Execution
    • 3.1 Example——independent learning
    • 3.2局限性
  • 4、Centralised Training with Decentralised Execution
    • 4.1 Example——AC
    • 5、总结


前言

在RL学习的章节当中,学习了tubular的方法,其受限于只能更新访问过的状态价值,因此其并不能推断出未访问状态的价值导致算法并不能有效的评估所有状态的价值,因此我们能够训练一个神经网络来近似巨大的输入状态空间,深度强化学习就是训练一个参数化的价值函数或策略用于RL当中,后续学习是将深度强化学习应用到MARL当中,解决更加复杂的任务


1、训练与执行的模型

MARL算法能够根据训练与执行阶段利用的信息进行分类,在训练阶段每个智能体是局部可观测的,称为去中心化训练;在训练阶段能够利用所有智能体的信息,称为中心化训练;在执行阶段利用历史的局部观测,称为去中心化执行;在执行阶段利用所有智能体的全部信息,称为中心化执行

2、Centralised Training and Execution

中心化学习与执行的方法:在训练与执行阶段使用全局共享的信息,这些信息包括局部观测历史、价值函数、学习的世界模型等等,在此类方法中,明显与POSG环境相悖,因此智能体并不局限于局部可观测的信息,因此此类方法可以考虑为具有特权信息,能够获取其他智能体的全部信息

2.1 Example——central learning

中心化学习的算法便是基于此类方法的例子,中心化学习通过使用联合的历史观测序列训练一个中心化的策略将多智能体问题转化为单智能体问题

2.2 局限性

在训练过程需要将联合奖励转化为单一奖励,在一些过程中难以实现;联合动作状态空间随着智能体数量增加呈指数上升;分布的实体之间无法实时交流

3、Decentralised Training and Execution

去中心化训练与执行:在训练阶段与执行阶段是完全去中心化的,并不依赖于中心化的信息共享

3.1 Example——independent learning

独立学习算法每个智能体忽略其他智能体的存在使用单智能体RL算法训练其策略,具有拓展性、以及克服分布实体无法交流等优势

3.2局限性

无法使用所有智能体的信息进行训练;环境非平稳性造成的无法训练

4、Centralised Training with Decentralised Execution

中心化训练分散执行:在训练过程使用中心化的训练方式,而策略采用去中心化的执行方式。例如:在训练期间利用共享的局部信息更新智能体的策略,然而每个智能体的策略只利用局部的信息选择动作,该类方法组合了中心化训练与去中心化执行的优势

4.1 Example——AC

多智能体actor-critic算法:在训练期间中心化的critic利用联合观测历史训练策略能够提供更加准确的状态评估,在执行期间,利用局部的观测历史,价值函数不再需要,由策略决定采取哪个动作

5、总结

本文总结了MARL算法当中的三个基本框架:中心化训练与执行、去中心化训练与执行、中心化训练分散执行

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/685936.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue实现多个下拉框联动(二)

在Vue3的组件中,定义多个下拉框的数据和选中的值。例如: data() {return {firstSelectValue: ,secondSelectValue: ,thirdSelectValue: ,// 其他下拉框的数据和选中的值} }在模板中,使用v-model指令绑定下拉框的选中值,并使用cha…

精读《Function Component 入门》

1. 引言 如果你在使用 React 16,可以尝试 Function Component 风格,享受更大的灵活性。但在尝试之前,最好先阅读本文,对 Function Component 的思维模式有一个初步认识,防止因思维模式不同步造成的困扰。 2. 精读 什…

P1090 [NOIP2004 提高组] 合并果子 / [USACO06NOV] Fence Repair G题解

题目 在一个果园里,多多已经将所有的果子打了下来,而且按果子的不同种类分成了不同的堆。多多决定把所有的果子合成一堆。 每一次合并,多多可以把两堆果子合并到一起,消耗的体力等于两堆果子的重量之和。可以看出,所…

如何将浏览器设置为黑色

步骤 1 设置边框颜色: 找到浏览器的 设置 选项在里面选择浏览器的 外观 选项把 主题 相关的改成 黑色 即可 步骤 2 设置页面背景颜色: 在浏览器搜索栏中输入指令,并确认 浏览器类型指令edgeedge://flags/chromechrome://flags/ 在出现…

绿色化 数据库 MongoDB 和 mysql 安装

绿色化 数据库 MongoDB 和 mysql 安装 【1.1】 前言 为什么要绿色化 安装呢?因为系统老升级,老重装!!也方便了解下数据库配置和库在那 绿色软件喜欢一般放在 D盘tools目录里 D:\tools\ 数据库 MongoDB D:\tools\MongoDB 数…

Mysql第二关之存储引擎

简介 所有关于Mysql数据库优化的介绍仿佛都有存储引擎的身影。本文介绍Mysql常用的有MyISAM存储引擎和Innodb存储引擎,还有常见的索引。 Mysql有两种常见的存储引擎,MyISAM和Innodb,它们各有优劣,经过多次优化和迭代,…

代码随想录算法训练营第十九天|654.最大二叉树、617.合并二叉树、700.二叉搜索树中的搜索、98.验证二叉搜索树

654.最大二叉树 刷题https://leetcode.cn/problems/maximum-binary-tree/description/文章讲解https://programmercarl.com/0654.%E6%9C%80%E5%A4%A7%E4%BA%8C%E5%8F%89%E6%A0%91.html视频讲解https://www.bilibili.com/video/BV1MG411G7ox/?vd_sourceaf4853e80f89e28094a5fe…

洛谷题解 - B2015 计算并联电阻的阻值

目录 题目描述输入格式输出格式样例 #1样例输入 #1样例输出 #1 代码 题目描述 对于阻值为 r 1 r_1 r1​ 和 r 2 r_2 r2​ 的电阻,其并联电阻阻值公式计算如下: R 1 1 r 1 1 r 2 R\dfrac{1}{\dfrac{1}{r_1}\dfrac{1}{r_2}} Rr1​1​r2​1​1​ 输入…

软件工程师,OpenAI Sora驾到,快来围观

概述 近期,OpenAI在其官方网站上公布了Sora文生视频模型的详细信息,展示了其令人印象深刻的能力,包括根据文本输入快速生成长达一分钟的高清视频。Sora的强大之处在于其能够根据文本描述,生成长达60秒的视频,其中包含&…

【Spring1】Spring容器的本质就是两个HashMap

做为Java程序员,我们就是Spring的用户,Spring的影子在我们的代码里几乎是无处不在,那Spring到底是什么,带给我们什么,如何工作的呢?这个简单问题貌似又不太好讲。例如如果要问一下什么是Spring框架, 可以找到大量的解答,基本内容如下: Spring是一个开源的应用程序框架…

计算机网络-OSI模型及网络数据传输(双十一淘宝故事详解版)

首先,把一个资源的传输,想象成在双十一下,商品琳琅满目,然后剁手党们经不住诱惑,疯狂买买买。在OSI中资源传输就相当于淘宝 卖家发货--->买家收货的过程。 其中每一层分别如下所示: 应用层&#xff08…

开源无处不在,发展创新下又有何弊端

随着信息技术的快速发展,开源软件已经成为软件开发的趋势,并产生了深远的影响。开源软件的低成本、可协作性和透明度等特点,使得越来越多的企业和个人选择使用开源软件,促进了软件行业的繁荣。然而,在使用开源软件的过…

1、若依(前后端分离)框架的使用

若依(前后端分离)框架的使用 0、环境1、下载若依(1) 下载并解压(2) 导入SQL语句(3) 配置Redis、MySQL 2、运行若依3、登录(1) 前端(2) 后端 4、获取用户角色、权限和动态路由(1) 获取用户角色、权限(2) 根据用户信息获取动态路由【getRouters】 5、杂6、…

python37-Python列表和元组之长度、最大值和最小值

Python提供了内置的len()max()min()全局函数来获取元组或列表的长度、最大值和最小值。 由于max()、min()要对元组、列表中的元素比较大小,因此程序要求传给max(),min()函数的元组、列表的元素必须是相同类型且可以比较大小。例如如下代码: # !/usr/bin/env python# -*- cod…

阿里云服务器ECS租赁费用报价_CPU内存_带宽和系统盘价格表

2024年最新阿里云服务器租用费用优惠价格表,轻量2核2G3M带宽轻量服务器一年61元,折合5元1个月,新老用户同享99元一年服务器,2核4G5M服务器ECS优惠价199元一年,2核4G4M轻量服务器165元一年,2核4G服务器30元3…

jmeter-09v函数进行参数拼接(动态变量名)

文章目录 一、测试场景二、连接数据库,随机查询五本书籍信息连接数据库随机查询五本书籍信息三、循环控制器四、计数器五、v函数六、新建请求(使用v函数)七、结果一、测试场景 从数据库随机查询五本书的详细信息,然后根据数据库返回的五本书的id去分别访问这五本书的对应的…

解线性方程组(二)——Jacobi迭代法求解(C++)

迭代法 相比于直接法求解,迭代法使用多次迭代来逐渐逼近解,其精度比不上直接法,但是其速度会比直接法快很多,计算精度可控,特别适用于求解系数矩阵为大型稀疏矩阵的方程组。 Jacobi迭代法 假设有方程组如下&#xf…

QGIS004:【08图层工具箱】-导出到电子表格、提取图层范围

摘要:QGIS图层工具箱常用工具有导出到电子表格、提取图层范围等选项,本文介绍各选项的基本操作。 实验数据: 链接:https://pan.baidu.com/s/1ZK4_ShrQ5BsbyWfJ6fVW4A?pwdpiap 提取码:piap 一、导出到电子表格 工具…

OpenAl 视频生成模型 —— Sora技术报告解读

这里是陌小北,一个正在研究硅基生命的碳基生命。正在努力成为写代码的里面背诗最多的,背诗的里面最会写段子的,写段子的里面代码写得最好的…厨子。 写在前面 早上醒来,就看到OpenAl推出的视频模型Sora炸锅了,感觉所…

代码随想录 Leetcode452. 用最少数量的箭引爆气球

题目9&#xff1a; 代码&#xff08;首刷看解析 2024年2月17日&#xff09;&#xff1a; class Solution { private:const static bool cmp(vector<int>& a, vector<int>& b) {return a[0] < b[0];} public:int findMinArrowShots(vector<vector<…