【强化学习】QAC、A2C、A3C学习笔记

强化学习算法:QAC vs A2C vs A3C

引言

经典的REINFORCE算法为我们提供了一种直接优化策略的方式,它通过梯度上升方法来寻找最优策略。然而,REINFORCE算法也有其局限性,采样效率低高方差收敛性差难以处理高维离散空间

为了克服这些限制,研究者们引入了Actor-Critic框架,它结合了价值函数和策略梯度方法的优点(适配连续动作空间和随机策略),旨在提升学习效率和稳定性。

QAC(Quality Actor-Critic)

实现原理

QAC算法通过结合Actor-Critic架构的优势,实现了策略和价值函数的有效融合。在此框架中,Actor基于策略梯度法选择动作,而Critic组件评估这些动作的价值,以指导Actor的策略更新。

在这里插入图片描述
由图可知,在Actor-Critic算法中,TD Error用于更新Critic的价值函数,也用来指导Actor的策略梯度更新。简单来说,如果TD Error较大,意味着当前策略对于该状态-动作对的价值预测不准确,需要更大的调整。

优势与局限

QAC的主要优势在于其将策略探索与价值评估相结合,旨在提升决策质量与学习速度。然而,由于依赖样本来更新策略,它可能会面临高方差问题,尤其是在样本数量较少或者环境噪声较大的情况下。 这要求在实际应用中进行适当的调整和优化,以实现最佳性能。

A2C(Advantage Actor-Critic)

实现原理

A2C通过引入advantage函数 A π ( s t , a t ) A^\pi(s_t,a_t) Aπ(st,at),来指导策略更新。这个函数评估执行某个动作相比平均水平好多少,旨在减少方差并提高策略的学习效率。

优势与局限

A2C的同步框架减少了策略更新中的噪声,提升了学习稳定性。作为on-policy算法,它直接在策略路径上进行更新,保证了策略的一致性。

好像基本上能搜的资料都没有说这个方法的局限。
从经验上看,这个方法的样本利用率不高(会比DQN还要难收敛一点),而且对超参数敏感(这算是强化学习的通病了)。

A3C(Asynchronous Advantage Actor-Critic)

实现原理

A3C通过多个并行的Actor-Critic实例进行学习,这些实例独立探索并异步更新主策略。每个实例有自己的环境副本,降低了策略更新中的相关性
在这里插入图片描述

优势与局限

A3C的异步更新可以在多个环境副本上并行处理,加快学习速度,同时保持了策略的多样性。

但是这就要看你的计算资源够不够了🤣

小结(比较)

  • QAC:一种基本的Actor-Critic方法,通过Q值来指导策略的更新。
  • A2C:利用advantage function代替Q值,减少了方差并可能加速了学习过程。它通常在一个单一的环境中运行,这意味着它在更新策略时会等待每一步都完成。
  • A3C:在A2C的基础上添加异步执行,允许多个agents并行探索和学习,这样不同的agent可以探索不同的策略空间,增加样本的多样性并加速学习过程。

A2C和A3C的核心区别在于A3C的异步更新机制,它允许并行处理多个环境实例,从而提高了算法的效率和鲁棒性。而QAC则为这些更先进的算法提供了基础框架。在实际应用中,选择哪种算法取决于计算资源、环境的复杂度以及所需的学习效率。

A2C提供了同步更新的稳定性,而A3C通过异步更新增加了学习效率。
两者都采用了advantage函数改善策略梯度,但A3C在多核心或多处理器系统上更具优势。

最后的问答

  • 相比REINFORCE算法,为什么A2C可以提升速度?

A2C增加了Critic组件用于估计状态价值,这样Actor可以利用Critic提供的价值信息来更新策略,使得学习过程更加高效。

  • A2C、A3C是on-policy的吗?

A2C算法是on-policy的,因为它根据当前策略生成的样本来更新这个策略,这意味着它评估和改进的是同一个策略。

A3C算法虽然采用了异步的更新机制,但它本质上仍然是on-policy的。尽管这些更新是异步发生的,但每个actor的策略更新都是基于其自身的经验,而这些经验是根据各自的当前策略产生的。

PS:后面有个最大熵的Soft Acotr Critic,这个就是off-policy。

参考资料

joyrl-book 第 10 章 Actor-Critic 算法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/644698.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue3全局组件和自定义指令

目录 全局组件 全局指令 局部指令 全局组件 全局组件是在main.js中注册的,通过app实例.component创建 main.js import { createApp } from vue import App from ./App.vue //导入组件 import CustormComp from ./components/CustormComp.vue // 创建App实例挂载…

【centos7安装docker】

背景: 学习docker,我是想做一个隔离环境,并且部署的话,希望实现自动化,不为安装软件而烦恼,保证每个人的环境一致。 2C4G内存 50G磁盘的虚拟机事先已经准备完毕。 1.查看下centos版本,docker要…

CorLoc(Correct Localization)是什么?

“Correct Localization”(CorLoc)是一种用于评估目标检测模型性能的指标,强调模型是否能够准确地定位目标对象。该指标通常在训练数据上使用,用于检测模型对目标位置的精确性。 以下是对CorLoc的详细说明: 1.目标检测…

【大数据】Flink 系统架构

Flink 系统架构 1.Flink 组件1.1 JobManager1.2 ResourceManager1.3 TaskManager1.4 Dispatcher 2.应用部署2.1 框架模式2.2 库模式 3.任务执行4.高可用设置4.1 TaskManager 故障4.2 JobManager 故障 Flink 是一个用于状态化并行流处理的分布式系统。它的搭建涉及多个进程&…

aop介绍

AOP(Aspect-Oriented Programming,面向方面编程),可以说是OOP(Object-Oriented Programing,面向对象编程)的补充和完善。OOP引入封装、继承和多态性等概念来建立一种对象层次结构,用…

Linux 快速上手

Liunx 不同的操作系统 Linux、Unix、Windows…Linux的不同的发行版本: debian、ubuntu、deepin、rethat、centos、fedora等等 Linux系统安装 可以参考我的安装Linux系统的文章,或者看网上找下安装步骤 Linux命令 命令行基础操作: 1. 命令行 [rootl…

代码随想录算法训练营第14天 | 二叉树的前序、中序、后序遍历(递归+迭代法)

二叉树的理论基础:(二叉树的种类,存储方式,遍历方式 以及二叉树的定义) https://programmercarl.com/%E4%BA%8C%E5%8F%89%E6%A0%91%E7%90%86%E8%AE%BA%E5%9F%BA%E7%A1%80.html 二叉树的递归遍历 Leetcode对应的三道习…

我们应该解决哪些计算机网络中的问题,才能实现进程之间基于网络的通信呢?

ps:本文章的图片内容来源都是来自于湖科大教书匠的视频,声明:仅供自己复习,里面加上了自己的理解 这里附上视频链接地址:1.6 计算机网络体系结构(1)—常见的计算机网络体系结构_哔哩哔哩_bilibi…

YOLOv5中Ghostbottleneck结构shortcut=True和shortcut=False有什么区别

GhostBotleneck结构中的shodcutTrue和shorcutFalse的区别在干是否使用残差连接。当shorcuTrue时,使用残差连接,可以以加速模型的收敛速度和提高模型的准确率,当shorcuFalse时,不使用残差连接,可以减少模型的参数数量和…

what is `ContentCachingRequestWrapper` does?

ContentCachingRequestWrapper 是 Spring Framework 中提供的一种包装类,它扩展了 HttpServletRequestWrapper 类,用于缓存请求体的内容。 通常在处理 HTTP 请求时,原生的 HttpServletRequest 对象中的输入流 (getInputStream()) 只能被读取一…

Java玩转《啊哈算法》排序之桶排序

过去心不可得,现在心不可得,未来心不可得 目录在这里 楔子代码地址桶排序代码核心部分优缺点 完整代码演示 升级版核心代码完整代码演示 楔子 大家好!本人最近看了下《啊哈算法》,写的确实不错,生动形象又有趣&#x…

【多线程】多线程安全,为什么不安全,要怎么做保证其安全,实例

多线程安全是指在多线程环境下,对共享的数据进行操作时,保证这些操作能够正确、稳定地执行,不会导致数据不一致、异常等问题。多线程不安全通常是因为多个线程同时访问、修改了共享的数据,导致一些不可预料的结果。 一、多线程安…

训练自己的ai模型(一)学习笔记与项目实操

ai模型大火,作为普通人,我也想做个自己的ai模型 训练自己的ai模型通常需要接下来的的六步 一、 收集和准备数据集:需要收集和准备一个数据集,其中包含想要训练模型的数据。这可能需要一些数据清理和预处理,以确保数据…

Optional的使用(代替if判断是否为空)

Optional 前言 我的使用 package yimeng;import com.ruoyi.RuoYiApplication; import com.ruoyi.common.core.domain.entity.SysUser; import org.junit.jupiter.api.Test; import org.springframework.boot.test.context.SpringBootTest; import java.util.*;SpringBootTes…

C语言-算法-拓扑排序

【模板】拓扑排序 / 家谱树 题目描述 有个人的家族很大,辈分关系很混乱,请你帮整理一下这种关系。给出每个人的后代的信息。输出一个序列,使得每个人的后辈都比那个人后列出。 输入格式 第 1 1 1 行一个整数 N N N( 1 ≤ N …

OpenCV第 2 课 OpenCV 环境搭建

文章目录 第 2 课 OpenCV 环境搭建1.安装 Numpy2.从 Ubuntu 存储库安装 OpenCV3.验证 OpenCV 安装 第 2 课 OpenCV 环境搭建 1.安装 Numpy 每一张图像都有很多个像素点,这也导致了程序中会涉及大量的数组处理。Numpy 是一个 Python 的拓展库,它对多维数…

仿真机器人-深度学习CV和激光雷达感知(项目2)day7【ROS关键组件】

文章目录 前言Launch 文件了解 XML 文件Launch 文件作用Launch 文件常用标签实例--作业1的 Launch 文件TF Tree介绍发布坐标变换--海龟例程获取坐标变换--海龟自动跟随例程rqt_工作箱前言 💫你好,我是辰chen,本文旨在准备考研复试或就业 💫本文内容是我为复试准备的第二个…

LeetCode 每日一题 Day 51 - 53

670. 最大交换 给定一个非负整数,你至多可以交换一次数字中的任意两位。返回你能得到的最大值。 示例 1 : 输入: 2736 输出: 7236 解释: 交换数字2和数字7。 示例 2 : 输入: 9973 输出: 9973 解释: 不需要交换。 注意: 给定数字的范围是 [0, 108] 模拟&#xff1a…

mysql临时表简述

概述 业务中经常会对一些表进行聚合组装信息,然后筛选,有些表比较数据量大的时候,会对拖慢查询; 常用的mybatis的分页查询,在查询时会先count一下所有数据,然后再limit分页,即使分页也会有深度…

数据分析-Pandas如何用图把数据展示出来

数据分析-Pandas如何用图把数据展示出来 俗话说,一图胜千语,对人类而言一串数据很难立即洞察出什么,但如果展示图就能一眼看出来门道。数据整理后,如何画图,画出好的图在数据分析中成为关键的一环。 数据表&#xff…