DQN的理论研究回顾

DQN的理论研究回顾

1. DQN简介

强化学习(RL)(Reinforcement learning: An introduction, 2nd, Reinforcement Learning and Optimal Control)一直是机器学习的一个重要领域,近几十年来获得了大量关注。RL 关注的是通过与环境的交互进行连续决策,从而根据当前环境制定指导行动的策略,目标是实现长期回报最大化。

Q-learning 是 RL 中最重要的学习策略之一,自它被 Watkins 1992 提出以来,就一直受到了深入的研究。 详情请参见:Bu et al (2009)。它旨在通过行动价值函数做出最优决策,该函数被定义为在给定状态下采取某种行动的预期累积奖励。传统的 Q-learning 在应用于以大尺度和连续状态空间为特征的环境时会遇到困难。 在这种情况下,管理和更新每个状态-行动对的 Q 值在计算上变得不可行。为了克服这一限制,人们开发了深度神经网络,将行动值函数表示为深度神经网络,例如 掌握围棋、机器人运动控制和自动驾驶等领域。

深度Q-learning需要通过观察数据训练神经网络,由于RL应用场景中这些数据具有很强的相关性,标准算法如随机梯度下降(SGD)往往并不稳定。Mnih et al. (2015) 的开创性工作中引入的深度Q-网络(DQN)取得了突破性进展,在玩Atari游戏时与人类专家相比表现出了卓越的性能。

除了将 Q-learning 与深度神经网络相结合,DQN 还提出了两个新颖而关键的技巧:经验重放目标网络。这一开创性的成就推动了深度强化学习领域的进一步探索,从而发展出了Double DQN、Dueling DQN)、EBQL、Logistic Q-learning和Neural Episodic Control等方法。

尽管 DQN 的实践取得了巨大成功,但人们对其基本机制的了解仍然非常有限。

2. 文献回顾

自从Q-learning以及进一步突破的DQN被提出以来,深度Q-learning算法的相关理论分析就备受关注。

Fan et al. (2020) 重点研究了具有稀疏ReLU网络的拟合Q-迭代算法 (Munos and Szepesvári (2008),而Cai et al. (2019) 则研究了基于双层神经网络的具有i.i.d.观测模型和动作值函数逼近的Q-learning算法的全局收敛性。Xu and Gu (2020) 研究了非 i.i.d. 观测下神经 Q-learning 算法的非渐近收敛性. Du et al. (2020) 分析了确定性系统中带有函数逼近的不可知论 Q-learning 算法。更多收敛速率和探索分析的相关内容请参考Bai et al. (2019); Even-Dar et al. (2003)。

上述工作的主要局限在于缺乏对原始 DQN 算法作用的分析,尤其是对经验重放和目标网络机制的分析。

  • 一些文献基于特定条件分析了 DQN 算法的经验重放机制。例如, Szlak and Shamir (2021) 提供了带经验重放的Q-learning在表格设置下的收敛率保证。Ramaswamy and Hüllermeier (2022) 从动力系统的角度出发,在现实和可验证的假设条件下,对带有经验重放的深度Q-learning的一个流行版本进行了理论分析。
  • 同时,一些文献分析了目标网络机制。Carvalho et al. (2020) 建立了DQN中目标网络与线性函数逼近相结合的Q-learning的收敛性。但同时对其两种机制的理论解释仍然缺乏。

最近有许多同时研究两种机制的理论结果是基于函数逼近器的线性性的。虽然这些初步的结果是重要的和有趣的,但由于不切实际的简化和限制性的假设,它们并不能立即适用于在实践中实施的深度Q学习。

  • Agarwal et al. (2021) 介绍了一种带有经验重放和在线目标学习等 "启发式 "修正的Q-learning算法。
  • Andrea et al. (2022) 设计了一种Q-learning算法的变体,其中包含目标网络和一种称为策略重放的重放机制。
  • Nagaraj et al. (2022) 将Q-learning与在线目标学习和反向经验重放相结合,提出了Q-Rex算法。

近年来,也有研究考虑了DQN非线性函数逼近,即神经网络。

  • Liu et al. (2022) 重点研究了通过 α α α平滑Q函数进行 ε \varepsilon ε贪婪探索的DQN算法。
  • Zhang et al. (2023) 解决了前者对稀疏神经网络的限制,提供了DQNs实际设置的理论收敛性和样本复杂度分析。

虽然目前有很多关于DQN算法的理论研究,但我们没有发现从随机动力学角度分析这两种机制的工作。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/669655.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

服务器和CDN推荐

简介 陆云Roovps是一家成立于2021年的主机服务商,主要业务是销售美国服务器、香港服务器及国外湖北十堰高防服务器,还有相关CDN产品。( 地址:roovps) 一、相关产品

C语言之数据在内存中的存储

目录 1. 整数在内存中的存储2. 大小端字节序和字节序判断什么是大小端?为什么有大小端?练习1练习2练习3练习4练习5练习6 3. 浮点数在内存中的存储浮点数存的过程浮点数取得过程练习题解析 1. 整数在内存中的存储 在讲解操作符的时候,我们已经…

ffmpeg的使用,安装,抽帧,加水印,截图,生成gif,格式转换,抓屏等

实际使用中总结的关于ffmpeg对视频的处理的记录文档 具体信息: http://ffmpeg.org/download.html 官网下载ffmpeg 关于ffmpeg的安装详细步骤和说明 装ffmpeg 方式,Linux和windows下的 http://bbs.csdn.net/topics/390519382 php 调用ffmpeg , http://bbs.csdn.net/t…

机器学习之正态分布

正态分布:也称常态分布,又名高斯分布。正态曲线呈钟形,两头低,中间高,左右对称因其曲线呈钟形,也称钟形曲线。若随机变量X服从一个数学期望为μ、方差为 σ 2 \sigma^2 σ2的正态分布,记为N(μ, σ 2 σ^2 σ2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准…

(篇九)MySQL常用内置函数

目录 ⌛数学函数 ⌛字符串函数 ⌛聚合函数 ⌛日期函数 📐获取当前时间 📐获取时间的某些内容 📐​编辑 📐格式化函数 📏format类型: ⌛系统信息函数 ⌛类型转换函数 数学函数 字符串函数 聚合函…

SSH口令问题

SSH(Secure Shell)是目前较可靠、专为远程登录会话和其他网络服务提供 安全性的协议,主要用于给远程登录会话数据进行加密,保证数据传输的安全。 SSH口令长度太短或者复杂度不够,如仅包含数字或仅包含字母等时&#xf…

html5 audio video

DOMException: play() failed because the user didn‘t interact with the document first.-CSDN博客 不可用: 可用: Google Chrome Close AutoUpdate-CSDN博客

[C++] 如何使用Visual Studio 2022 + QT6创建桌面应用

安装Visual Studio 2022和C环境 [Visual Studio] 基础教程 - Window10下如何安装VS 2022社区版_visual studio 2022 社区版-CSDN博客 安装QT6开源版 下载开源版本QT Try Qt | 开发应用程序和嵌入式系统 | Qt Open Source Development | Open Source License | Qt 下载完成&…

请问半吊子 C++选手该如何深入学习 C++?

请问半吊子 C选手该如何深入学习 C? 在开始前我有一些资料,是我根据网友给的问题精心整理了一份「C的资料从专业入门到高级教程」, 点个关注在评论区回复“888”之后私信回复“888”,全部无偿共享给大家!!&#xff0…

React 实现表单组件

表单是html的基础元素,接下来我会用React实现一个表单组件。支持包括输入状态管理,表单验证,错误信息展示,表单提交,动态表单元素等功能。 数据状态 表单元素的输入状态管理,可以基于react state 实现。 …

亚马逊运营新手指南:10个基础概念解析

亚马逊作为全球最大的在线零售平台,为卖家们提供了巨大的商机。然而,跳入这片繁荣的电商海洋之前,了解一些基础概念是成功的关键。以下是每位亚马逊运营新手必须掌握的10个基础概念,帮助你建立起有效的跨境电商策略。 亚马逊10个基…

【证书管理】实验报告

证书管理实验 【实验环境】 ISES客户端 【实验步骤】 查看证书 查看证书详细信息 选择任意证书状态,在下方“证书列表”中出现符合要求的所有证书。在“证书列表”中点击要查看证书,在右侧“证书详细信息”栏出现被选证书信息。 上述操作如图1.2.…

【AWS】step-functions

这里写自定义目录标题 step-functionsState machine typeStandard workflowsExpress workflows 收费 step-functions https://us-east-2.console.aws.amazon.com/states/home?regionus-east-2#/homepage 功能: 配置工作流,工作流中的每个步骤称为一个…

Elasticsearch:基本 CRUD 操作 - Python

在我之前的文章 “Elasticsearch:关于在 Python 中使用 Elasticsearch 你需要知道的一切 - 8.x”,我详细讲述了如何建立 Elasticsearch 的客户端连接。我们也详述了如何对数据的写入及一些基本操作。在今天的文章中,我们针对数据的 CRUD (cre…

C++后端开发之Sylar学习三:VSCode连接Ubuntu配置Gitee

C后端开发之Sylar学习三:VSCode连接Ubuntu配置Gitee 为了记录学习的过程,学习Sylar时写的代码统一提交到Gitee仓库中。 Ubuntu配置Gitee 安装git sudo apt-get install -y git配置用户名和邮箱 git config --global user.name 用户名 …

ArcGISPro中Python相关命令总结

主要总结conda方面的相关命令 列出当前活动环境中的包 conda list 列出所有 conda 环境 conda env list 克隆环境 克隆以默认的 arcgispro-py3 环境为模版的 my_env 新环境。 conda create --clone arcgispro-py3 --name my_env --pinned 激活环境 activate my_env p…

相机图像质量研究(3)图像质量测试介绍

系列文章目录 相机图像质量研究(1)Camera成像流程介绍 相机图像质量研究(2)ISP专用平台调优介绍 相机图像质量研究(3)图像质量测试介绍 相机图像质量研究(4)常见问题总结:光学结构对成像的影响--焦距 相机图像质量研究(5)常见问题总结:光学结构对成…

RabbitMQ-1.介绍与安装

介绍与安装 1.RabbitMQ1.0.技术选型1.1.安装1.2.收发消息1.2.1.交换机1.2.2.队列1.2.3.绑定关系1.2.4.发送消息 1.2.数据隔离1.2.1.用户管理1.2.3.virtual host 1.RabbitMQ 1.0.技术选型 消息Broker,目前常见的实现方案就是消息队列(MessageQueue&…

Linux操作系统下安装消息中间件RabbitMQ_00000

下载 在官网下载Linux版RabbitMQ安装文件。 erlang-21.3-1.el7.x86_64.rpm rabbitmq-server-3.8.8-1.el7.noarch.rpm 安装 1、将文件上传至Linux系统中。 上传到/usr/local/software目录下(如果没有software目录,则创建。)。 2、安装文件&…

操作系统-【预备学习-2】(Linux 文件操作命令)

文章目录 相关知识文件查看命令cat 命令head 命令tail 命令nl 命令文件编辑基本命令 演示 相关知识 文件查看命令 我们要查看一些文本文件的内容时,要使用文本编辑器来查看。在Linxu下,可以使用一些命令预览文本文件中的内容,而不必使用文本…