Value-Based Reinforcement Learning（1）

Value-Based Reinforcement Learning（1）

pingmian/2025/10/31 14:12:37/文章来源:https://blog.csdn.net/zhangsj1007/article/details/139219872

Action-Value Functions

Discounted Return（未来的reward，由于未来存在不确定性，所以未来的reward 要乘以 $\gamma$ 进行打折）

$U_{t} = R_t +\gamma R_{t+1} +\gamma ^2R_{t+2} + \gamma^3R_{t+3} + ...$

这里的 $U_t$ 依赖actions $A_{t},A_{t+1},A_{t+2},...$ ，和states $S_{t},S_{t+1},S_{t+2},...$

这里

Policy Function : $\pi (a|s) = P[A=a|S=s]$ ，表达了action的随机性

State Transition : $p(s^{'}|s,a) = P[S^{'}=s^{'}|S = s,A=a]$ ，表达了转移状态的随机性

由于存在action，和state随机性，现在想消除随机性，可以求 $U_{t}$ 的数学期望：

Action-Value Function： $Q_\pi (s_t, a_t) = E[U_t|S_t=s_t, A_t=a_t]$ ，在当前策略 $\pi$ 下，状态 $s_t$ 和 $a_t$ 的回报

Optimal Action-Value Function ： $Q^{*}(s_t, a_t) = max \pi Q_\pi (s_t, a_t)$

$Q^{*}$ 可以给任意的动作打分，agent可以根据 $Q^{*}$ 的打分，做最有利的动作

Deep Q-Network （DQN）

如果我们知道了 $Q^{*}$ ，那么每一步最好的动作 $a^{*} = argmax aQ^{*}(s,a)$

DQN的目的就是近似 $Q^{*}$ ,即神经网络 $Q(s,a;w)$ 近似 $Q^{*}(s,a)$

流程如下： $s_t$ -> $a_t$ (DQN给出) -> $s_{t+1}$ (State Transition) -> $a_{t+1}$ (DQN给出)

-> $r_t$ （监督回报，用来训练DQN）

以此类推

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/pingmian/16329.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

创新实训2024.05.26日志：服务端接口实现——用户开启多个会话

创新实训2024.05.26日志：服务端接口实现——用户开启多个会话

1. 概念图类似于Kimi，文心一言，chatGPT等市面上主流的大模型，我们的大模型也支持同一个用户的多个会话，并且提供支持联系上下文给出解答的能力。 2. 基于会话的对话在langchain chatchat这个对langchain框架进行二次封装的第三…

阅读更多...

vulnhub靶场之FunBox-8

vulnhub靶场之FunBox-8

一.环境搭建 1.靶场描述 Its a box for beginners and can be pwned in the lunch break. This works better with VirtualBox rather than VMware 2.靶场下载 Funbox: Lunchbreaker ~ VulnHub 3.靶场启动二.信息收集 1.寻找靶场真实IP地址 nmap -sP 192.168.2.0/24 arp-…

阅读更多...

介绍一下Lumina-T2X在哪些领域有应用

介绍一下Lumina-T2X在哪些领域有应用

接上文【文末附gpt升级方案】Lumina-T2X：大型扩散DiTs在多模态内容生成中的新篇章-CSDN博客 Lumina-T2X是一个创新的多模态内容生成模型，其应用领域广泛，特别是在需要生成多种类型媒体内容的应用场景中表现突出。以下是Lumina-T2X在主要领域…

阅读更多...

[AIGC] 什么是flink sql

[AIGC] 什么是flink sql

Apache Flink 是一个针对流数据和批数据的开源平台。Flink SQL 是 Flink 中的一个模块，它允许我们使用 SQL 语言来进行流处理和批处理，极大地简化了大数据处理的复杂度。 Flink SQL API 支持标准的 SQL 语言，包括 DDL（用于定义数…

阅读更多...

vue中实现动态点击事件名

vue中实现动态点击事件名

//首先是一个数组列表 data() {return {operationList: [{icon: ../../static/shebei.png,name: 全部设备,click: allDevice}, {icon: ../../static/guankong.png,name: 管控中,click: allDevice}, {icon: ../../static/lixian.png,name: 离线设备,click: allDevice}, {icon: .…

阅读更多...

列紧性推出紧性的证明

列紧性推出紧性的证明

参考中科大大佬笔记 http://home.ustc.edu.cn/~xuxuayame/documents/MAB3/Lec8.pdf 这个证明还是比较经典的，要用到两个引理度量空间上紧和列紧等价紧推出列紧一直都是可以的但度量空间才能满足列紧推出紧紧和列紧看上去毫不相关，因此紧推列紧主要…

阅读更多...

html中被忽略的简单标签

html中被忽略的简单标签

1： alt的作用是在图片不能显示时的提示信息 <img src"https://img.xunfei.cn/mall/dev/ifly-mall-vip- service/business/vip/common/202404071019208761.jp" alt"提示信息" width"100px" height"100px" /> 2&#…

阅读更多...

嵌入式进阶——震动马达

嵌入式进阶——震动马达

🎬 秋野酱：《个人主页》 🔥 个人专栏:《Java专栏》《Python专栏》 ⛺️心若有所向往,何惧道阻且长文章目录原理图控制分析功能设计原理图控制分析 S8050 NPN三极管特性 NPN型三极管的工作原理是基于PN结和PNP型晶体管的工作原理。当外…

阅读更多...

PyTorch设计哲学

PyTorch设计哲学

原文： https://pytorch.org/docs/stable/community/design.html PyTorch设计哲学总结设计原则可用性优先于性能 （usability over everything else） PyTorch的主要目标是可用性，次要目标是合理的性能。避免过早实施严格的用户…

阅读更多...

【qt】QTreeWidget 树形组件

【qt】QTreeWidget 树形组件

QTreeWidget 树形组件一.什么是树形组件二.界面设计树形组件三.代码实现1.清空2.设置列数3.设置头标签4.添加根目录①QTreeWidgetitem②设置文本③设置图标④添加为顶层目录 5.添加子目录①初始化为父目录②子目录添加到父目录③获取到子目录四.插入目录1.获取当前选中目录项…

阅读更多...

部署PIM-SM

部署PIM-SM

拓扑图配置使能组播路由配置OSPF 组播路由器接口配置pim-sm 连接组成员的接口使能igmp pim路由器上配置静态RP sysname AR1 # multicast routing-enable # interface GigabitEthernet0/0/0ip address 10.1.12.1 255.255.255.0 pim sm # interface GigabitEthernet0/0/…

阅读更多...

flutter项目运行报错Exception: Gradle task assembleDebug failed with exit code 1各种报错合集

flutter项目运行报错Exception: Gradle task assembleDebug failed with exit code 1各种报错合集

1.报错 Launching lib/main.dart on sdk gphone64 arm64 in debug mode... Running Gradle task assembleDebug... Exception in thread "main" java.net.ConnectException: Operation timed out at java.base/sun.nio.ch.Net.connect0(Native Method) at j…

阅读更多...

2024HVV面经整理（一）2024HVV面经整理（一）

2024HVV面经整理（一）2024HVV面经整理（一）

阅读更多...

云动态摘要 2024-05-26

云动态摘要 2024-05-26

给您带来云厂商的最新动态，最新产品资讯和最新优惠更新。最新优惠与活动 [免费试用]大模型知识引擎体验招募腾讯云 2024-05-21 大模型知识引擎产品全新上线，为回馈新老客户，50万token免费送，开通服务即领取！ 云服…

阅读更多...

【学习心得】回归任务的评估指标决定系数R^2

【学习心得】回归任务的评估指标决定系数R^2

一、决定系数是什么？ scikit-learn库在进行回归任务的时候，进行模型评估时的score()方法，默认采取的是计算的是决定系数（Coefficient of Determination），通常表示为得分。这个值衡量了模型预测值与实际观测…

阅读更多...

Vue3实时检测的录音功能

Vue3实时检测的录音功能

如果有人声并且大于20db，则开始录制。低于20db超过4秒，停止录制语音实时检测 <template><div class"auto-recorder"><canvas ref"canvas"></canvas><button click"toggleRecording" :disable…

阅读更多...

Mysql中的约束（常见约束、外键约束）

Mysql中的约束（常见约束、外键约束）

约束的定义约束就是对于数据库的表中字段，在某些性质上进行约束，以规范化字段或者实现一些功能。常见的约束首先我们先创建一个用于存储员工和所对应公司的数据库。 mysql> create database employee_company; Query OK, 1 row affected (0.01…

阅读更多...

【开源可视化报表设计器】借力实现高效率流程化办公！

【开源可视化报表设计器】借力实现高效率流程化办公！

进行数字化转型、实现流程化办公，这些应该是目前很多企业都想要实现的目标吧。那么，利用什么样的软件平台可以实现？低代码技术平台拥有可视化界面、灵活操作、好维护等众多优势特点，可以借助低代码技术平台、开源可视化报表设计器…

阅读更多...

游戏缺失steam_api64.dll的修复方法，快速解决游戏启动问题

游戏缺失steam_api64.dll的修复方法，快速解决游戏启动问题

在现代科技发展的时代，电脑已经成为我们生活中不可或缺的一部分。然而，在使用电脑的过程中，我们经常会遇到一些常见的问题，其中之一就是找不到某个特定的动态链接库文件，比如steamapi64.dll。这个问题可能会导致某些应…

阅读更多...

深度学习中的优化算法二（Pytorch 19）

深度学习中的优化算法二（Pytorch 19）

一梯度下降尽管梯度下降（gradient descent）很少直接用于深度学习，但了解它是理解下一节随机梯度下降算法的关键。例如，由于学习率过大，优化问题可能会发散，这种现象早已在梯度下降中出现。同样地&…

阅读更多...

最新文章