Value-Based Reinforcement Learning(1)

Action-Value Functions

Discounted Return(未来的reward,由于未来存在不确定性,所以未来的reward 要乘以\gamma进行打折)

U_{t} = R_t +\gamma R_{t+1} +\gamma ^2R_{t+2} + \gamma^3R_{t+3} + ...

这里的U_t依赖actions A_{t},A_{t+1},A_{t+2},...,和states S_{t},S_{t+1},S_{t+2},...

这里

Policy Function : \pi (a|s) = P[A=a|S=s]   ,表达了action的随机性

State Transition : p(s^{'}|s,a) = P[S^{'}=s^{'}|S = s,A=a],表达了转移状态的随机性

由于存在action,和state随机性,现在想消除随机性,可以求U_{t}的数学期望:

Action-Value Function: Q_\pi (s_t, a_t) = E[U_t|S_t=s_t, A_t=a_t] ,在当前策略\pi下,状态s_ta_t的回报

Optimal Action-Value Function : Q^{*}(s_t, a_t) = max \pi Q_\pi (s_t, a_t)

Q^{*}可以给任意的动作打分,agent可以根据Q^{*}的打分,做最有利的动作

Deep Q-Network (DQN)

如果我们知道了Q^{*},那么每一步最好的动作a^{*} = argmax aQ^{*}(s,a)

DQN的目的就是近似Q^{*},即神经网络Q(s,a;w)近似Q^{*}(s,a)

流程如下:s_t -> a_t(DQN给出) ->s_{t+1} (State Transition)   -> a_{t+1}(DQN给出)

                                                 ->r_t(监督回报,用来训练DQN)

以此类推

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/16329.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

创新实训2024.05.26日志:服务端接口实现——用户开启多个会话

1. 概念图 类似于Kimi,文心一言,chatGPT等市面上主流的大模型,我们的大模型也支持同一个用户的多个会话,并且提供支持联系上下文给出解答的能力。 2. 基于会话的对话 在langchain chatchat这个对langchain框架进行二次封装的第三…

vulnhub靶场之FunBox-8

一.环境搭建 1.靶场描述 Its a box for beginners and can be pwned in the lunch break. This works better with VirtualBox rather than VMware 2.靶场下载 Funbox: Lunchbreaker ~ VulnHub 3.靶场启动 二.信息收集 1.寻找靶场真实IP地址 nmap -sP 192.168.2.0/24 arp-…

介绍一下Lumina-T2X在哪些领域有应用

接上文【文末附gpt升级方案】Lumina-T2X:大型扩散DiTs在多模态内容生成中的新篇章-CSDN博客 Lumina-T2X是一个创新的多模态内容生成模型,其应用领域广泛,特别是在需要生成多种类型媒体内容的应用场景中表现突出。以下是Lumina-T2X在主要领域…

[AIGC] 什么是flink sql

Apache Flink 是一个针对流数据和批数据的开源平台。Flink SQL 是 Flink 中的一个模块,它允许我们使用 SQL 语言来进行流处理和批处理,极大地简化了大数据处理的复杂度。 Flink SQL API 支持标准的 SQL 语言,包括 DDL(用于定义数…

vue中实现动态点击事件名

//首先是一个数组列表 data() {return {operationList: [{icon: ../../static/shebei.png,name: 全部设备,click: allDevice}, {icon: ../../static/guankong.png,name: 管控中,click: allDevice}, {icon: ../../static/lixian.png,name: 离线设备,click: allDevice}, {icon: .…

列紧性推出紧性的证明

参考中科大大佬笔记 http://home.ustc.edu.cn/~xuxuayame/documents/MAB3/Lec8.pdf 这个证明还是比较经典的,要用到两个引理 度量空间上 紧和列紧等价 紧推出列紧一直都是可以的 但度量空间才能满足列紧推出紧 紧和列紧看上去毫不相关,因此紧推列紧主要…

html中被忽略的简单标签

1&#xff1a; alt的作用是在图片不能显示时的提示信息 <img src"https://img.xunfei.cn/mall/dev/ifly-mall-vip- service/business/vip/common/202404071019208761.jp" alt"提示信息" width"100px" height"100px" /> 2&#…

嵌入式进阶——震动马达

&#x1f3ac; 秋野酱&#xff1a;《个人主页》 &#x1f525; 个人专栏:《Java专栏》《Python专栏》 ⛺️心若有所向往,何惧道阻且长 文章目录 原理图控制分析功能设计 原理图 控制分析 S8050 NPN三极管特性 NPN型三极管的工作原理是基于PN结和PNP型晶体管的工作原理。 当外…

PyTorch设计哲学

原文&#xff1a; https://pytorch.org/docs/stable/community/design.html PyTorch设计哲学总结 设计原则 可用性优先于性能 &#xff08;usability over everything else&#xff09; PyTorch的主要目标是可用性&#xff0c;次要目标是合理的性能。避免过早实施严格的用户…

【qt】QTreeWidget 树形组件

QTreeWidget 树形组件 一.什么是树形组件二.界面设计树形组件三.代码实现1.清空2.设置列数3.设置头标签4.添加根目录①QTreeWidgetitem②设置文本③设置图标④添加为顶层目录 5.添加子目录①初始化为父目录②子目录添加到父目录③获取到子目录 四.插入目录1.获取当前选中目录项…

部署PIM-SM

拓扑图 配置 使能组播路由 配置OSPF 组播路由器接口配置pim-sm 连接组成员的接口使能igmp pim路由器上配置静态RP sysname AR1 # multicast routing-enable # interface GigabitEthernet0/0/0ip address 10.1.12.1 255.255.255.0 pim sm # interface GigabitEthernet0/0/…

flutter项目运行报错Exception: Gradle task assembleDebug failed with exit code 1各种报错合集

1.报错 Launching lib/main.dart on sdk gphone64 arm64 in debug mode... Running Gradle task assembleDebug... Exception in thread "main" java.net.ConnectException: Operation timed out at java.base/sun.nio.ch.Net.connect0(Native Method) at j…

云动态摘要 2024-05-26

给您带来云厂商的最新动态&#xff0c;最新产品资讯和最新优惠更新。 最新优惠与活动 [免费试用]大模型知识引擎体验招募 腾讯云 2024-05-21 大模型知识引擎产品全新上线&#xff0c;为回馈新老客户&#xff0c;50万token免费送&#xff0c;开通服务即领取&#xff01; 云服…

【学习心得】回归任务的评估指标决定系数R^2

一、决定系数是什么&#xff1f; scikit-learn库在进行回归任务的时候&#xff0c;进行模型评估时的score()方法&#xff0c;默认采取的是计算的是决定系数&#xff08;Coefficient of Determination&#xff09;&#xff0c;通常表示为得分。这个值衡量了模型预测值与实际观测…

Vue3实时检测的录音功能

如果有人声并且大于20db&#xff0c;则开始录制。低于20db超过4秒&#xff0c;停止录制 语音实时检测 <template><div class"auto-recorder"><canvas ref"canvas"></canvas><button click"toggleRecording" :disable…

Mysql中的约束(常见约束、外键约束)

约束的定义 约束就是对于数据库的表中字段&#xff0c;在某些性质上进行约束&#xff0c;以规范化字段或者实现一些功能。 常见的约束 首先我们先创建一个用于存储员工和所对应公司的数据库。 mysql> create database employee_company; Query OK, 1 row affected (0.01…

【开源可视化报表设计器】借力实现高效率流程化办公!

进行数字化转型、实现流程化办公&#xff0c;这些应该是目前很多企业都想要实现的目标吧。那么&#xff0c;利用什么样的软件平台可以实现&#xff1f;低代码技术平台拥有可视化界面、灵活操作、好维护等众多优势特点&#xff0c;可以借助低代码技术平台、开源可视化报表设计器…

游戏缺失steam_api64.dll的修复方法,快速解决游戏启动问题

在现代科技发展的时代&#xff0c;电脑已经成为我们生活中不可或缺的一部分。然而&#xff0c;在使用电脑的过程中&#xff0c;我们经常会遇到一些常见的问题&#xff0c;其中之一就是找不到某个特定的动态链接库文件&#xff0c;比如steamapi64.dll。这个问题可能会导致某些应…

深度学习中的优化算法二(Pytorch 19)

一 梯度下降 尽管梯度下降&#xff08;gradient descent&#xff09;很少直接用于深度学习&#xff0c;但了解它是理解下一节 随机梯度下降算法 的关键。例如&#xff0c;由于学习率过大&#xff0c;优化问题可能会发散&#xff0c;这种现象早已在梯度下降中出现。同样地&…