强化学习算法总结 (1)

news/2025/4/15 10:54:29/文章来源:https://blog.csdn.net/qq_44600017/article/details/132677857

强化学习算法总结 (1)

1.综述

强化学习是通过与环境进行交互，来实现目标的一种计算方法。
$s - a_1 - r- s'$

1.1强化学习优化目标

$policy= argmax_{policy} E_{(a,s)}[reward(s,a)]$

强化学习的最终目标是最大化智能体策略在和环境交互中获得的reward。通过改变策略来调整智能体和环境交互数据的分布。

1.2 平衡与探索

策略告诉我们应该采取哪些动作，同时也要对新的策略进行探索。

这里引入一个概念为懊悔值，当前动作a的收益与最优结果的差距

$\epsilon - greedy$

策略
$\epsilon \\ a_t = aegmaxQ（a）\\ else:\\ 随机策略$
但是结果来看积累的懊悔值是和和时间成正比的，因为随机拉杆的探索概率是固定的

上置信界法UCB

$a_t = argmax_\alpha [Q(A)]$

汤普森采样

2. 马尔科夫决策过程

MDP：利用当前已知的信息就可以决定未来

采样：根据状态转移矩阵生成一个状态序列 $s_1 -> s_2 -> ...-> s_n$

2.1 马尔科夫奖励过程

在决策过程中加入了奖励函数r和折扣因子，形成了马尔科夫奖励过程 $<S,P,r,\gamma>$ ,状态集合，状态转移矩阵，奖励函数，折扣因子
$G_t = R_t+ \gamma R_{t+1}... = \sum \gamma^k R_{t+k}$

价值函数
$E[G_t |S_t =s]\\我们把G_t 拆开R_t +\gamma V(s_{t+1}) 而后面的E(\gamma V(s_{t+1}|s_t =s)) 用状态转移函数表示\\V(s) = r(s) +\gamma\sum P(s'|s)V(s')$

只适用于规模比较小的马尔科夫过程计算价值函数，不然使用 MC，TD，动态规划等算法

2.2 马尔科夫决策过程

MDP;<S,A,P,r, $\gamma$ >:这里不再使用状态转移矩阵，而是状态转移函数

S:状态合集
A:动作合集
$\gamma$ :折扣因子
r(s,a)：奖励函数，收到了s和a影响
P(s’|s,a)：状态转移函数

策略： $\pi(a|s) = P(A_t = a| S_t =s)$ :表示当前状态下，采取这个策略a的概率。如果是一个随机策略，输出是关于动作的概率分布函数

状态价值函数
$V^{\pi} = E_{\pi}[G_t | S_t = s]$
当前状态下，预计未来的收益
动作价值函数
$Q^{\pi}(s,a) = E_\pi[G_t | S_t = s ,A_t =a]$
在遵循当前策略下，执行动作a的收益

$V^\pi(s) = \sum\pi(a|s) Q^\pi (s,a)$

贝尔曼期望方程

$Q^\pi (s,a) = E_\pi[R_t+\gamma Q^\pi(s',a')|S_t= s,A_t = a] \\= r(s,a) +\gamma\sum V(s') \\= r(s,a) +\gamma\sum P(s'|a,s)\sum \pi(a'|s')Q^\pi(s',a')$

$V^\pi(s) = E_\pi[R_t+\gamma V^\pi(s')|S_t = s] =\\\sum\pi(a|s)(r(s,a)+\gamma\sum P(s'|s,a)V^\pi(s'))$

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/67978.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

CSS实现隐藏滚动条但可以滚动

CSS实现隐藏滚动条但可以滚动

场景隐藏滚动条，但可以滚动解决全局样式 /* 隐藏滚动条 */ .outer-container::-webkit-scrollbar {width: 0; /* 设置滚动条的宽度为0 */background-color: transparent; /* 设置滚动条背景为透明 */ }/* 自定义滚动条轨道样式 */ .outer-container::-webkit…

阅读更多...

day37:网编day4，多点通信和并发服务器

day37:网编day4，多点通信和并发服务器

一、广播接收方： #include <myhead.h>#define ERR_MSG(msg) do{\ fprintf(stderr,"__%d__\n",__LINE__);\ perror(msg);\ }while(0)#define BRD_IP "192.168.114.255" #define BRD_PORT 8888int main(int argc, const char *argv[]) {//…

阅读更多...

three.js 场景中如何彻底删除模型和性能优化

three.js 场景中如何彻底删除模型和性能优化

three.js 场景中如何彻底删除模型和性能优化删除外部模型在three.js场景中，要彻底删除外部模型，需要执行以下几个步骤： 从场景中移除模型你可以使用 scene.remove(model) 或者 scene.remove(model.children[0]) 将模型从场景中移除。如果…

阅读更多...

【⑰MySQL】变量 | 循环 | 游标 | 处理程序

【⑰MySQL】变量 | 循环 | 游标 | 处理程序

前言 ✨欢迎来到小K的MySQL专栏，本节将为大家带来MySQL变量 | 循环 | 游标 | 处理程序的分享✨ 目录前言1. 变量1.1系统变量1.2 用户变量 2. 定义条件与处理程序2.1 案例分析2.2 定义条件2.3 定义处理程序2.4 案例解决 3. 流程控制3.1 分支结构3.2 循环结构3.3 跳转…

阅读更多...

ELK安装、部署、调试（八）logstash配置语法详解

ELK安装、部署、调试（八）logstash配置语法详解

input {#输入插件 }filter {#过滤插件 }output {#输出插件 } 1.读取文件。使用filewatch的ruby gem库来监听文件变化，并通过.sincedb的数据库文件记录被监听日志we年的读取进度（时间搓） 。sincedb数据文件的默认路径为<path.data>/…

阅读更多...

sentinel-core

sentinel-core

引入依赖<dependencies><dependency><groupId>com.alibaba.csp</groupId><artifactId>sentinel-core</artifactId></dependency><dependency><groupId>com.alibaba.csp</groupId><artifactId>sentinel-anno…

阅读更多...

Revit SDK 介绍：DWGFamilyCreation 导入DWG

Revit SDK 介绍：DWGFamilyCreation 导入DWG

前言这个例子介绍了如何导入 DWG。内容核心逻辑代码： // 设置导入选项 DWGImportOptions options new DWGImportOptions(); options.Placement Autodesk.Revit.DB.ImportPlacement.Origin; options.OrientToView true; ElementId elementId null; // 导入…

阅读更多...

【Vue2.0源码学习】生命周期篇-初始化阶段(initInjections)

【Vue2.0源码学习】生命周期篇-初始化阶段(initInjections)

文章目录 1. 前言2. initInjections函数分析resolveInject函数分析 3. 总结 1. 前言本篇文章介绍生命周期初始化阶段所调用的第四个初始化函数——initInjections。从函数名字上来看，该函数是用来初始化实例中的inject选项的。说到inject选项，那必然离…

阅读更多...

labview卸载重装碰到的问题

labview卸载重装碰到的问题

目录 labeiw卸载重装过程当中总是碰到一些问题，记录一下解决办法，碰到后好查找。个人推荐卸载用laview自带的卸载软件进行卸载，卸载的比较干净。卸载完全第一步启动 labview自带的卸载软件进行卸载。一般进行完这一步，就…

阅读更多...

设计模式-9--迭代器模式（Iterator Pattern）

设计模式-9--迭代器模式（Iterator Pattern）

一、什么是迭代器模式迭代器模式（Iterator Pattern）是一种行为型设计模式，用于提供一种统一的方式来访问一个聚合对象中的各个元素，而不需要暴露该聚合对象的内部结构。迭代器模式将遍历集合的责任从集合对象中分离出来&#xf…

阅读更多...

【深入解析spring cloud gateway】07 自定义异常返回报文

【深入解析spring cloud gateway】07 自定义异常返回报文

Servlet的HttpResponse对象，返回响应报文，一般是这么写的，通过输出流直接就可以将返回报文输出。 OutputStream out response.getOutputStream(); out.write("输出的内容"); out.flush();在filter中如果发生异常（例如…

阅读更多...

Java中的网络编程------基于Socket的TCP编程和基于UDP的网络编程，netstat指令

Java中的网络编程------基于Socket的TCP编程和基于UDP的网络编程，netstat指令

Socket 在Java中，Socket是一种用于网络通信的编程接口，它允许不同计算机之间的程序进行数据交换和通信。Socket使得网络应用程序能够通过TCP或UDP协议在不同主机之间建立连接、发送数据和接收数据。以下是Socket的基本介绍： Socket类型&…

阅读更多...

1775_树莓派3B键盘映射错误解决

1775_树莓派3B键盘映射错误解决

全部学习汇总： GitHub - GreyZhang/little_bits_of_raspberry_pi: my hacking trip about raspberry pi. 入手树莓派3B之后用了没有多长时间，最初的这段时间感觉想让它代替我的PC机是不肯能的。性能先不说，我完全没有找到当初在我的笔记本上使…

阅读更多...

css网格布局

css网格布局

css网格布局常用属性 display: grid; //开启网格grid-template-columns: 2fr 1fr 1fr 1fr 1fr; //设置多少列每列宽度grid-gap: 10px; // 设置表格之间间距grid-template-rows: 50px 50px 50px 50px; // 设置多少行每行的高度grid-column : 1 //占据位置占据1格grid-colu…

阅读更多...

ChatGPT分析日本排放核污水对世界的影响

ChatGPT分析日本排放核污水对世界的影响

文章目录 1 背景2 环境影响3 健康影响4 国际关系影响5 应对措施近段时间被日本排放核污水到海里的消息刷屏了，这一举措引发了广泛的关注和担忧。本文结合ChatGPT来分析这件事的前因后果、会对世界造成的影响、以及应对措施。 1 背景受2011年发生的大地震及海啸影响…

阅读更多...

机器人中的数值优化（九）——拟牛顿方法（下）、BB方法

机器人中的数值优化（九）——拟牛顿方法（下）、BB方法

本系列文章主要是我在学习《数值优化》过程中的一些笔记和相关思考，主要的学习资料是深蓝学院的课程《机器人中的数值优化》和高立编著的《数值最优化方法》等，本系列文章篇数较多，不定期更新，上半部分介绍无约束优化，…

阅读更多...

某物联网数智化园区行业基于 KubeSphere 的云原生实践

某物联网数智化园区行业基于 KubeSphere 的云原生实践

公司简介作为物联网数智化园区一体化解决方案提供商，我们致力于为大中型园区、停车场提供软硬件平台，帮助园区运营者实现数字化、智能化运营。在使用 K8s 之前我们使用传统的方式部署上线，使用 spug（一款轻量级无 Agent 的自…

阅读更多...

网络版五子棋C++实现

网络版五子棋C++实现

目录 1.项目介绍 2.开发环境 3.核心技术 4.环境搭建 5.WebSocketpp介绍 5.1WebSocketpp是什么 5.2为什么使用WebSocketpp 5.3原理解析： 5.4WebSocketpp主要特性 6.WebSocketpp使用 7.JsonCpp使用 8.MySQL API 9.项目模块设计以及流程图 10.封装日志宏…

阅读更多...

NewStarCTF 2022 web方向题解 wp

NewStarCTF 2022 web方向题解 wp

----------WEEK1---------- BUU NewStarCTF 公开赛赛道 WEEK1 [NotPHP] 先看题目，要传参加绕过。分析一下代码：首先get一个datadata://test/plain,Wel…。然后key1和2用数组可以绕过。num2077a可以绕过弱类型。eval()中的php语句被#注释了&#xff0c…

阅读更多...

【jvm】jvm系统线程

【jvm】jvm系统线程

目录一、虚拟机线程二、周期任务线程三、GC线程四、编译线程五、信号调度线程一、虚拟机线程 1.这种线程的操作是需要jvm达到安全点才会出现 2.这些操作必须在不同的线程中发生的原因是它们都需要jvm达到安全点，这样堆才不会变化 3.这种线程的执行类型包括stop-th…

阅读更多...

最新文章