河北辛集住房和城乡建设厅网站/网络营销和传统营销的区别有哪些

河北辛集住房和城乡建设厅网站,网络营销和传统营销的区别有哪些,苏州园区住建委官方网站,wordpress小程序后台提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言5、强化学习课程大纲5.1 课程内容主:5.2 马尔可夫决策过程:5.2.1 马尔可夫性 markov propterty5.2.2 马尔可夫过程 markov process5.2.3…

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • 前言
  • 5、强化学习课程大纲
    • 5.1 课程内容主:
    • 5.2 马尔可夫决策过程:
      • 5.2.1 马尔可夫性 markov propterty
      • 5.2.2 马尔可夫过程 markov process
      • 5.2.3 马尔可夫`决策`过程 markov decision process
      • 5.2.4 `部分可观`马尔可夫`决策`过程 partially observable markov decision process
    • 5.3 model free
      • 5.3.1 model free
      • 5.3.2 Model-free policy evaluation
      • 5.3.3 Model-free control
    • 5.4 为什么马尔可夫假设这么受欢迎?


前言

第一节课的后半段其实就是一个马尔可夫的实际案例教学
在这里插入图片描述

5、强化学习课程大纲

在这里插入图片描述

5.1 课程内容主:

1 Markov Decision Processes & Planning
马尔可夫决策过程(MDP)是强化学习的基础数学模型。
计划(Planning)是指在已知环境模型下求解最优策略,例如值迭代、策略迭代。

2 Model-free Policy Evaluation
在没有环境模型的情况下,仅基于交互经验估计策略的价值。
包括:蒙特卡洛方法、时间差分(TD)方法等。

3 Model-free Control
不依赖环境模型,直接从经验中学习最优策略。
代表方法:Q-learning、SARSA、Deep Q-Network(DQN)等。

4 Policy Search
直接优化策略函数,而不是间接地通过值函数。
例如:策略梯度方法、REINFORCE、PPO、A3C 等。

5 Offline RL including RL from Human Feedback and Direct Preference Optimization
离线强化学习(Offline RL):从现有数据中学习策略,不再与环境交互。
RLHF(Reinforcement Learning from Human Feedback):结合人类偏好训练策略,例如 ChatGPT 的训练方式。
Direct Preference Optimization:基于人类偏好直接优化策略,而不是通过奖励函数。

6 Exploration
探索 vs. 利用问题(Exploration-Exploitation Tradeoff)。
涉及 ε-greedy、UCB、最大熵 RL(如 SAC)等探索策略。

7 Advanced Topics
高级主题:可能包括元学习、多智能体强化学习、安全强化学习、模仿学习、逆强化学习等前沿内容。

5.2 马尔可夫决策过程:

这玩意又称MDP: Markov decision process
M D P = ( S , A , P , R , γ ) MDP =(S, A, P, R, γ) MDP=(S,A,P,R,γ) 其中: S 是状态,A 是动作,P 是概率,R 是s状态下执行A的奖励的期望,γ 是折扣因子。
马尔可夫决策过程和过去无关,也就是说,当前状态 s 包含了做出决策所需的所有信息,与过去的状态和动作无关。

这里有个几个概念需要整理经常把人搞晕

5.2.1 马尔可夫性 markov propterty

如果某一状态信息包含了所有相关的历史,只要当前状态可知,所有的历史信息都不需要,未来只和当前状态有关,那么,该状态St具有马尔可夫性。
数学描述:
P ( S t + 1 ∣ S t , A t , S t − 1 , A t − 1 , . . . ) = P ( S t + 1 ∣ S t , A t ) ] P(S_{t+1} | S_t, A_t, S_{t-1}, A_{t-1}, ...) = P(S_{t+1}|S_t, A_t)] P(St+1St,At,St1,At1,...)=P(St+1St,At)]

5.2.2 马尔可夫过程 markov process

马尔可夫过程介于马尔可夫链和马尔可夫决策过程之间的概念。网上定义很多,这里我说下理解:马尔可夫过程是一个具有马尔可夫性质的随机过程动态系统模型,他描述了状态如何随时间转移,但不设计动作(action)或奖励(reward)。
我在网上查到的信息总结下来就是:马尔可夫过程≈马尔可夫链。但是有细微区别,可以忽略不计
差异如下:

马尔可夫过程马尔可夫链
学术用语更抽象侧重应用一个具体的案例
表达形式强调状态过程桥电工转移图或概率矩阵
应用理论分析和数学模型多用于建模或者工程问题
是否包含动作/奖励不包含不包含

所以可以理解为马尔可夫链 < = <= <=马尔可夫过程

5.2.3 马尔可夫决策过程 markov decision process

这里我就懵了,怎么又搞个决策那么就和马尔可夫过程进行对比:

马尔可夫过程马尔可夫决策过程
当前和未来状态
状态转移概率(或概率矩阵)
当前动作动作没有
奖励没有没有
策略或者控制没有

目前就很容易看出来马尔可夫决策过程就是基于这种马尔可夫过程加入了动作以及动作对应的奖励并可以解决智能体奖励最大化的问题。

5.2.4 部分可观马尔可夫决策过程 partially observable markov decision process

部分客观马尔可夫决策过程是强化学习序列决策中非常重要的一个扩展模型。很容易看到部分可观马尔可夫首先是基于马尔可夫过程,但是优势部分客观,这个非常符合我们日常遇到的我们不能完全观测到全部信息,只能是通过观察到的信息做决策。
部分可观马尔可夫决策过程 叫 POMDP。POMDP= (S, A, P, R, γ,O, Z)

S状态空间
A动作
P状态转移概率
R奖励
γ折扣因子
O观察空间
Z观察概率函数

这里的智能体由于看不到真实状态,必须有一个信念(belief)其实我认为是一个经验或者先验概率,假设我们有状态s 到 s’ 那么有:
b t ( s ′ ) = P ( S t = s ′ ∣ O 1 : t , A 1 : t − 1 ) b_t(s') = P(S_t = s'|O_{1:t}, A_{1:t-1}) bt(s)=P(St=sO1:t,A1:t1)
= η ⋅ P ( O t ∣ s ′ , A t − 1 ) ​ ⋅ P ( s ′ ∣ s t − 1 , A t − 1 ) ⋅ b t − 1 ( s ) = \eta ⋅P( O_t|s', A_{t-1})​⋅{P(s'|s_{t-1}, A_{t-1})}⋅b_{t-1}(s) =ηP(Ots,At1)P(sst1,At1)bt1(s)
这里是在执行 A t − 1 A_{t-1} At1动作后,达到状态 S t S_t St并进行观察 O t O_t Ot。只有 action 即A是 t-1其他都是 t时刻的。可以这样记忆:先动作,再状态转移,再观测

5.3 model free

这里提到了 model free 和 model-free policy
其中的 model 指环境中的动态模型,即状态转移概率P(s’ | s, a) 和奖励函数R(s, a)。

5.3.1 model free

顾名思义
Model-based RL(有模型的强化学习):假设你可以访问或学到这个环境模型,可以用它来做模拟、规划或预测未来。
Model-free RL(无模型的强化学习):不需要知道或学习环境的转移概率或奖励模型,智能体只通过与环境交互、观察到的状态、动作和奖励来学习策略或价值函数。
为什么要用model-free
在很多现实世界中,环境是未知的、复杂的或无法建模(如游戏、机器人环境)。
model-free 方法更“黑盒”,但能直接从经验中学习——比如你玩游戏,只管操作,不用知道游戏引擎内部规则。

5.3.2 Model-free policy evaluation

目标:在没有已知模型的情况下,估计某个策略的价值函数
常用方法:
蒙特卡洛方法(Monte Carlo)
时序差分法(TD learning)
后面会高明白

5.3.3 Model-free control

目标:在不依赖模型的情况下直接学习最优策略或最优 Q 函数。

代表方法:
Q-learning
SARSA
Deep Q-Network (DQN)
Actor-Critic 系列算法(如 A2C, PPO)
后面会高明白

5.4 为什么马尔可夫假设这么受欢迎?

在这里插入图片描述
马尔可夫假设之所以流行,是因为它足够简单,可以近似成立,并且能带来高效的算法推理和实现优势。我们只要合理设计状态表示,就能在多数场景中享受其带来的计算与建模便利。


后面的课程就是一个马尔可夫实际case不如结结实实得将马尔可夫写个代码来一遍。我就不按照课程视频讲解(真的比较烂不如伯克利的那个课程)


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/73989.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第 26 场 蓝桥月赛 部分题解

第 26 场 蓝桥月赛 2.灯笼猜谜3.元宵分配4.摆放汤圆5.元宵交友&#xff08;运行超时 通过90%&#xff09; 2.灯笼猜谜 分析&#xff1a;以当前位置为视角&#xff0c;要想移动的距离尽可能的少&#xff0c;按顺序猜谜语&#xff0c;给你一个区间&#xff0c;有三种情况&#xf…

JAVA实战开源项目:体育馆使用预约平台(Vue+SpringBoot) 附源码

本文项目编号 T 144 &#xff0c;文末自助获取源码 \color{red}{T144&#xff0c;文末自助获取源码} T144&#xff0c;文末自助获取源码 目录 一、系统介绍二、数据库设计三、配套教程3.1 启动教程3.2 讲解视频3.3 二次开发教程 四、功能截图五、文案资料5.1 选题背景5.2 国内…

深度学习之卷积

从全连接到卷积 MLP的缺陷&#xff0c;假设有如下的场景&#xff1a; 分类猫和狗的图片 使用一个还不错的相机采集图片&#xff08;12M像素)RGB图片有 36M元素使用100大小的单隐藏层MLP&#xff0c;模型有 3.6B元素 远多于世界上所有猫和狗总数(900M狗&#xff0c;600M猫) …

目标识别与双目测距(1)环境搭建:Ubuntu+yolov5+pcl库

环境情况 ubuntu 18.04 → 20.04&#xff08;最终&#xff09; 安装Ubuntu1804虚拟机系统 Anaconda&#xff1a;可参考我的另一篇文章 Python 3.6.13 → 3.8&#xff08;最终&#xff09;Anaconda3-2021.05 目标识别&#xff1a;YOLOv5相关 1、安装git sudo apt install gi…

LinuxTCP/UDP基础概念

TCP&#xff08;传输控制协议&#xff09; TCP 是一种面向连接的、可靠的、基于字节流的传输层通信协议。它的主要特点包括&#xff1a; 面向连接&#xff1a;在传输数据之前&#xff0c;需要通过“三次握手”建立连接&#xff1b;传输结束后&#xff0c;通过“四次挥手”断开…

人工智能通识速览一(神经网络)(编辑中)

上篇&#xff1a;人工智能通识速览一&#xff08;机器学习&#xff09; 人工智能通识速览一&#xff08;机器学习&#xff09;&#xff08;编辑中&#xff09;-CSDN博客https://blog.csdn.net/siper12138/article/details/146512068?sharetypeblogdetail&sharerId1465120…

【数据标准】数据标准化框架体系-基础类数据标准

导读&#xff1a;数据标准化的四大基础类标准&#xff08;业务术语、业务规则、命名规范、代码标准&#xff09;是企业数据治理的核心支柱。主要作用体现在​消除业务与技术间的语义鸿沟​&#xff08;通过统一术语与命名规范&#xff09;&#xff0c;​保障数据全生命周期的质…

可发1区的超级创新思路(python\matlab实现):MPTS+Lconv+注意力集成机制的Transformer时间序列模型

首先声明,该模型为原创!原创!原创!且该思路还未有成果发表,感兴趣的小伙伴可以借鉴! 应用场景 该模型主要用于时间序列数据预测问题,包含功率预测、电池寿命预测、电机故障检测等等。 一、模型整体架构(本文以光伏功率预测为例) 本模型由多尺度特征提取模块(MPTS)…

红宝书第二十一讲:详解JavaScript的模块化(CommonJS与ES Modules)

红宝书第二十一讲&#xff1a;详解JavaScript的模块化&#xff08;CommonJS与ES Modules&#xff09; 资料取自《JavaScript高级程序设计&#xff08;第5版&#xff09;》。 查看总目录&#xff1a;红宝书学习大纲 一、模块化的意义&#xff1a;分而治之 模块化解决代码依赖混…

非手性分子发光有妙招:借液晶之力,实现高不对称圆偏振发光

*本文只做阅读笔记分享* 一、圆偏振发光研究背景与挑战 圆偏振发光&#xff08;CPL&#xff09;材料在3D显示、光电器件等领域大有用处&#xff0c;衡量它的一个重要指标是不对称发光因子&#xff08;glum&#xff09;。早期CPL材料的glum值低&#xff0c;限制了实际应用。为…

MySQL数据库精研之旅第五期:CRUD的趣味探索(上)

专栏&#xff1a;MySQL数据库成长记 个人主页&#xff1a;手握风云 目录 一、CRUD简介 二、Create新增 2.1. 语法 2.2. 示例 三、Retrieve检索 3.1. 语法 3.2. 示例 一、CRUD简介 CURD是对数据库中的记录进行基本的增删改查操作&#xff1a;Create(创建)、Retrieve(检索…

【银河麒麟系统常识】需求:安装.NET SDK

前提 网络状态正常(非离线安装)&#xff1b; 终端命令如下所示 根据不同系统的版本&#xff0c;自行选择&#xff0c;逐行执行即可&#xff1b; # 基于 Ubuntu/Debian 的银河麒麟系统 wget https://packages.microsoft.com/config/ubuntu/20.04/packages-microsoft-prod.deb -O…

行业智能体大爆发,分布式智能云有解

Manus的一夜爆红&#xff0c;在全球范围内引爆关于AI智能体的讨论。 与过去一般的AI助手不同&#xff0c;智能体&#xff08;AI Agent&#xff09;并非只是被动响应&#xff0c;而是主动感知、决策并执行的应用。Gartner预测&#xff0c;到2028年&#xff0c;15%的日常工作决策…

工作记录 2017-03-13

工作记录 2017-03-13 序号 工作 相关人员 1 修改邮件上的问题。 开始处理操作日志部分。 测试了C#和MySql的连接。 更新RD服务器。 郝 更新的问题 1、 修改了CMS1500的打印&#xff0c;NDC的内容用了小的字体。 2、在Cliams List中可以查看Job的Notes。 3、Payment Po…

Codeforces Round 1014 (Div. 2)(A-D)

题目链接&#xff1a;Dashboard - Codeforces Round 1014 (Div. 2) - Codeforces A. Kamilka and the Sheep 思路 最大值-最小值 代码 void solve(){int n;cin>>n;vi a(n10);int mx0;int miinf;for(int i1;i<n;i){cin>>a[i];mimin(mi,a[i]);mxmax(mx,a[i])…

[操作系统,学习记录]3.进程(2)

1.fork(); 玩法一&#xff1a;通过返回值if&#xff0c;else去执行不同的代码片段 玩法二&#xff1a;if&#xff0c;else然后调用execve函数去执行新的程序 2.进程终止&#xff1a; 退出码&#xff0c;子进程通过exit/return返回&#xff0c;父进程wait/waitpid等待而得&am…

Masked Attention 在 LLM 训练中的作用与原理

在大语言模型&#xff08;LLM&#xff09;训练过程中&#xff0c;Masked Attention&#xff08;掩码注意力&#xff09; 是一个关键机制&#xff0c;它决定了 模型如何在训练时只利用过去的信息&#xff0c;而不会看到未来的 token。这篇文章将帮助你理解 Masked Attention 的作…

css选择最后结尾的元素DOM

前言 选中最后一个元素&#xff0c;实际使用非常频繁。 解决方案 使用 CSS 提供的选择器&#xff0c;即可完成。 如下代码示例&#xff0c;两种选择器均可实现。 <p>...</p>p:last-child{ background:#ff0000; }p:nth-last-child(1){background:#ff0000; }p&…

瑞芯微RKRGA(librga)Buffer API 分析

一、Buffer API 简介 在瑞芯微官方的 librga 库的手册中&#xff0c;有两组配置 buffer 的API&#xff1a; importbuffer 方式&#xff1a; importbuffer_virtualaddr importbuffer_physicaladdr importbuffer_fd wrapbuffer 方式&#xff1a; wrapbuffer_virtualaddr wrapb…

Linux线程池实现

1.线程池实现 全部代码&#xff1a;whb-helloworld/113 1.唤醒线程 一个是唤醒全部线程&#xff0c;一个是唤醒一个线程。 void WakeUpAllThread(){LockGuard lockguard(_mutex);if (_sleepernum)_cond.Broadcast();LOG(LogLevel::INFO) << "唤醒所有的休眠线程&q…