基于“蘑菇书”的强化学习知识点(五):条件期望

条件期望

    • 摘要
    • 一、条件期望的定义
    • 二、条件期望的关键性质
    • 三、条件期望的直观理解
    • 四、条件期望的应用场景
    • 五、简单例子
      • 离散情况
      • 连续情况

摘要

本系列知识点讲解基于蘑菇书EasyRL中的内容进行详细的疑难点分析!具体内容请阅读蘑菇书EasyRL!


对应蘑菇书EasyRL——2.2.2 贝尔曼方程


条件期望 是概率论中的一个核心概念,表示在给定某个条件的情况下,随机变量的期望值。条件期望不仅是一个数值,还可能是另一个随机变量。下面是条件期望的定义和具体解释。


一、条件期望的定义

对于两个随机变量 X X X Y Y Y

  1. 离散情况:
    如果 X X X Y Y Y 是离散随机变量,则 X X X 在给定 Y = y Y=y Y=y 的条件下的条件期望定义为:
    E [ X ∣ Y = y ] = ∑ x x ⋅ P ( X = x ∣ Y = y ) . \mathbb{E}[X \mid Y=y] = \sum_x x \cdot P(X=x \mid Y=y). E[XY=y]=xxP(X=xY=y).

    • P ( X = x ∣ Y = y ) P(X=x \mid Y=y) P(X=xY=y) 是条件概率,表示在 Y = y Y=y Y=y 的情况下, X = x X=x X=x 的概率。
    • E [ X ∣ Y = y ] \mathbb{E}[X \mid Y=y] E[XY=y] 是一个数,表示在 Y = y Y=y Y=y 时,随机变量 X X X 的期望值。
  2. 连续情况:
    如果 X X X Y Y Y 是连续随机变量,则 X X X 在给定 Y = y Y=y Y=y 的条件下的条件期望定义为:
    E [ X ∣ Y = y ] = ∫ − ∞ + ∞ x ⋅ f X ∣ Y ( x ∣ y ) d x , \mathbb{E}[X \mid Y=y] = \int_{-\infty}^{+\infty} x \cdot f_{X \mid Y}(x \mid y) \, dx, E[XY=y]=+xfXY(xy)dx,

    • f X ∣ Y ( x ∣ y ) f_{X \mid Y}(x \mid y) fXY(xy) 是条件概率密度函数。
    • 该积分表示在 Y = y Y=y Y=y 的条件下,随机变量 X X X 的加权平均值。
  3. 随机变量形式:
    Y Y Y 不是固定值,而是一个随机变量时,条件期望 E [ X ∣ Y ] \mathbb{E}[X \mid Y] E[XY] 被看作是一个关于 Y Y Y 的新随机变量,其值依赖于 Y Y Y

    直观来说, E [ X ∣ Y ] \mathbb{E}[X \mid Y] E[XY] 表示在已知 Y Y Y 的情况下, X X X 的期望值。它是一个函数:
    E [ X ∣ Y ] = g ( Y ) , \mathbb{E}[X \mid Y] = g(Y), E[XY]=g(Y),
    其中 (g(Y)) 是某个由 (Y) 确定的函数。


二、条件期望的关键性质

  1. 期望的分解(全期望公式):
    E [ X ] = E [ E [ X ∣ Y ] ] . \mathbb{E}[X] = \mathbb{E}[\mathbb{E}[X \mid Y]]. E[X]=E[E[XY]].
    这是条件期望最重要的性质,表明我们可以通过先计算条件期望,再对条件变量 Y Y Y 求期望,得到整体期望。

  2. 线性性:
    条件期望是线性的:
    E [ a X + b Y ∣ Z ] = a E [ X ∣ Z ] + b E [ Y ∣ Z ] , \mathbb{E}[aX + bY \mid Z] = a \mathbb{E}[X \mid Z] + b \mathbb{E}[Y \mid Z], E[aX+bYZ]=aE[XZ]+bE[YZ],
    其中 a a a b b b 是常数。

  3. 塔式性质(Law of Iterated Expectations):
    如果 X X X Y Y Y Z Z Z 是随机变量,且 Z Z Z 包含的条件比 Y Y Y 多,那么:
    E [ E [ X ∣ Y ] ∣ Z ] = E [ X ∣ Z ] . \mathbb{E}[\mathbb{E}[X \mid Y] \mid Z] = \mathbb{E}[X \mid Z]. E[E[XY]Z]=E[XZ].

  4. 条件期望约简:
    如果 X X X Y Y Y 条件独立于 Z Z Z,则:
    E [ X ∣ Y , Z ] = E [ X ∣ Y ] . \mathbb{E}[X \mid Y, Z] = \mathbb{E}[X \mid Y]. E[XY,Z]=E[XY].


三、条件期望的直观理解

条件期望可以理解为在给定条件(如随机变量 Y = y Y=y Y=y)下,随机变量 X X X 的“平均值”。

  • 假设你有一个测量身高 X X X 和年龄 Y Y Y 的数据集。你想知道“给定某个年龄 Y = y Y=y Y=y,对应的平均身高是多少”。这个问题的答案就是条件期望 E [ X ∣ Y = y ] \mathbb{E}[X \mid Y=y] E[XY=y]

  • 如果 Y Y Y 是随机变量而不是固定值,比如不同年龄的分布未知,那么条件期望 E [ X ∣ Y ] \mathbb{E}[X \mid Y] E[XY] 是一个关于 Y Y Y 的函数,用于描述不同年龄对应的平均身高。


四、条件期望的应用场景

  1. 强化学习:
    在强化学习中,条件期望用于计算值函数(Value Function)和 Q 函数。例如,状态值函数 V ( s ) V(s) V(s) 是一个条件期望:
    V ( s ) = E [ R t + γ V ( S t + 1 ) ∣ S t = s ] . V(s) = \mathbb{E}[R_t + \gamma V(S_{t+1}) \mid S_t=s]. V(s)=E[Rt+γV(St+1)St=s].

  2. 保险精算:
    条件期望被用于计算在给定信息下的风险和保费。例如,给定过去的索赔记录,计算未来可能的平均赔偿额。

  3. 金融:
    在期权定价和投资组合分析中,条件期望用于分析在给定市场条件下资产的期望收益。


五、简单例子

离散情况

假设 X X X 表示某人某天吃的苹果数, Y Y Y 表示当天的天气。我们有以下概率分布:

  • P ( Y = 晴天 ) = 0.6 P(Y=\text{晴天}) = 0.6 P(Y=晴天)=0.6 P ( Y = 雨天 ) = 0.4 P(Y=\text{雨天}) = 0.4 P(Y=雨天)=0.4
  • 如果是晴天, P ( X = 1 ∣ Y = 晴天 ) = 0.3 P(X=1 \mid Y=\text{晴天}) = 0.3 P(X=1Y=晴天)=0.3 P ( X = 2 ∣ Y = 晴天 ) = 0.7 P(X=2 \mid Y=\text{晴天}) = 0.7 P(X=2Y=晴天)=0.7
  • 如果是雨天, P ( X = 1 ∣ Y = 雨天 ) = 0.8 P(X=1 \mid Y=\text{雨天}) = 0.8 P(X=1Y=雨天)=0.8 P ( X = 2 ∣ Y = 雨天 ) = 0.2 P(X=2 \mid Y=\text{雨天}) = 0.2 P(X=2Y=雨天)=0.2

求条件期望 E [ X ∣ Y = 晴天 ] \mathbb{E}[X \mid Y=\text{晴天}] E[XY=晴天] E [ X ∣ Y = 雨天 ] \mathbb{E}[X \mid Y=\text{雨天}] E[XY=雨天]

解:
E [ X ∣ Y = 晴天 ] = 1 ⋅ 0.3 + 2 ⋅ 0.7 = 0.3 + 1.4 = 1.7. \mathbb{E}[X \mid Y=\text{晴天}] = 1 \cdot 0.3 + 2 \cdot 0.7 = 0.3 + 1.4 = 1.7. E[XY=晴天]=10.3+20.7=0.3+1.4=1.7.
E [ X ∣ Y = 雨天 ] = 1 ⋅ 0.8 + 2 ⋅ 0.2 = 0.8 + 0.4 = 1.2. \mathbb{E}[X \mid Y=\text{雨天}] = 1 \cdot 0.8 + 2 \cdot 0.2 = 0.8 + 0.4 = 1.2. E[XY=雨天]=10.8+20.2=0.8+0.4=1.2.

连续情况

假设 X X X 表示一个股票的价格变化, Y Y Y 表示市场波动程度。已知:

  • f X ∣ Y ( x ∣ y ) = y ⋅ e − y x f_{X \mid Y}(x \mid y) = y \cdot e^{-yx} fXY(xy)=yeyx(指数分布, x ≥ 0 x \geq 0 x0)。
  • 给定 Y = y Y=y Y=y,随机变量 X X X 的条件期望为:
    E [ X ∣ Y = y ] = ∫ 0 ∞ x ⋅ y ⋅ e − y x d x . \mathbb{E}[X \mid Y=y] = \int_0^\infty x \cdot y \cdot e^{-yx} \, dx. E[XY=y]=0xyeyxdx.

计算:
使用分部积分:
E [ X ∣ Y = y ] = 1 y . \mathbb{E}[X \mid Y=y] = \frac{1}{y}. E[XY=y]=y1.

这表明 X X X 的条件期望依赖于市场波动 Y Y Y 的大小。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/70115.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Node.js与嵌入式开发:打破界限的创新结合

文章目录 一、Node.js的本质与核心优势1.1 什么是Node.js?1.2 嵌入式开发的范式转变 二、Node.js与嵌入式结合的四大技术路径2.1 硬件交互层2.2 物联网协议栈2.3 边缘计算架构2.4 轻量化运行时方案 三、实战案例:智能农业监测系统3.1 硬件配置3.2 软件架…

【物联网】ARM核常用指令(详解):数据传送、计算、位运算、比较、跳转、内存访问、CPSR/SPSR

文章目录 指令格式(重点)1. 立即数2. 寄存器位移 一、数据传送指令1. MOV指令2. MVN指令3. LDR指令 二、数据计算指令1. ADD指令1. SUB指令1. MUL指令 三、位运算指令1. AND指令2. ORR指令3. EOR指令4. BIC指令 四、比较指令五、跳转指令1. B/BL指令2. l…

Redis基础(二)——通用命令与五大基本数据类型

目录 一、Redis数据结构基本介绍 二、Redis通用命令 1.查看通用命令 2.KEYS:查看符合模板的所有key 3.DEL:删除指定的Key 4.lEXISTS:判断key是否存在 5.lEXPIRE:给一个key设置有效期,有效期到期时该key会被自…

ComfyUI工作流 参考图像生成人像手办(SDXL版)

文章目录 参考图像生成人像手办SD模型Node节点工作流程效果展示开发与应用参考图像生成人像手办 此工作流旨在实现将图像生成高精度的3D手办风格效果,通过深度学习技术完成从图像处理、模型加载、提示词优化到图像生成和超分辨率处理的一系列操作。整个流程以SDXL模型为核心,…

c语言 程序计算圆的面积(Program to find area of a circle)

给定圆的半径,求该圆的面积。 可以使用以下公式简单地计算圆的面积。 其中 r 是圆的半径,它可能是浮点数,因为饼图的值为 3.14 方法:使用给定的半径,使用上述公式找到面积:(pi * r * r&#…

解析PHP文件路径相关常量

PHP文件路径相关常量包括以下几个常量: __FILE__:表示当前文件的绝对路径,包括文件名。 __DIR__:表示当前文件所在的目录的绝对路径,不包括文件名。 dirname(__FILE__):等同于__DIR__,表示当前…

蓝桥杯C语言组:暴力破解

基于C语言的暴力破解方法详解 暴力破解是一种通过穷举所有可能的解来找到正确答案的算法思想。在C语言中,暴力破解通常用于解决那些问题规模较小、解的范围有限的问题。虽然暴力破解的效率通常较低,但它是一种简单直接的方法,适用于一些简单…

基于STM32的智能安防监控系统

1. 引言 随着物联网技术的普及,智能安防系统在家庭与工业场景中的应用日益广泛。本文设计了一款基于STM32的智能安防监控系统,集成人体感应、环境异常检测、图像识别与云端联动功能,支持实时报警、远程监控与数据回溯。该系统采用边缘计算与…

【Linux系统】CPU指令集 和 Linux系统权限 ring 0 / ring 3

CPU 指令集 CPU 指令集:是 CPU 实现软件指挥硬件执行的媒介,具体来说每一条汇编语句都对应了一条CPU指令,而非常非常多的 CPU 指令在一起,可以组成一个、甚至多个集合,指令的集合叫CPU指令集。 CPU 指令集有权限分级&…

Slint的学习

Slint是什么 Slint是一个跨平台的UI工具包,支持windows,linux,android,ios,web,可以用它来构建申明式UI,后端代码支持rust,c,python,nodejs等语言。 开源地址:https://github.com/slint-ui/slint 镜像地址:https://kkgithub.com/…

互联网行业常用12个数据分析指标和八大模型

本文目录 前言 一、互联网线上业务数据分析的12个指标 1. 用户数据(4个) (1) 存量(DAU/MAU) (2) 新增用户 (3) 健康程度(留存率) (4) 渠道来源 2. 用户行为数据(4个) (1) 次数/频率…

九. Redis 持久化-RDB(详细讲解说明,一个配置一个说明分析,步步讲解到位)

九. Redis 持久化-RDB(详细讲解说明,一个配置一个说明分析,步步讲解到位) 文章目录 九. Redis 持久化-RDB(详细讲解说明,一个配置一个说明分析,步步讲解到位)1. RDB 概述2. RDB 持久化执行流程3. RDB 的详细配置4. RDB 备份&恢…

[权限提升] Windows 提权 维持 — 系统错误配置提权 - Trusted Service Paths 提权

关注这个专栏的其他相关笔记:[内网安全] 内网渗透 - 学习手册-CSDN博客 0x01:Trusted Service Paths 提权原理 Windows 的服务通常都是以 System 权限运行的,所以系统在解析服务的可执行文件路径中的空格的时候也会以 System 权限进行解析&a…

通信易懂唠唠SOME/IP——SOME/IP-SD服务发现阶段和应答行为

一 SOME/IP-SD服务发现阶划分 服务发现应该包含3个阶段 1.1 Initial Wait Phase初始等待阶段 初始等待阶段的作用 初始等待阶段是服务发现过程中的一个阶段。在这个阶段,服务发现模块等待服务实例的相关条件满足,以便继续后续的发现和注册过程。 对…

【python】python基于机器学习与数据分析的手机特性关联与分类预测(源码+数据集)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C/Python语言 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 python基于机器学习与数据分析的手机特性关联与分类…

测试csdn图片发布

测试csdn图片发布 ​​

JVM监控和管理工具

基础故障处理工具 jps jps(JVM Process Status Tool):Java虚拟机进程状态工具 功能 1:列出正在运行的虚拟机进程 2:显示虚拟机执行主类(main()方法所在的类) 3:显示进程ID(PID,Process Identifier) 命令格式 jps […

51单片机 06 定时器

51 单片机的定时器属于单片机的内部资源,其电路的连接和运转均在单片机内部完成。 作用:1、用于计时;2、替代长时间的Delay,提高CPU 运行效率和处理速度。 定时器个数:3个(T0、T1、T2)&#xf…

洛谷 P1164 小A点菜 C语言

P1164 小A点菜 - 洛谷 | 计算机科学教育新生态 题目背景 uim 神犇拿到了 uoi 的 ra(镭牌)后,立刻拉着基友小 A 到了一家……餐馆,很低端的那种。 uim 指着墙上的价目表(太低级了没有菜单),说&…

面向对象程序的三大特性之一的封装JAVA

1. 封装 1.1 封装的概念 面向对象程序三大特性:封装、继承、多态 。而类和对象阶段,主要研究的就是封装特性。何为封装呢?简单来说就是套壳屏蔽细节 。 比如:对于电脑这样一个复杂的设备,提供给用户的就只是&#…