【漫话机器学习系列】029.累积分布函数(Cumulative Distribution Function)

累积分布函数(Cumulative Distribution Function, CDF)

累积分布函数(CDF)是概率论和统计学中的一个基本概念,用于描述随机变量取值的累积概率分布情况。它在理论研究和实际应用中广泛使用。


定义

给定随机变量 X,其累积分布函数 F(x) 定义为:

F(x) = P(X \leq x)

说明
  • F(x):表示随机变量 X 的值小于或等于某个值 x 的概率。
  • P:表示概率。
性质
  1. 单调不减性F(x_1) \leq F(x_2),当 x_1 < x_2​ 时。
  2. 取值范围0 \leq F(x) \leq 1
  3. 极限性质
    • \lim_{x \to -\infty} F(x) = 0
    • F(x)=1\lim_{x \to +\infty} F(x) = 1
  4. 连续性:对于连续型随机变量,F(x) 是连续函数;对于离散型随机变量,F(x) 是阶梯函数。

类型
  • 连续型随机变量

    F(x) = \int_{-\infty}^x f(t) \, dt

    其中,f(x) 是概率密度函数(PDF)。

  • 离散型随机变量

    F(x) = \sum_{x_i \leq x} P(X = x_i)

    其中,P(X = x_i) 是随机变量在离散点 x_i​ 的概率。


图示

累积分布函数通常表现为一个逐步上升或连续上升的曲线,随着 x 的增加,曲线趋向于 1。

  1. 离散型随机变量:阶梯状。
  2. 连续型随机变量:平滑曲线。

示例
1. 离散型随机变量

假设 X 为投掷一个骰子的点数,其可能值为 1, 2, 3, 4, 5, 6,每个值的概率为 \frac{1}{6}​。累积分布函数为:

F(x) = \begin{cases} 0 & x < 1 \\ \frac{1}{6} & 1 \leq x < 2 \\ \frac{2}{6} & 2 \leq x < 3 \\ \frac{3}{6} & 3 \leq x < 4 \\ \frac{4}{6} & 4 \leq x < 5 \\ \frac{5}{6} & 5 \leq x < 6 \\ 1 & x \geq 6 \end{cases}

2. 连续型随机变量

假设 X 服从标准正态分布,其概率密度函数为:

f(x) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}}

其累积分布函数为:

F(x) = \int_{-\infty}^x \frac{1}{\sqrt{2\pi}} e^{-\frac{t^2}{2}} \, dt

由于无法用初等函数表示,通常使用数值积分或标准正态分布表计算。


Python 实现
1. 连续型随机变量

使用 SciPy 计算正态分布的累积分布函数:

import numpy as np
from scipy.stats import norm
import matplotlib.pyplot as plt# 定义随机变量
x = np.linspace(-4, 4, 1000)
# 标准正态分布的CDF
cdf = norm.cdf(x)# 绘图
plt.plot(x, cdf, label='CDF of Standard Normal Distribution')
plt.xlabel('x')
plt.ylabel('F(x)')
plt.title('Cumulative Distribution Function')
plt.grid()
plt.legend()
plt.show()

 运行结果

plt.legend() plt.show()

2. 离散型随机变量

计算骰子点数的累积分布函数:

import numpy as np
import matplotlib.pyplot as plt# 假设 x 是 [1, 2, 3, 4, 5, 6]
x = np.arange(1, 7)
cdf = np.array([0.1, 0.2, 0.3, 0.4, 0.5, 0.6])  # 示例 CDF 数据# 调整 y 的长度以匹配 x
y_adjusted = np.concatenate(([0], cdf))[:-1]plt.step(x, y_adjusted, where='post', label='CDF of Dice')
plt.legend()
plt.show()

 运行结果


应用
  1. 概率计算:通过 F(x),可以快速计算任意区间内的概率:

                                               P(a \leq X \leq b) = F(b) - F(a)
  2. 随机数生成:通过反向变换法生成符合特定分布的随机数。
  3. 统计分析:用于描述数据分布及模型拟合效果。

总结

累积分布函数是随机变量概率分布的重要工具,能够直观地描述随机变量的累积概率分布。通过 CDF,既可以快速计算概率,又能用于随机数生成和分布分析。无论是离散型还是连续型随机变量,CDF 都在理论研究和实际应用中扮演着重要角色。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/65667.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

opencv实现KNN算法识别图片数字

KNN算法实现识别图片数字 目录 KNN算法实现识别图片数字图片基本情况图片数据 图片数字识别图片数据处理及预测其它数字图片正确率预测 图片基本情况 图片 数据 图片像素是2000x1000,即高&#xff08;行&#xff09;1000&#xff0c;宽&#xff08;列&#xff09;2000&#xf…

深入剖析Android SoundPool及其JNI实现

深入剖析Android SoundPool及其JNI实现 1. SoundPool概述 SoundPool是Android中用于管理和播放音频资源的类,特别适合播放短小的音效,如游戏中的爆炸声、按钮点击声等。与MediaPlayer相比,SoundPool具有以下优势: 低延迟:SoundPool适用于需要快速响应的音效播放。并发播…

HTML5 开关(Toggle Switch)详细讲解

HTML5 开关&#xff08;Toggle Switch&#xff09;详细讲解 1. 任务概述 开关&#xff08;Toggle Switch&#xff09;是一种用于表示二元状态&#xff08;如开/关&#xff09;的用户界面控件。用户可以通过点击开关来切换状态&#xff0c;常见于设置选项、开关功能等场景。 2…

Excel转Json编辑器工具

功能说明&#xff1a;根据 .xlsx 文件生成对应的 JSON 文件&#xff0c;并自动创建脚本 注意事项 Excel 读取依赖 本功能依赖 EPPlus 库&#xff0c;只能读取 .xlsx 文件。请确保将该脚本放置在 Assets 目录下的 Editor 文件夹中。同时&#xff0c;在 Editor 下再创建一个 Exc…

Python:爬虫基础《爬取红楼梦》

小说爬虫项目说明文档 用于爬取诗词名句网上小说内容的Python爬虫项目。本项目以《红楼梦》为例&#xff0c;演示如何爬取完整的小说内容。 项目功能 爬取小说的所有章节名称获取每个章节的URL链接下载并保存每个章节的内容到独立的文本文件自动创建存储目录包含基本的错误处…

HTTPS验证流程

http通常是直接和TCP进行通信的&#xff0c;而https中http是和SSL通信&#xff0c;再由SSL与TCP进行通信。SSL协议是一个介于应用层和传输层之间的一个安全协议。 1.对称加密与非对称加密 对称加密&#xff1a; 加密和解密方式都使用同一个私钥和公开的加密算法&#xff0c;优…

履约系统:应用层、领域层、集成关系设计

在这篇文章中&#xff0c;我们一起探讨订单履约系统的应用架构设计。 应用架构设计 我们前面讨论了系统的核心概念模型和拆单逻辑。接下来&#xff0c;让我们从应用架构的角度&#xff0c;深入了解系统的各个层次。这包括应用层、领域层&#xff0c;以及与其他系统的集成关系。…

python利用selenium实现大麦网抢票

大麦网&#xff08;damai.cn&#xff09;是中国领先的现场娱乐票务平台&#xff0c;涵盖演唱会、音乐会、话剧、歌剧、体育赛事等多种门票销售。由于其平台上经常会有热门演出&#xff0c;抢票成为许多用户关注的焦点。然而&#xff0c;由于票务资源的有限性&#xff0c;以及大…

神经网络-SENet

SENet是一种用于图像分类的卷积神经网络模型&#xff0c;由Jie Hu等人在2018年提出。SENet的全称是“Squeeze-and-Excitation Network”&#xff0c;其核心思想是通过自适应地调整每个通道的特征图权重&#xff0c;来增强卷积神经网络对于不同特征的感知能力。 SENet的设计灵感…

【spring】参数校验Validation

前言 在实际开发中&#xff0c;我们无法保证客户端传来的请求都是合法的。比如一些要求必传的参数没有传递&#xff0c;传来的参数长度不符合要求等&#xff0c;这种时候如果放任不管&#xff0c;继续执行后续业务逻辑&#xff0c;很有可能就会出现意想不到的bug。 有人可能会…

sentinel-请求限流、线程隔离、本地回调、熔断

请求限流&#xff1a;控制QPS来达到限流的目的 线程隔离&#xff1a;控制线程数量来达到限流的目录 本地回调&#xff1a;当线程被限流、隔离、熔断之后、就不会发起远程调用、而是使用本地已经准备好的回调去提醒用户 服务熔断&#xff1a;熔断也叫断路器&#xff0c;当失败、…

github提交不上去,网络超时问题解决

问题出现的原因&#xff1a; DNS服务器数据不同步&#xff0c;github的服务器发送迁移&#xff0c;在本地缓存的ip地址现在无效了。 解决方案&#xff1a; 1&#xff09;点击这里&#xff0c;查询github.com最新的ip地址 2.0&#xff09;编辑linux系统地址缓存文件&#x…

哪些框架、软件、中间件使用了netty? 哪些中间件、软件底层使用了epoll?

使用 Netty 的软件、中间件和框架 Netty 是一个异步事件驱动的网络应用框架&#xff0c;广泛应用于构建高性能的网络应用程序。以下是一些使用了 Netty 的知名软件、中间件和框架&#xff1a; 1. Elasticsearch 描述&#xff1a;Elasticsearch 是一个分布式的搜索和分析引擎…

C++和OpenGL实现3D游戏编程【连载19】——着色器光照初步(平行光和光照贴图)(附源码)

1、本节要实现的内容 我们在前期的教程中,讨论了在即时渲染模式下的光照内容。但在我们后期使用着色器的核心模式下,会经常在着色器中使光照,我们这里就讨论一下着色器光照效果,以及光照贴图效果,同时这里知识会为后期的更多光照效果做一些铺垫。本节我们首先讨论冯氏光照…

如何恢复永久删除的PPT文件?查看数据恢复教程!

可以恢复永久删除的PPT文件吗&#xff1f; Microsoft PowerPoint应用程序是一种应用广泛的演示程序&#xff0c;在人们的日常生活中经常使用。商人、官员、学生等在学习和工作中会使用PowerPoint做报告和演示。PowerPoint在人们的学习和工作生活中占主导地位&#xff0c;每天都…

基于Spark的共享单车数据存储系统的设计与实现_springboot+vue

开发语言&#xff1a;Java框架&#xff1a;springbootJDK版本&#xff1a;JDK1.8服务器&#xff1a;tomcat7数据库&#xff1a;mysql 5.7&#xff08;一定要5.7版本&#xff09;数据库工具&#xff1a;Navicat11开发软件&#xff1a;eclipse/myeclipse/ideaMaven包&#xff1a;…

本地运行stable-diffusion3.5

本地运行stable-diffusion3.5 本地运行stable-diffusion3.5准备工作下载ComfyUI 和需要的模型文件需要下载以下几类SD3.5 文件 启动ComfyUI启动在工作流中分别选中三个Clip 模型 sd3.5_large_turbo准备 本地运行stable-diffusion3.5 AI 时代不可阻挡&#xff0c;给老机器加了个…

mysql高频面试题

1. mysql里的索引类型 2. 聚簇索引和非聚簇索引的区别 聚簇索引适合场景: 主键、唯一性要求高的字段。需要对数据进行范围查询时。对数据的读取频繁,并且数据行的插入和删除较少时。非聚簇索引适合场景: 较多的查询条件,或者需要基于某些非主键字段进行查询时。需要创建多个…

每日一练 | 时延和抖动

01 真题题目 关于时延和抖动&#xff0c;下面描述正确的是&#xff08;多选&#xff09;&#xff1a; A. 端到端时延等于处理时延与队列时延之和 B. 抖动是因为每个包的端到端时延不相等造成的 C. 抖动的大小跟时延的大小相关&#xff0c;时延小则抖动的范围也小&#xff0c;时…

MySQL第二弹----CRUD

笔上得来终觉浅,绝知此事要躬行 &#x1f525; 个人主页&#xff1a;星云爱编程 &#x1f525; 所属专栏&#xff1a;MySQL &#x1f337;追光的人&#xff0c;终会万丈光芒 &#x1f389;欢迎大家点赞&#x1f44d;评论&#x1f4dd;收藏⭐文章 ​ 一、修改表 使用ALTER …