ML 系列:机器学习和深度学习的深层次总结( 19)— PMF、PDF、平均值、方差、标准差

一、说明

        在概率和统计学中,了解结果是如何量化的至关重要。概率质量函数 (PMF) 和概率密度函数 (PDF) 是实现此目的的基本工具,每个函数都提供不同类型的数据:离散和连续数据。

二、PMF 的定义:

        概率质量函数 (PMF) 表示离散随机变量的概率分布,该变量可以具有有限或可数无限数量的可能值它有助于量化每种可能结果的确切概率。

        如果 X 是一个离散随机变量,那么它的范围 R_X 是一个可数集,因此,我们可以列出 R_X 中的元素。换句话说,我们可以写:

        请注意,这里是 x1、x2、x3,...是随机变量 X 的可能值。虽然随机变量通常用大写字母表示,但表示范围内的数字,我们通常使用小写字母,例如 x、x1、y、z 等来表示可能的值。对于离散随机变量 X,我们感兴趣的是知道 X=x_k 的概率。

        请注意,此处事件 A={X=x_k} 定义为样本空间 S 中 X 的相应值等于 x_k 的结果集 s

        事件 {X=x_k} 的概率由 X 的概率质量函数 (PMF) 正式表示。

PX(1) 显示 X=1 的概率

  1. PMF 的特性:
  • PMF 始终为非负值:所有 PMF 均≥ 0(x_i x_i
  • 所有概率之和为 1: ∑i P(X = x_i) = 1

2. 与 PDF 的比较:

  • PMF 用于离散随机变量,而 PDF 用于连续随机变量。
  • PMF 在离散点处对概率求和,而 PDF 在一个范围内积分。

3. 解释 PMF 值:

  • 特定点的 PMF 值 x_i 表示概率 P(X = x_i)

4. 图形表示:

  • 绘制 PMF 涉及绘制每个离散结果的概率,通常使用条形图。

图 1.随机变量 X 的 PMF 的图形表示

5. 意思是:

离散随机变量 X 的期望值表示为 E[X],计算为 X 可以采用的所有可能值的加权平均值,其中权重对应于这些值发生的概率,离散随机变量 X 的期望值由以下公式给出:

例如,如果我们有一个随机变量 X,它可以取值 1、2 和 3,概率分别为 P(X=1) = 0.1、P(X=2) = 0.4 和 P(X=3) = 0.5,那么 X 的期望值将计算为:

E[X] = 1*0.1 + 2*0.4 + 3*0.5 = 1 + 0.8 + 1.5 = 2.4

大数定律 (LLN)

  • 大数定律指出,随着试验或实验次数的增加,结果的平均值将趋向于向预期值收敛。换句话说,您进行的试验或实验越多,样本均值就越接近真实总体均值。
  • 大数定律最早由 Gerolamo Cardano 提及。雅各布·伯努利 (Jacob Bernoulli) 证明了二元随机变量的这种定律的特殊形式(他花了 20 多年时间才开发出足够严格的数学证明)。他将此命名为“黄金定理”,但它后来被普遍称为“伯努利定理”。这不应与以雅各布·伯努利的侄子丹尼尔·伯努利命名的伯努利原则相混淆。后来泊松将其描述为“la loi des grands nombres”(“大数定律”)。

在这段代码中,我想用 Python 代码演示,通过模拟大量试验来演示大数定律。

import randomdef calculate_sample_mean(num_trials):total_outcomes = 0for _ in range(num_trials):# a random variable with values 1 to 6outcome = random.randint(1, 6)  total_outcomes += outcomesample_mean = total_outcomes / num_trialsreturn sample_mean# Define the expected value for comparison
expected_value = 3.5# Test the Law of Large Numbers with increasing number of trials
for num_trials in [10, 50, 100, 1000, 10000, 100000]:sample_mean = calculate_sample_mean(num_trials)print(f"Number of trials: {num_trials}, Sample mean: {sample_mean}, Expected value: {expected_value}")

        这是上述代码的输出,通过将不同次数的试验的样本平均值与预期值(在本例中为 3.5)进行比较来检验大数定律:

        随着试验次数的增加,样本均值应收敛于预期值

        6. 方差和标准差公式

        离散随机变量 X 的方差度量 X(随机变量)的分布围绕其预期值的分布。有两个主要公式用于计算随机变量 X 的方差:

        公式 1:使用期望的方差:

        此公式根据随机变量的期望值 (平均值) 和平方的期望值来表示方差。它派生如下:

        公式 2:使用概率和平均值的方差:

        其中 μ = E(X)

        此公式通过将 X 的每个可能值与平均值之间的平方差相加来计算方差,并按每个值的概率加权。它主要用于结果数量有限的离散随机变量:

        标准差:

标准差只是方差的平方根。它是以与原始数据相同的单位衡量离散度的指标,使其更易于解释。

三、以两种方式计算 Variance 的示例

考虑具有以下概率分布的离散随机变量 X

使用两个公式的分步计算:

  1. 计算均值μ

2. 公式 1:使用期望的方差

3. 公式 2:使用概率和平均值的方差

要找到标准差 (Std(X)),您只需取方差的平方根 (Var(X))

鉴于:

您可以按如下方式找到标准差:

简单的 Python 代码,演示如何计算给定数据集的平均值、方差和标准差并打印结果。

import numpy as np# Sample data
data = [10, 12, 15, 18, 20, 22, 25, 28, 30, 32]# Calculate mean
mean = np.mean(data)# Calculate variance
variance = np.var(data)# Calculate standard deviation
std_deviation = np.sqrt(variance)# Print the results
print(f"Mean: {mean}")
print(f"Variance: {variance}")
print(f"Standard Deviation: {std_deviation:.3}")# Mean: 21.2
# Variance: 51.56
# Standard Deviation: 7.18

四、示例 PMF 粉末动力学):

        例如,考虑掷一个公平的六面骰子。PMF 为每个结果(1、2、3、4、5 和 6)分配 1/6 的概率,因为每个面都有相同的机会正面朝上着陆。这种情况的 PMF 为每个结果分配了 1/6 的概率,因为每个数字出现的机会相同。

        表格: 掷出公平的六面骰子的概率分布

        此表清楚地说明了 PMF 如何在掷骰子的所有可能结果中分配概率,确保总概率总和为 1。公式 P(X = x) = 1/6 表示每个结果 x(其中 x 为 1、2、3、4、5 或 6)的概率相等,为 1/6。

        概率密度函数 (PDF):
        概率密度函数 (PDF) 描述了连续随机变量具有特定值的可能性。与离散概率不同,任何特定点的 PDF 值都不是概率,而是密度。

        PMF 不适用于连续随机变量,因为对于连续随机变量,所有 x ∈ R 为 P(X=x)=0。相反,我们通常可以定义概率密度函数 (PDF)。PDF 是概率密度,而不是概率质量。这个概念与物理学中的质量密度非常相似:它的单位是每单位长度的概率。要了解 PDF,请考虑一个连续随机变量 X,并按如下方式定义函数 fX(x)(只要存在限制):

        函数 fX(x) 为我们提供了点 x 处的概率密度。它是区间概率的极限 (x, x+Δ] 除以区间长度,当区间长度变为 0 时。请记住

        因此,我们得出结论:

        因此,我们对连续随机变量的 PDF 有以下定义:

  1.  PDF 的属性:
  • PDF 始终为非负数:fx)≥0 表示所有 x
  • 整个范围内 PDF 曲线下的面积为 1:

2. 解释 PDF 值:

  • PDF 在任何点的高度都表示概率的密度,而不是实际概率。
  • 要查找随机变量落在特定范围内的概率,请在该范围内对 PDF 进行积分。

3. 图形表示:

  • 绘制 PDF 图形有助于可视化数据的分布。
  • 重要的是要突出显示两点之间曲线下的面积,它表示变量落在该范围内的概率。

        图 2 显示了 X 的 PDF。正如我们所看到的,PDF 的值在从 a 到 b 的区间内是恒定的。这就是为什么我们说 X 均匀分布在 [a,b] 上。

图 2.均匀分布在 [a,b] 上的连续随机变量的 PDF

4. 均值和方差:

  • 连续随机变量的平均值(期望值)为:

  • 差异为:

五、结论

        第 19 天,我们探讨了概率质量函数 (PMF) 和概率密度函数 (PDF) 的核心概念。这些函数对于理解如何将概率分别分配给离散随机变量和连续随机变量至关重要。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/59421.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

string模拟实现插入+删除

个人主页:Jason_from_China-CSDN博客 所属栏目:C系统性学习_Jason_from_China的博客-CSDN博客 所属栏目:C知识点的补充_Jason_from_China的博客-CSDN博客 string模拟实现reserve 这里实现的是扩容 扩容这里是可以实现缩容,可以实现…

《JVM第8课》垃圾回收算法

文章目录 1.标记算法1.1 引用计数法1.2 可达性分析法 2.回收算法2.1 标记-清除算法(Mark-Sweep)2.2 复制算法(Coping)2.3 标记-整理算法(Mark-Compact) 3.三种垃圾回收算法的对比 为什么要进行垃圾回收&…

编程之路:蓝桥杯备赛指南

文章目录 一、蓝桥杯的起源与发展二、比赛的目的与意义三、比赛内容与形式四、比赛前的准备五、获奖与激励六、蓝桥杯的影响力七、蓝桥杯比赛注意事项详解使用Dev-C的注意事项 一、蓝桥杯的起源与发展 蓝桥杯全国软件和信息技术专业人才大赛,简称蓝桥杯&#xff0c…

全网最适合入门的面向对象编程教程:58 Python字符串与序列化-序列化Web对象的定义与实现

全网最适合入门的面向对象编程教程:58 Python 字符串与序列化-序列化 Web 对象的定义与实现 摘要: 如果我们要在不同的编程语言之间传递对象,就必须把对象序列化为标准格式,比如XML\YAML\JSON格式这种序列化Web对象。这种序列化W…

使用YOLO 模型进行线程安全推理

使用YOLO 模型进行线程安全推理 一、了解Python 线程二、共享模型实例的危险2.1 非线程安全示例:单个模型实例2.2 非线程安全示例:多个模型实例 三、线程安全推理3.1 线程安全示例 四、总结4.1 在Python 中运行多线程YOLO 模型推理的最佳实践是什么&…

每日一题|3255. 长度为 K 的子数组的能量值 II|递增序列、计数器

同昨天的解法一样,遍历一遍的同时,统计当前最长的子串长度,如果>k,则将子串开始位置处赋值子串当前位置元素的值。 class Solution:def resultsArray(self, nums: List[int], k: int) -> List[int]:res [-1] * (len(nums)…

金华迪加现场大屏互动系统 mobile.do.php 任意文件上传漏洞复现

0x01 产品描述: ‌ 金华迪加现场大屏互动系统‌是由金华迪加网络科技有限公司开发的一款专注于增强活动现场互动性的系统。该系统设计用于提供高质量的现场互动体验,支持各种大型活动,如企业年会、产品发布会、展览展示等。其主要功能包…

【网络面试篇】HTTP(1)(笔记)——状态码、字段、GET、POST、缓存

目录 一、相关问题 1. HTTP请求常见的状态码和字段? (1)状态码 (2)字段 ① Host 字段 ② Content-length 字段 ③ Connection 字段 ④ Content-Type 字段 ⑤ Content-Encoding 字段 2. GET 和 POST 的区别&a…

Java学习Day60:微服务总结!(有经处无火,无火处无经)

1、技术版本 jdk&#xff1a;17及以上 -如果JDK8 springboot&#xff1a;3.1及其以上 -版本2.x springFramWork&#xff1a;6.0及其以上 -版本5.x springCloud&#xff1a;2022.0.5 -版本格林威治或者休斯顿 2、模拟springcloud 父模块指定父pom <parent><…

ThreadX在STM32上的移植:F1,F4通用启动文件tx_initialize_low_level.s

在嵌入式系统开发中&#xff0c;实时操作系统&#xff08;RTOS&#xff09;的选择对于系统性能和稳定性至关重要。ThreadX是一种广泛使用的RTOS&#xff0c;它以其小巧、快速和可靠而闻名。在本文中&#xff0c;我们将探讨如何将ThreadX移植到STM32微控制器上&#xff0c;特别是…

UE5.4 PCG基础节点

Projection&#xff1a;投影。可以让撒点重新恢复到表面采样器的初始高度和旋转值。缩放保持不变 DensityFilter&#xff1a;密度过滤器 AttributeNoise&#xff1a;Attribute噪声 模式&#xff1a;设置。重新定义噪点分布为0-1 模式&#xff1a;加0或乘1的时候&#xff0…

STM32-PWR低功耗

一、概述 PWR&#xff08;Power Control&#xff09;电源控制&#xff0c;PWR负责管理STM32内部的电源供电部分&#xff0c;可以实现可编程电压监测器和低功耗模式的功能可编程电压监测&#xff08;PVD&#xff09;可以监控VDD电源电压&#xff0c;当VDD下降到PVD阀值以下或上…

AI 证件照工具 HivisionIDPhotos

如何在 Linux 系统使用 Docker 在本地部署 HivisionIDPhotos&#xff0c;并结合路由侠内网穿透外网访问本地部署的 HivisionIDPhotos 。 第一步&#xff0c;本地部署安装 HivisionIDPhotos 1&#xff0c;检查 Docker 服务状态&#xff0c;确保 Docker 正常运行。 systemctl …

springboot - 定时任务

定时任务是企业级应用中的常见操作 定时任务是企业级开发中必不可少的组成部分&#xff0c;诸如长周期业务数据的计算&#xff0c;例如年度报表&#xff0c;诸如系统脏数据的处理&#xff0c;再比如系统性能监控报告&#xff0c;还有抢购类活动的商品上架&#xff0c;这些都离不…

pandas——对齐运算+函数应用

引言&#xff1a;对齐运算是数据清洗的重要过程&#xff0c;可以按索引对齐进行运算&#xff0c;如果没对齐的位置则补NaN&#xff0c;最后也可以填充NaN 一、Series的对齐运算 1.Series 按行、索引对齐 import pandas as pds1 pd.Series(range(10, 20), indexrange(10)) s2…

画动态爱心(Python-matplotlib)

介绍 氵而已 由于用的是 AI&#xff0c;注释得非常清楚&#xff0c;自己改改也可以用 代码 # -*- coding: utf-8 -*- # Environment PyCharm # File_name 尝试1 |User Pfolg # 2024/11/05 22:45 import numpy as np import matplotlib.pyplot as plt import matplot…

学习threejs,将多个网格合并成一个网格

&#x1f468;‍⚕️ 主页&#xff1a; gis分享者 &#x1f468;‍⚕️ 感谢各位大佬 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! &#x1f468;‍⚕️ 收录于专栏&#xff1a;threejs gis工程师 文章目录 一、&#x1f340;前言1.1 ☘️THREE.Geometry 几何体1.2 …

对于一个需要渲染300帧的动画项目,云渲染要多久

探讨云渲染动画300帧需要多久的问题时&#xff0c;我们今天来从多个角度进行分析&#xff0c;对于一个需要渲染300帧的动画项目&#xff0c;传统的本地渲染方式可能会因为硬件限制而变得耗时且效率低下。幸运的是&#xff0c;【渲染101】云渲染技术的出现为这一问题提供了解决方…

系统上云-流量分析和链路分析

优质博文&#xff1a;IT-BLOG-CN 一、流量分析 【1】流量组成&#xff1a; 按协议划分&#xff0c;流量链路可分为HTTP、SOTP、QUIC三类。 HTTPSOTPQUIC场景所有HTTP请求&#xff0c;无固定场景国内外APP等海外APP端链路选择DNS/CDN(当前特指Akamai)APP端保底IP列表/动态IP下…

「Mac畅玩鸿蒙与硬件22」鸿蒙UI组件篇12 - Canvas 组件的动态进阶应用

在鸿蒙应用中&#xff0c;Canvas 组件可以实现丰富的动态效果&#xff0c;适合用于动画和实时更新的场景。本篇将介绍如何在 Canvas 中实现动画循环、动态进度条、旋转和缩放动画&#xff0c;以及性能优化策略。 关键词 Canvas 组件动态绘制动画效果动态进度条旋转和缩放性能优…