ML 系列:第 21 节 — 离散概率分布(二项分布)

一、说明

        二项分布描述了在固定数量的独立伯努利试验中一定数量的成功的概率,其中每个试验只有两种可能的结果(通常标记为成功和失败)。

二、探讨伯努利模型

        例如,假设您正在抛一枚公平的硬币 (其中正面成功,反面失败) 五次。每次翻转都是一次独立的伯努利试验,成功概率(正面朝上)为 0.5。现在,您有兴趣找到从 5 次翻转中正好获得 3 次正面的概率。此方案适合二项分布,因为您有固定数量的试验(五次翻转),并且每个试验只有两种可能的结果(正面或反面),因此它们成为独立的伯努利试验。

        总而言之,伯努利是:

  • 描述固定数量的独立伯努利试验的成功次数。
  • 由两个参数定义:试验次数 n 和成功概率 p

二项式分布的概率质量函数 (PMF) 由以下公式给出:

此处里:

现在,让我们分解公式:

三、二项式分布的期望值和方差

        期望,通常称为均值或平均值,表示随机变量在重复实验中的理论平均结果。在二项分布的上下文中,期望 E[X] 表示在给定数量的试验中预期的平均成功次数。二项分布的期望公式为:

        其中 n 是试验数,p 是单次试验成功的概率。

        假设您抛硬币 10 次。每次抛硬币都是一个独立的伯努利试验,其中正面朝上(成功)的概率为 = 0.5,反面(失败)的概率相同 q = 1−p = 0.5

        现在,让我们使用公式 E[X] = np 计算预期的正面 E[X] 数量:

这个结果告诉我们,平均而言,我们期望在 10 次抛硬币中得到 5 次正面。

另一方面,方差衡量分布围绕其平均值的散布或离散度。在二项分布中,方差 Var[X] 量化了实际结果与预期成功数的偏差程度。二项分布方差的公式为:

        该公式反映了这样一个事实,即二项式分布中结果的分布受试验数 n 和成功概率 p 的影响。较高的试验次数或接近 0.5 的成功概率往往会导致较大的方差,这表明成功次数的变异性更大。

四、示例:计算机失败的概率

        假设一家工厂有一台机器在任何一天都有 5% 的几率出现故障。我们想要找到机器在 30 天内恰好失败 3 次的概率。在这里,每天代表一个独立的伯努利试验,有两种可能的结果:机器失败(成功)或不失败(失败)。

        鉴于:

  • n=30(试验次数或天数)
  • p=0.05(机器在任何给定日期出现故障的概率)

        我们可以使用二项分布来查找 30 天内恰好失败 3 次的概率。二项分布的概率质量函数 (PMF) 由下式给出:

        将给定的值代入公式:

        这里:

        计算这些值:

因此:

PX=3) = 4060 × 0.000125 × 0.287 ≈ 0.145

因此,机器在 30 天内恰好失败 3 次的概率约为 0.145,即 14.5%。

五、用于轧制模具 100 次的二项式 PMF

        在这个例子中,我们探讨了将公平的六面骰子滚动 100 次的二项式概率质量函数 (PMF)。我们感兴趣的是确定在这 100 次掷骰子中掷出特定数字(例如,掷出“1”或“6”)一定次数的概率。由于骰子的每一面都有相等的概率为 1/6,因此特定数字出现的次数分布遵循二项式分布。

        二项分布由试验数 n 和成功概率 p 来表征。这里,n = 100 和 p = 1/6。该图显示了 k 获得 k 次成功(滚动特定数字)的概率,范围从 0 到 100

        为了进一步分析分布,我们在图上计算并显示预期的成功数 (期望) 和分布的可变性 (方差)。

import matplotlib.pyplot as plt
from scipy.stats import binom# Number of trials (number of dice rolls)
n = 100# Probability of success (rolling a specific number, e.g., 1 or 6)
p = 1 / 6# Create a range of possible number of successes (0 to n)
k = range(n + 1)# Calculate the PMF for each number of successes
pmf_values = [binom.pmf(x, n, p) for x in k]# Calculate expectation and variance
expectation = n * p
variance = n * p * (1 - p)# Plotting the PMF
plt.figure(figsize=(8, 5))
plt.bar(k, pmf_values, width=1.0, edgecolor='black')
plt.title('Binomial PMF for Rolling a Die 100 Times (Rolling a Specific Number)')
plt.xlabel('Number of Successes (Rolling a Specific Number)')
plt.ylabel('Probability')
plt.grid(True)# Show expectation and variance on the plot
plt.axvline(expectation, color='r', linestyle='dashed', linewidth=2.5, label=f'Expectation (mean): {expectation:.2f}')
plt.axvline(expectation - variance**0.5, color='orange', linestyle='dashed', linewidth=2.5, label=f'Standard Deviation: {variance**0.5:.2f}')
plt.axvline(expectation + variance**0.5, color='orange', linestyle='dashed', linewidth=2.5)
plt.legend()
plt.show()

        这是上述代码的输出:

        期望值和方差计算:

  • 期望值(平均值):E[X] = np = 100 × 1/6 ≈ 33.33
  • 方差:Var[X] = np(1−p) = 100 × 1/6 × 5/6 ≈ 27.78 ≈ 27.78
  • 标准差:Var[X] ≈ 5.27

六、变化 (p) 对掷模二项分布的影响

        二项分布中的概率 p 表示每个试验中特定结果的可能性。当掷一个公平的骰子时,对于骰子的任何特定面,p 通常为 1/6。通过改变 p,我们可以探索如果骰子有偏差,分布如何变化。例如,如果加载骰子以将特定数字滚动到 0.3 的概率,则二项分布的形状和分布将发生变化,与公平骰子相比,在平均值附近显示更高的成功集中度。

        简单地说,我们可以更改上面的代码来计算和绘制不同 p 值的 PMF:

import matplotlib.pyplot as plt
from scipy.stats import binom# Number of trials (number of dice rolls)
n = 100# Define different probabilities of success
p_values = [1/6, 0.35]# Create a range of possible number of successes (0 to n)
k = range(n + 1)plt.figure(figsize=(8, 5))for p in p_values:# Calculate the PMF for each number of successespmf_values = [binom.pmf(x, n, p) for x in k]# Calculate expectation and varianceexpectation = n * pvariance = n * p * (1 - p)# Plotting the PMFplt.plot(k, pmf_values, label=f'p = {p}')# Annotate the plot with expectation and varianceplt.axvline(expectation, color='r', linestyle='dashed', linewidth=1)plt.axvline(expectation - variance**0.5, color='g', linestyle='dashed', linewidth=1)plt.axvline(expectation + variance**0.5, color='g', linestyle='dashed', linewidth=1)plt.title('Binomial PMF for Rolling a Die 200 Times with Varying p')
plt.xlabel('Number of Successes (Rolling a Specific Number)')
plt.ylabel('Probability')
plt.legend()
plt.grid(True)
plt.show()

        这是上述代码的输出:

        变化 p:该脚本计算并绘制两个不同 p 值的 PMF:1/6(公平骰子)和 0.35(偏置骰子)。

        在机器学习系列的第 21 天,我们探索了二项分布,这是一种基本概率分布,用于对固定数量的独立伯努利试验的成功次数进行建模。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/60422.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

godot--自定义边框/选中时样式 StyleBoxTexture

前提知识: stylebox就像一个贴图,把图案贴到控件是。多个stylebox同时生效的话,那当然也有层级之分,上层覆盖下层(可以设置透明度来显示下层) 关于主题的概念: godot——主题、Theme、StyleB…

PCB+SMT线上报价系统+PCB生产ERP系统自动化拼板模块升级

PCB生产ERP系统的智能拼版技术,是基于PCB前端报价系统获取到的用户或市场人员已录入系统的板子尺寸及set参数等,按照最优原则或利用率最大化原则自动进行计算并输出拼版样式图和板材利用率,提高工程人员效率,减少板材的浪费。覆铜…

去中心化联邦学习与TinyML联合调查:群学习简介

中英文论文标题: 英文标题:A Joint Survey in Decentralized Federated Learning and TinyML: A Brief Introduction to Swarm Learning中文标题:去中心化联邦学习与TinyML联合调查:群学习简介 作者信息: Evangelia…

亚马逊正准备推出其最新的人工智能芯片

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

【学习笔记】数据结构(七)

图 文章目录 图7.1 图的定义和术语7.2 图的存储结构7.2.1 数组表示法 - 邻接矩阵(Adjacency Matrix)7.2.2 邻接表 -(链式)表示法(Adjacency List)7.2.3 十字链表(Orthogonal List)7.2.4 邻接多重表(Adjacent MultiList) 7.3 图的遍…

[编译报错]ImportError: No module named _sqlite3解决办法

1. 问题描述&#xff1a; 在使用python进行代码编译时&#xff0c;提示下面报错&#xff1a; "/home/bspuser/BaseTools/Source/Python/Workspace/WorkspaceDatabase.py", line 18, in <module>import sqlite3File "/usr/local/lib/python2.7/sqlite3/_…

社会信用示范城市信用代码和虚拟变量(1990-2022年)原始数据、计算代码、参考文献和最终计算结果

社会信用示范城市信用代码和虚拟变量可以提供一个以观察和分析城市信用状况的演变。 可以构建一个多维度的城市信用评估模型。这个模型不仅能够反映城市信用状况的历史演变&#xff0c;还能预测未来趋势&#xff0c;为政策制定提供科学依据。 1990-2022年社会信用示范城市信用…

【OH】openHarmony开发环境搭建(基于windows子系统WSL)

前言 本文主要介绍基于windows子系统WSL搭建openHarmony开发环境。 WSL与Vmware虚拟机的区别&#xff0c;可以查看WSL与虚拟机的区别 更详细的安装配置过程可参考微软官网&#xff1a; ​安装 WSL 前提 以下基于windows 111专业版进行配置&#xff0c;windows 10应该也是可以…

机器学习: LightGBM模型(优化版)——高效且强大的树形模型

LightGBM&#xff08;Light Gradient Boosting Machine&#xff09;是一种基于梯度提升决策树&#xff08;GBDT&#xff09;的框架&#xff0c;由微软提出。它具有高效的训练速度、低内存占用、支持并行和GPU加速等特点&#xff0c;非常适合大规模数据的训练任务&#xff0c;尤…

游戏引擎学习第八天

视频参考: https://www.bilibili.com/video/BV1ouUPYAErK/ 理解下面的代码 关于虚函数 代码分解 结构体 foo 的定义&#xff1a; struct foo {int32 X;int64 Y;virtual void Bar(int c); };foo 结构体有两个成员变量&#xff1a;X&#xff08;int32 类型&#xff09;和 Y&…

Xcode 16 使用 pod 命令报错解决方案

原文请点击这个跳转 一、问题现象&#xff1a; 有人会遇到 Xcode 升级到 16 后&#xff0c;新建应用然后使用 pod init 命令会报错如下&#xff1a; Stack Ruby : ruby 3.3.5 (2024-09-03 revision ef084cc8f4) [x86_64-darwin23]RubyGems : 3.5.22Host : macOS 15.0 (24A335…

概率论之正态分布密度函数与matlab

文章目录 0.浅谈我的想法1.正态分布引入1.1公式和对应概率1.2模拟生成数据1.3图像绘制1.4图像的调整1.5概率密度函数1.6两个方式的对比分析1.7分布函数1.8分位数效果展示 0.浅谈我的想法 众所周知&#xff0c;在这个数学建模的这个过程之中会遇到很多的这个概率论的相关的问题…

【maven踩坑】一个坑 junit报错 但真正导致这个的不是junit的原因

目录 事件起因环境和工具操作过程解决办法结束语 事件起因 报错一&#xff1a; Internal Error occurred. org.junit.platform.commons.JUnitException: TestEngine with ID junit-vintage failed to discover tests报错二&#xff1a; Internal Error occurred. org.junit.pl…

【算法】——二分查找合集

阿华代码&#xff0c;不是逆风&#xff0c;就是我疯 你们的点赞收藏是我前进最大的动力&#xff01;&#xff01; 希望本文内容能够帮助到你&#xff01;&#xff01; 目录 零&#xff1a;二分查找工具 1&#xff1a;最基础模版 2&#xff1a;mid落点问题 一&#xff1a;最…

caozha-CEPCS(新冠肺炎疫情防控系统)

caozha-CEPCS&#xff0c;是一个基于PHP开发的新冠肺炎疫情防控系统&#xff0c;CEPCS&#xff08;全称&#xff1a;COVID-19 Epidemic Prevention and Control System&#xff09;&#xff0c;可以应用于单位、企业、学校、工业园区、村落等等。小小系统&#xff0c;希望能为大…

AI技术赋能电商行业:创新应用与未来展望

&#x1f493; 博客主页&#xff1a;倔强的石头的CSDN主页 &#x1f4dd;Gitee主页&#xff1a;倔强的石头的gitee主页 ⏩ 文章专栏&#xff1a;《热点时事》 期待您的关注 引言 随着科技的飞速发展&#xff0c;人工智能&#xff08;AI&#xff09;技术正逐步渗透到各行各业&a…

若依项目-结构解读

项目结构 admin模块 common模块 framework模块 service模块 配置 依赖关系 前端接口 src 表结构

音视频入门基础:MPEG2-TS专题(3)——TS Header简介

注&#xff1a;本文有部分内容引用了维基百科&#xff1a;https://zh.wikipedia.org/wiki/MPEG2-TS 一、引言 本文对MPEG2-TS格式的TS Header进行简介。 进行简介之前&#xff0c;请各位先下载MPEG2-TS的官方文档。ITU-T和ISO/IEC都分别提供MPEG2-TS的官方文档。但是ITU提供的…

RN开发遇到的坑

1 、 RN 启动崩溃 https://blog.csdn.net/qq_31915745/article/details/108125671 2、修改报红⻚ https://blog.csdn.net/weixin_43969056/article/details/104757926 3 、编译不过去提示 glog-0.3.5 有问题&#xff0c; 找到 / 项⽬ /node_modules/react-native/scripts/ io…

折叠手机失败了,有手机品牌宣布退出,苹果成为赢家

日前一家手机企业宣布停止研发大折叠手机&#xff0c;这对于国产手机来说显然是一大打击&#xff0c;他们都希望以折叠手机抢占高端手机市场&#xff0c;然而残酷的市场现实却是消费者始终难以接受折叠手机&#xff0c;导致折叠手机的销量规模始终难以扩大。 折叠手机最早由三星…