如何深刻理解从二项式分布到泊松分布

在这里插入图片描述
泊松镇贴

二项分布和泊松分布的表达式

二项分布:
P ( x = k ) = C n k p k ( 1 − p ) n − k P(x=k) = C_n^kp^k(1-p)^{n-k} P(x=k)=Cnkpk(1p)nk

泊松分布:
P ( x = k ) = λ k k ! e − λ P(x=k) = \frac{\lambda^k}{k!}e^{-\lambda} P(x=k)=k!λkeλ

一个现实生活中的例子

一条汽车单向行驶的公路边有个便利店,店家经过一周的统计,得到数据:上个周一共有100辆次的车从这个便利店通过,其中有5辆次的车来买了东西。那么,店家现在想用这个数据来推测,下周,有6辆次的车会在这个便利店买东西的概率是多少?

现在,假设我们只知道二项分布而对泊松分布一无所知,我们如何通过构建二项分布的数学模型来解决这个问题呢?

这是二项分布的经典场景。对于通过的每一辆车,它只有两种可能的观测结果,那就是买东西和不买东西。这是一个 0-1 分布。现在我们做一个假设,假设每辆车通过时停下来买东西的概率是一样的(这样做假设不会影响整体的推测,因为做统计时,我们只统计了通过的车的总辆次和停下来买东西的车的总次数,也就是说做统计时每辆车是没有区别的)。通过买东西的车的总辆次 / 通过的车的总辆次,我们能得到每一辆车的 0-1 分布,任意一辆车停下来买东西的概率 P 为: 5 100 = 0.05 \frac{5}{100}=0.05 1005=0.05

行为买东西不买东西
P0.050.95

现在,我们已经通过对之前统计的数据的分析,知道了任意一辆车通过时停下来买东西的概率。如何通过这个0-1分布来做预测?那就做独立重复实验(也就是伯努利试验),假设有 n 辆车在下个周通过该路口,每辆车停下来买东西的概率都是 p,则有 k 辆车到商店买东西的概率为:

P ( x = k ) = C n k p k ( 1 − p ) n − k P(x=k) = C_n^kp^k(1-p)^{n-k} P(x=k)=Cnkpk(1p)nk
为此,我们必须颇为无奈地对下个周通过这条路的车的总辆次做个假设,那就是也通过100辆。现在我们就能做预测啦!
P ( x = 6 ) = C 100 6 × 0.0 5 6 × ( 1 − 0.05 ) 100 − 6 ≈ 0.15 P(x=6) = C_{100}^{6}\times0.05^{6}\times(1-0.05)^{100-6} \approx 0.15 P(x=6)=C1006×0.056×(10.05)10060.15

如果以时间为维度来考量,二项分布就会出问题

上一种通过二项分布来做预测的方法,依赖于我们需要做一个假设,即下一个周通过这条路的车的总辆次是100辆。现在我们想绕过需要对总辆次做假设这一障碍,用时间来作为观察的基准。但是因为二项分布所对应的伯努利实验的每一次实验是零散的,所以不得不将连续的时间进行分割。这就要涉及到单位时间,我们不妨把单位时间设置成小时,1周 = 7 × 24 = 168 7 \times 24 = 168 7×24=168 小时。根据之前的观察,一共有 5 辆车次的车去到商店买东西,也就是说,每小时有车进商店买东西的概率为 P = 5 168 ≈ 0.02976 P=\frac{5}{168}\approx 0.02976 P=16850.02976。好像,我们又可以像上面那样去建立一个关于单位时间的0-1分布了。但是其实这个模型缺陷就出来了,由于考察的对象是单位时间,它的结果不再只有两个,即该时间段进入商店买东西的车的数量除了0、1,还可能是2、3、4、…,所以其实用0-1分布来对单位时间进入商店的车的数量进行模拟是不太科学的。

那怎么办呢?自然而然,会想到将单位时间继续分割为更小的单位时间,如果把小时分割为分钟,那每分钟就可以做60次独立重复实验,也就是说这下每分钟最多可以有60辆车进入商店买东西了。但是这样仍然不满足时间这个连续的度量,要是出现极端情况,每分钟有70辆车进入商店呢,这个模型又没法满足了。自然而然,我们想到将时间无限的分割下去。在非常非常小的一段时间里,我们就能做0-1分布的假设了,即在这段时间里只有 0 或 1 辆车进入商店买东西。但是无限的分割时间之后,我们还怎么计算这个无穷小的单位时间里车进入商店的概率呢?答案是,根本就不用去计算。因为我们的观测量是一个周汽车进入商店的辆次的总数,不妨把它记为 λ \lambda λ,它满足下面的等式:

λ = n p \lambda = n p λ=np
其中 n 为将一周的时间无限分割成的无穷小的单位时间的总份数,而 p 是分割成这么多份数之后,根据观测值 λ \lambda λ 所计算出来的该单位时间里有车辆进入商店的概率。

从二项式公式推导泊松公式

P ( X = k ) = lim ⁡ n → ∞ C n k p k ( 1 − p ) n − k = lim ⁡ n → ∞ C n k ( λ n ) k ( 1 − λ n ) n − k = lim ⁡ n → ∞ n × ( n − 1 ) × ⋯ × ( n − k + 1 ) k ! ( λ n ) k ( 1 − λ n ) n ( 1 − λ n ) − k = lim ⁡ n → ∞ n × ( n − 1 ) × ⋯ × ( n − k + 1 ) n × n × ⋯ × n λ k k ! ( 1 − λ n ) − k ( 1 − λ n ) n = 1 × λ k k ! × 1 × e − λ = λ k k ! e − λ \begin{align*} P(X=k) & = \lim_{n\rightarrow\infty}C_n^kp^k(1-p)^{n-k}\\ &= \lim_{n\rightarrow\infty}C_n^k(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n-k}\\ &= \lim_{n\rightarrow\infty}\frac{n\times(n-1)\times\cdots\times(n-k+1)}{k!}(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n}(1-\frac{\lambda}{n})^{-k}\\ &=\lim_{n\rightarrow\infty}\frac{n\times(n-1)\times\cdots\times(n-k+1)}{n\times n\times\cdots\times n}\frac{\lambda^k}{k!}(1-\frac{\lambda}{n})^{-k}(1-\frac{\lambda}{n})^{n}\\ &= 1\times \frac{\lambda^k}{k!} \times 1 \times e^{-\lambda} \\ &= \frac{\lambda^k}{k!}e^{-\lambda} \end{align*} P(X=k)=nlimCnkpk(1p)nk=nlimCnk(nλ)k(1nλ)nk=nlimk!n×(n1)××(nk+1)(nλ)k(1nλ)n(1nλ)k=nlimn×n××nn×(n1)××(nk+1)k!λk(1nλ)k(1nλ)n=1×k!λk×1×eλ=k!λkeλ
推导之后我们发现,其实根本不需要用到 n 和 p 这两个数据,而只有观测值 λ \lambda λ。到这里是不是觉得泊松大大干了一件非常有价值的事情!

通过泊松分布来对这个问题进行预测

根据之前的统计, λ = 5 \lambda = 5 λ=5
P ( X = 6 ) = 5 6 6 ! e − 5 ≈ 0.1462 P(X=6) = \frac{5^6}{6!}e^{-5} \approx 0.1462 P(X=6)=6!56e50.1462

总结

根据二项分布推导出了泊松分布,并不代表二项分布就没有泊松分布先进,只是对于解决连续时间的这种问题,显然泊松分布更好用。但是有些情况下,二项分布会更好用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/172331.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

坚鹏:中国工商银行数字化背景下银行公司业务如何快速转型培训

中国工商银行作为全球最大的银行,资产规模超过40万亿元,最近几年围绕“数字生态、数字资产、数字技术、数字基建、数字基因”五维布局,深入推进数字化转型,加快形成体系化、生态化实施路径,促进科技与业务加速融合&…

【JMeter】不同场景下的接口请求

场景1: 上传文件接口即Content-Type=multipart/form-data 步骤: 1. 接口url,method以及path正常填写 2.文件上传content-type是multipart/form-data,所以可以勾选【use multipart/form-data】,如果还有其他请求头信息可以添加一个请求头元件 3.请求参…

痤疮分类-yolov5 学习过程

1、在github上下载yolov5-5.0的源码。 GitHub - ultralytics/yolov5: YOLOv5 🚀 in PyTorch > ONNX > CoreML > TFLite

【数据中台】开源项目(2)-Dbus系统架构

大体来说,Dbus支持两类数据源: RDBMS数据源 日志类数据源 1 RMDBMS类数据源的实现 以mysql为例子. 分为三个部分: 日志抽取模块(最新版DBus已经废弃该模块,使用canal直接输出到kafka) 增量转换模块 全量拉取模块 1.1 日志抽…

【JavaEE初阶】线程安全问题及解决方法

目录 一、多线程带来的风险-线程安全 1、观察线程不安全 2、线程安全的概念 3、线程不安全的原因 4、解决之前的线程不安全问题 5、synchronized 关键字 - 监视器锁 monitor lock 5.1 synchronized 的特性 5.2 synchronized 使用示例 5.3 Java 标准库中的线程安全类…

【Spring Boot】如何集成Swagger

Swagger简单介绍 Swagger是一个规范和完整的框架,用于生成、描述、调用和可视化RESTful风格的Web服务。功能主要包含以下几点: 可以使前后端分离开发更加方便,有利于团队协作接口文档可以在线自动生成,有利于降低后端开发人员编写…

【源码分析】zeebe actor模型源码解读

zeebe actor 模型🙋‍♂️ 如果有阅读过zeebe 源码的朋友一定能够经常看到actor.run() 之类的语法,那么这篇文章就围绕actor.run 方法,说说zeebe actor 的模型。 环境⛅ zeebe release-8.1.14 actor.run() 是怎么开始的🌈 Lon…

【python】Python将100个PDF文件对应的json文件存储到MySql数据库(源码)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C/Python语言 👉公众号👈:测试开发自动化【获取源码商业合作】 👉荣__誉👈:阿里云博客专家博主、5…

那些年,关于CKACKS认证的那些事儿?

前言 遥想2020年的年初,疫情封城封村之际,工作之余在B站将尚硅谷的linux中的k8s视频完整系统的学习了一遍,自此像是打通了任督二脉一般,开启了对k8s的探索之旅,一路也是磕磕绊绊的在工作中使用k8s。 终于在23年的6月仲…

【办公软件】电脑开机密码忘记了如何重置?

这个案例是家人的电脑,已经使用多年,又是有小孩操作过的,所以电脑密码根本不记得是什么了?那难道这台电脑就废了吗?需要重新装机吗?那里面的资料不是没有了? 为了解决以上问题,一般…

技术前沿探索:人工智能与大数据融合的未来

技术前沿探索:人工智能与大数据融合的未来 摘要:本博客将探讨人工智能与大数据融合领域的最新技术趋势、前沿研究方向以及挑战与机遇。通过介绍相关技术和案例,我们希望激发读者对这一领域的兴趣,并为其职业发展提供有益参考。 一…

万字解析设计模式之模板方法与解释器模式

一、模板方法模式 1.1概述 定义一个操作中算法的框架,而将一些步骤延迟到子类中,模板方法使得子类可以不改变一个算法的结构即可重定义该算法的某些特定步骤。 例如,去银行办理业务一般要经过以下4个流程:取号、排队、办理具体业…

qt pdf 模块简介

文章目录 1. 技术平台2. Qt pdf 模块3. cmake 使用模块4. 许可证5. 简单示例5.1 CMakeLists.txt5.2 main.cpp 6. 总结 1. 技术平台 项目说明OSwin10 x64Qt6.6compilermsvc2022构建工具cmake 2. Qt pdf 模块 Qt PDF模块包含用于呈现PDF文档的类和函数。 QPdfDocument 类加载P…

监控同一局域网内其它主机上网访问信息

1.先取得网关IP 2.安装IPTABLES路由表 sudo apt-get install iptables 3.启用IP转发 sudo sysctl -p 查看配置是否生效 4.配置路由 iptables -t nat -A POSTROUTING -j MASQUERADE 配置成功后,使用sudo iptables-save查看

[leetCode]257. 二叉树的所有路径(两种方法)

257. 二叉树的所有路径 题目描述: 给你一个二叉树的根节点 root ,按 任意顺序 ,返回所有从根节点到叶子节点的路径。 叶子节点 是指没有子节点的节点。 示例: 输入:root [1,2,3,null,5]输出:["1-&g…

【Spring】Spring事务失效问题

📫作者简介:小明java问道之路,2022年度博客之星全国TOP3,专注于后端、中间件、计算机底层、架构设计演进与稳定性建设优化,文章内容兼具广度、深度、大厂技术方案,对待技术喜欢推理加验证,就职于…

基于uniapp+vue微信小程序的健康饮食管理系统 907m6

设计这个微信小程序系统能使用户实现不需出门就可以在手机或电脑前进行网上查询美食信息、 运动视频等功能。 本系统由用户和管理员两大模块组成。用户界面显示在应用程序中,管理员界面显示在后台服务中,通过小程序端与服务端间进行数据交互与数据传输实…

自建CA实战之 《0x03 代码签名》

自建CA实战之 《0x03 代码签名》 本文针对Windows平台,介绍如何使用自建CA来签发代码签名证书。 之前的文章中,我们介绍了如何自建CA,以及如何使用自建CA来签发Web服务器证书、客户端证书。 本文将介绍如何使用自建CA来签发代码签名证书。…

文本转语音:微软语音合成标记语言 (SSML) 文本结构和事件

​ SSML 的语音服务实现基于万维网联合会的语音合成标记语言版本 1.0。 ​ 语音服务支持的元素可能与 W3C 标准不同。 每个 SSML 文档是使用 SSML 元素(或标记)创建的。 这些元素用于调整语音、风格、音节、韵律、音量等。 下面是 SSML 文档的基本结构…

CANdelaStudio 使用教程5 编辑DID

文章目录 在哪编辑DID的分类编辑快照数据添加 DID 在哪编辑 DID的分类 编辑快照数据 添加 DID