做数据分析为何要学统计学（2）——如何估计总体概率分布

我们可以通过手头掌握的样本来估计总体的概率分布。这个过程由以下步骤组成。

第一步，我们采用Seaborn软件的histplot函数建立核密度图（一种概率密度图）。

import numpy as np
#输入样本数据
x=np.array([2.12906357, 0.72736725, 1.05152821, 0.48600398, 1.91963227,1.62165678, 8.86319952, 0.24399412, 4.19883103, 2.80846683,1.34644303, 0.35146917, 1.7575424 , 3.90572887, 1.07404978,4.05247124, 0.65839571, 0.40166037, 2.03241598, 0.53592929])
import seaborn as sns
#kde=True会绘制概率密度曲线，否则只有直方图
sns.histplot(x,kde=True)

第二步，确定几个与之相近的候选概率分布（一般3个左右）。从上图来看，可以选择卡方分布、指数分布、伽玛分布。

第三步，分布拟合这三个候选分布的参数，并使用拟合得出的分布参数检验每一个候选分布

import scipy.stats as stats
#构造候选分布集合
dists={'expon':stats.expon,'chi2':stats.chi2,'gamma':stats.gamma}for dist in dists:#拟合每一个分布params=dists[dist].fit(x)#检验每一个分布test=stats.kstest(x,dists[dist].cdf,params)print(dist,test.pvalue,params)

第四步，选择p值（每一个值）最大的作为检验结果

expon 0.9001 (0.016, 1.91)
chi2  0.3800 (1.78, 0.016, 1.37)
gamma 0.8080 (0.94, 0.016, 1.95)

从以上数据可以看出，样本最大可能是参数 $\frac{1}{ \lambda }=1.91$ 的指数分布。而事实上，原始样本确实是以 $\frac{1}{ \lambda }=2$ 生成的随机数样本

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/219755.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

做数据分析为何要学统计学（2）——如何估计总体概率分布

相关文章

【JVM从入门到实战】（六）类加载器的双亲委派机制

提升数据采集技能：用 Axios 实现的 Twitter 视频下载器全面解析

网络安全项目实战（三）--报文检测

低代码 —— 饮食均衡，合理膳食

【改进YOLOv8】矿物尺寸图像分析系统：融合位置感知循环卷积(ParC)改进YOLOv8

Spring Boot 整合过滤器拦截器

力扣5、最长回文子串

SpringBoot对PDF进行模板内容填充、电子签名合并

C# 提取PDF中指定文本、图片的坐标

Python机器学习19——常用六种机器学习的异常值监测方法(孤立森林，数据支持描述，自编码器，高斯混合，DBSCAN，LOF)

WPF-一个简单登录界面

Java - 异常（三）- 声明异常（throws）和手动抛出异常throw

数字化赋能实体经济，凌雄科技发挥DaaS模式提质增效价值

【数学建模美赛M奖速成系列】报名流程与论文的基本格式

通过Jenkins将应用发布到K8s1.24.3

Vue 3 开发中遇到的问题及解决方案（fix bug）

深圳移动与大富科技助力深圳人工智能教育高质量发展

常见的工作流编排引擎

解决文件默认打开程序选择被联想管家劫持

Java面试题1-10