数据分析为何要学统计学(4)——何为置信区间?它有什么作用?

置信区间是统计学中的一个重要工具,是用样本参数(\bar u ,\sigma)估计出来的总体均值在某置信水平下的范围。通俗一点讲,如果置信度为95%(等价于显著水平a=0.05),置信区间为[a,b],这就意味着总体均值落入该区间的概率为95%,或者以95%的可信程度相信总体均值在这个范围内。

一般情况下当我们抽样的数量大于等于30时,可认为样本均值服从正态分布,以此我们通过查标准正态分布表,获得显著水平a下的z值,用以下公式即可获得置信区间。

[\bar u-\frac{|z_a|}{\sqrt n}*\sigma ,\bar u+\frac{|z_a|}{\sqrt n}*\sigma]

 如果样本数量小于30,我们可以根据中心极限定理,进行多轮抽样产生均值样本,计算置信区间。如下例所示。

工厂要确定95%置信水平下的产品成份含量的置信区间,但手里只有20个样本数据,如何来估计总体的成分含量呢?

我们可以对这20个样本数据进行30轮重复采样,每次随机采样10件产品,记录其均值。这样会得到由30个均值构成的样本。根据中心极限定理,这个样本服从正态分布,于是我们就可以用这个均值样本来估计总体的成分含量置信区间了。

 示例代码如下:

#初始化样本
X=np.array([91,94,91,94,97,83,91,95,94,96,97,95,90,91,95,91,88,85,89,93])#样本排序,为了适应下面的随机抽样函数
X=sorted(X)#使用random模块的随机抽样函数sample,进行抽样。该函数有两个参数,第一个是样本集合,第二个是抽取数量
import random#进行30轮随机抽样同时计算均值,形成新的正态分布的样本
n=30
X_new=[np.mean(random.sample(X, 10)) for i in range(n)]#计算样本均值和标准差
mu,std=np.mean(X_new),np.std(X_new)#求置信区间
[mu-std/np.sqrt(n)*1.96,mu+std/np.sqrt(n)*1.96]

最终估计的总体均值置信区间为[91.69, 92.18]。


中心极限定理:无论样本所属总体服务什么分布,对该样本进行n次随机采样,产生n个新的样本,那么这n个样本的n个均值所在总体服务正态分布。而且n越大,越接近正态分布。如下例

这是0到9,10个数构成的样本,其分布图如下所示,是一个均匀分布。

然后我们进行20轮重复采样,每次采集2个数字,形成的均值样本分布如下图所示, 正态分布还不明显

 进行50轮重复采样,形成的均值样本分布如下图所示, 正态分布开始显现

进行1000轮重复采样,形成的均值样本分布如下图所示, 基本呈正态分布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/221841.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Two Phase Termination(两阶段)设计模式

Two Phase Termination设计模式是针对任务由两个环节组成,第一个环节是处理业务相关的内容,第二个阶段是处理任务结束时的同步、释放资源等操作。在进行两阶段终结的时候,需要考虑: 第二阶段终止操作必须保证线程安全。 要百分百…

2036开关门,1109开关门

一:2036开关门 1.1题目 1.2思路 1.每次都是房间号是服务员的倍数的时候做处理,所以外层(i)枚举服务员1~n,内层(j)枚举房间号1~n,当j % i0时,做处理 2.这个处理指的是&…

小项目:迷宫

目录 引言1.题目描述及思想2.代码实现3.最终结果 引言 这个迷宫的话就是去年这时候,我记得当时讲这个的时候我还是一脸懵逼,就是事后花时间能够看懂,能够理解,但是自己肯定是不能够实现的,而且觉得这个东西非常的庞大…

IIC和SPI结合实现室内温度计

iic.h #ifndef __IIC_H__ #define __IIC_H__ #include "stm32mp1xx_gpio.h" #include "stm32mp1xx_rcc.h" #include "gpio.h" /* 通过程序模拟实现I2C总线的时序和协议* GPIOF ---> AHB4* I2C1_SCL ---> PF14* I2C1_SDA ---> PF15** *…

facebook广告的门槛有哪些

Facebook广告的门槛主要包括以下几个方面: 账户资格:需要拥有一个有效的Facebook个人账号或商业账号。 账户状态:个人账号需要满足一定活跃度要求,而商业账号则需要满足公司名称和地址等详细信息的要求。 账户安全性&#xff1a…

每日一题:Leetcode974.和可被k整除的子数组

题目描述: 给定一个整数数组 nums 和一个整数 k ,返回其中元素之和可被 k 整除的(连续、非空) 子数组 的数目。 子数组 是数组的 连续 部分。 示例 1: 输入:nums [4,5,0,-2,-3,1], k 5 输出&#xff1…

什么是PHPUnit?如何进行单元测试?

PHPUnit 是一个用于 PHP 的单元测试框架,它支持测试驱动开发(TDD)和行为驱动开发(BDD)。PHPUnit 提供了一套用于编写和运行测试的工具和断言方法。 以下是使用 PHPUnit 进行单元测试的基本步骤: 步骤 1: …

【LeetCode刷题笔记(4)】【Python】【移动零】【简单】

文章目录 题目描述示例 1示例 2提示 解决方案题意拆解双指针算法双指针法的主要优点双指针法的使用场景举例: 解决方案:【双指针一次遍历】解题心得方案代码运行结果复杂度分析 结束语 移动零 题目描述 给定一个数组 nums,编写一个函数将所…

代码随想录第三十一天(一刷C语言)|无重叠区间划分字母区间合并区间

创作目的:为了方便自己后续复习重点,以及养成写博客的习惯。 一、无重叠区间 思路:参考carl文档 按照右边界排序,从左向右记录非交叉区间的个数。最后用区间总数减去非交叉区间的个数就是需要移除的区间个数了。 ledcode题目&a…

多线程------ThreadLocal详解

目录 1. 什么是 ThreadLocal? 2. 如何使用 ThreadLocal? 3. ThreadLocal 的作用 4. ThreadLocal 的应用场景 5. ThreadLocal 的注意事项 我的其他博客 ThreadLocal 是 Java 中一个很有用的类,它提供了线程局部变量的支持。线程局部变量…

家政服务小程序预约上门,让服务更便捷

随着人们生活节奏的加快,家政服务行业越来越受到人们的欢迎。为了满足市场需求,提高服务质量,家政公司需要开发一款预约上门的家政服务小程序。本文将详细介绍如何制作一个预约上门的家政服务小程序。 一、登录乔拓云网后台 首先&#xff0c…

模块二——滑动窗口:438.找到字符串中所有字母异位词

文章目录 题目描述算法原理滑动窗口哈希表 代码实现 题目描述 题目链接:438.找到字符串中所有字母异位词 算法原理 滑动窗口哈希表 因为字符串p的异位词的⻓度⼀定与字符串p 的⻓度相同,所以我们可以在字符串s 中构造⼀个⻓度为与字符串p的⻓度相同…

【Stm32-F407】Keil uVision5 下新建工程

①双击鼠标左键打开Keil uVision5,选择 Project 下的 New uVision Project ; ②在期望的文件夹下创建一个工程,并按如下要求操作; ③添加文件类型,按如下要求操作 ④如有需要可添加相关启动文件在工程文件夹下并添加到…

深度学习中的高斯分布

1 高斯分布数学表达 1.1 什么是高斯分布 高斯分布(Gaussian Distribution)又称正态分布(Normal Distribution)。高斯分布是一种重要的模型,其广泛应用与连续型随机变量的分布中,在数据分析领域中高斯分布占有重要地位。高斯分布是一个非常常见的连续概…

ArrayList与顺序表(带完整实例)

【本节目标】 1. 线性表 2. 顺序表 3. ArrayList的简介 4. ArrayList使用 5. ArrayList的扩容机制 6. 扑克牌 1.线性表 线性表(linear list)是n个具有相同特性的数据元素的有限序列。 线性表是一种在实际中广泛使用的数据结构,常见的线性表…

Mysql 计算地理位置信息

mysql 处理空间关系 MySQL提供了一系列的函数来帮助我们处理空间对象之间的关系,如 ST_Intersects、ST_Contains 等。这些函数可以帮助我们判断空间对象之间的位置关系,并在此基础上执行相应的查询。 多边形查询 在实际应用中,需要查询某个…

【CSS 渐变Gradient详解】线性渐变、径向渐变、锥形渐变及重复渐变

渐变 gradient https://developer.mozilla.org/zh-CN/docs/Web/CSS/gradient https://developer.mozilla.org/zh-CN/docs/Web/CSS/CSS_images/Using_CSS_gradients CSS 属性值定义语法 https://developer.mozilla.org/zh-CN/docs/Web/CSS/angle https://developer.mozilla.org/…

HTTP 301错误:永久重定向,大勇的冒险之旅

大家好,我是大勇,一个喜欢冒险的程序员。今天,我要和大家分享一个我在互联网世界中的冒险故事——如何处理HTTP 301错误:永久重定向。 那天,我像往常一样,打开我的代码编辑器,准备开始一天的工…

代码随想录算法训练营第36天|● 435. 无重叠区间 ● 763.划分字母区间 ● 56. 合并区间

435. 无重叠区间 已解答 中等 相关标签 相关企业 给定一个区间的集合 intervals ,其中 intervals[i] [start(i), end(i)] 。返回 需要移除区间的最小数量,使剩余区间互不重叠 。 示例 1: 输入: intervals [[1,2],[2,3],[3,4],[1,3]]输出: 1解释: 移除…

Wireshark抓包实验

实验目的: 通过实验掌握下列知识: 掌握Wireshark抓包工具的使用。掌握建立telnet用户密码登录方式,并通过wireshark抓取相关信息。理解TCP的包结构,并掌握TCP建立连接的过程。掌握使用tftp工具,上传、下载文件操作及t…