关于样本方差为什么除以 n-1

今天上午集训摸鱼看到同学给我发的这个问题感觉挺有意思的

感性理解

这一部分的内容仅代表本蒟蒻没看严谨证明之前的个人见解,如果您想看严谨的证明,请翻到下一部分

还是先把图放上来罢省的有人不知道讲的什么东西
在这里插入图片描述
呃我知道这是生物竞赛的东西(不过生物信息学都开始教图论了我讲这玩意有什么问题

没错我们讨论的就是:我在我的垃圾箱里翻出的有关于方差的知识下面的分母是 n n n 但是在这里却变成了 n − 1 n-1 n1

从非低级数学的角度思考

我们这里所计算的方差是样本的方差,先来思考一下我们为什么要计算样本方差
没错。因为总体太多了,只能根据样本估计总体

那么为什么要去算方差?
以这道题来看是为了去分析遗传有关的东西

ok那现在就可以开始我们的感性理解了

我们需要去算一个总体的值是因为我们要根据这个值来决定下面的结论或操作,如果我们的估计比原来的大还在可接受范围内,那么我们是大可以放心的去干的。但是如果估计的可能比原来的小,那么就比较危险了,这是我们所不希望看到的。

所以这个时候在计算方差的时候人为的把方差变的大一些,或许就可以保证估计在可接受范围内了?

其实很显然这样理解有点道理但不多(那个 n − 1 n-1 n1 总不能是模拟退火退出来的罢)

所以我们就需要严谨的证明

严谨的数学证明

参考文章

其实你直接去看参考文章可能体验会更好

设样本均值为 X ˉ \bar{X} Xˉ ,样本方差为 S 2 S^2 S2 ,总体均值为 μ \mu μ ,总体方差为 σ 2 \sigma^2 σ2 ,那么样本方差 S 2 S^2 S2 有如下公式:
S 2 = 1 n − 1 ∑ i = 1 n ( x i − X ˉ ) 2 S^2=\frac{1}{n-1} \sum_{i=1}^n\left(x_i-\bar{X}\right)^2 S2=n11i=1n(xiXˉ)2

其实如果你百度过,会知道要除以 n − 1 n-1 n1 这个是一个无偏估计

无偏估计

以例子来说明,假如你想知道在 wz 学生的平均身高是多少,全部统计有点不现实,但是你可以先随机挑选 100 个人,统计他们的身高,然后计算出他们的平均值,记为 X 1 ‾ \overline{X_1} X1 。如果你只是把 X 1 ‾ \overline{X_1} X1 作为整体的身高平均值,误差肯定很大,因为你再随机挑选出 100 个人,身高平均值很可能就跟刚才计算的不同,为了使得统计结果更加精确,你需要多抽取几次,然后分别计算出他们的平均值,分别记为: X 2 ‾ 、 X 3 ‾ 、 ⋯ X k ‾ \overline{X_2} 、 \overline{X_3} 、 \cdots \overline{X_k} X2X3Xk 然后再把这些平均值,再做平均,记为: E ( X ˉ ) E(\bar{X}) E(Xˉ) ,这样的结果肯定比只计算一次更加精确, 随着重复抽取的次数增多,这个期望值会越来越接近总体均值 μ \mu μ ,如果满足 E ( X ˉ ) = μ E(\bar{X})=\mu E(Xˉ)=μ ,这就是一个无偏估计,其中统计的样本均值也是一个随机变量, X ˉ i \bar{X}_i Xˉi 就是 X ˉ \bar{X} Xˉ 的一个取值。无偏估计的意义是 : 在多次重复下,它们的平均数接近所估计的参数真值。
介绍无偏估计的意义就是,我们计算的样本方差,希望它是总体方差的一个无偏估计,那么假如我们的样本方差是如下形式:
S 2 = 1 n ∑ i = 1 n ( x i − X ˉ ) 2 S^2=\frac{1}{n} \sum_{i=1}^n\left(x_i-\bar{X}\right)^2 S2=n1i=1n(xiXˉ)2
那么根据无偏估计的定义去抄大佬推的式子:

E ( S 2 ) = E ( 1 n ∑ i = 1 n ( x i − X ˉ ) 2 ) = E ( 1 n ∑ i = 1 n ( ( x i − μ ) − ( X ˉ − μ ) ) 2 ) = E ( 1 n ∑ i = 1 n ( ( x i − μ ) 2 − 2 ( x i − μ ) ( X ˉ − μ ) + ( X ˉ − μ ) 2 ) ) = E ( 1 n ∑ i = 1 n ( x i − μ ) 2 − 1 n ∑ i = 1 n 2 ( x i − μ ) ( X ˉ − μ ) + 1 n ∑ i = 1 n ( X ˉ − μ ) 2 ) \begin{aligned} & E\left(S^2\right) \\ = & E\left(\frac{1}{n} \sum_{i=1}^n\left(x_i-\bar{X}\right)^2\right)=E\left(\frac{1}{n} \sum_{i=1}^n\left(\left(x_i-\mu\right)-(\bar{X}-\mu)\right)^2\right) \\ = & E\left(\frac{1}{n} \sum_{i=1}^n\left(\left(x_i-\mu\right)^2-2\left(x_i-\mu\right)(\bar{X}-\mu)+(\bar{X}-\mu)^2\right)\right) \\ = & E\left(\frac{1}{n} \sum_{i=1}^n\left(x_i-\mu\right)^2-\frac{1}{n} \sum_{i=1}^n 2\left(x_i-\mu\right)(\bar{X}-\mu)+\frac{1}{n} \sum_{i=1}^n(\bar{X}-\mu)^2\right) \end{aligned} ===E(S2)E(n1i=1n(xiXˉ)2)=E(n1i=1n((xiμ)(Xˉμ))2)E(n1i=1n((xiμ)22(xiμ)(Xˉμ)+(Xˉμ)2))E(n1i=1n(xiμ)2n1i=1n2(xiμ)(Xˉμ)+n1i=1n(Xˉμ)2)
注意最后的中间那一项:

∵ 1 n ∑ i = 1 n ( x i − μ ) = 1 n ∑ i = 1 n x i − μ = X ˉ − μ \begin{aligned}& \because \frac{1}{n} \sum_{i=1}^n\left(x_i-\mu\right)=\frac{1}{n} \sum_{i=1}^n x_i-\mu=\bar{X}-\mu \end{aligned} n1i=1n(xiμ)=n1i=1nxiμ=Xˉμ
可得:
E ( 1 n ∑ i = 1 n ( x i − μ ) 2 − 1 n ∑ i = 1 n 2 ( x i − μ ) ( X ˉ − μ ) + 1 n ∑ i = 1 n ( X ˉ − μ ) 2 ) = E ( 1 n ∑ i = 1 n ( x i − μ ) 2 − 2 ( X ˉ − μ ) ( X ˉ − μ ) + ( X ˉ − μ ) 2 ) = E ( 1 n ∑ i = 1 n ( x i − μ ) 2 − ( X ˉ − μ ) 2 ) = E ( 1 n ∑ i = 1 n ( x i − μ ) 2 ) − E ( ( X ˉ − μ ) 2 ) ≤ σ 2 \begin{aligned} & E\left(\frac{1}{n} \sum_{i=1}^n\left(x_i-\mu\right)^2-\frac{1}{n} \sum_{i=1}^n 2\left(x_i-\mu\right)(\bar{X}-\mu)+\frac{1}{n} \sum_{i=1}^n(\bar{X}-\mu)^2\right) \\ & =E\left(\frac{1}{n} \sum_{i=1}^n\left(x_i-\mu\right)^2-2(\bar{X}-\mu)(\bar{X}-\mu)+(\bar{X}-\mu)^2\right) \\ & =E\left(\frac{1}{n} \sum_{i=1}^n\left(x_i-\mu\right)^2-(\bar{X}-\mu)^2\right) \\ & =E\left(\frac{1}{n} \sum_{i=1}^n\left(x_i-\mu\right)^2\right)-E\left((\bar{X}-\mu)^2\right) \leq \sigma^2 \end{aligned} E(n1i=1n(xiμ)2n1i=1n2(xiμ)(Xˉμ)+n1i=1n(Xˉμ)2)=E(n1i=1n(xiμ)22(Xˉμ)(Xˉμ)+(Xˉμ)2)=E(n1i=1n(xiμ)2(Xˉμ)2)=E(n1i=1n(xiμ)2)E((Xˉμ)2)σ2

由上式可以看出如果除以 n n n,那么样本方差比总体方差的值偏小,我们需要进行修正,使得样本方差是总体方差的无偏估计。

我们接着上式继续化简:
E ( 1 n ∑ i = 1 n ( x i − μ ) 2 ) − E ( ( X ˉ − μ ) 2 ) = Var ⁡ ( X ) − Var ⁡ ( X ˉ ) = σ 2 − 1 n σ 2 = n − 1 n σ 2 \begin{aligned} & E\left(\frac{1}{n} \sum_{i=1}^n\left(x_i-\mu\right)^2\right)-E\left((\bar{X}-\mu)^2\right) \\ & =\operatorname{Var}(X)-\operatorname{Var}(\bar{X}) \\ & =\sigma^2-\frac{1}{n} \sigma^2 \\ & =\frac{n-1}{n} \sigma^2 \end{aligned} E(n1i=1n(xiμ)2)E((Xˉμ)2)=Var(X)Var(Xˉ)=σ2n1σ2=nn1σ2

最后我们就得到了 this:

E ( S 2 ) = n − 1 n σ 2 E\left(S^2\right)=\frac{n-1}{n} \sigma^2 E(S2)=nn1σ2

如果让我们假设的样本方差 S 2 S^2 S2 乘以 n n − 1 \frac{n}{n-1} n1n ,即修正成如下形式,就可以得到样本方差是总体方差 σ 2 \sigma^2 σ2 的无偏估计
S 2 = n n − 1 ( 1 n ∑ i = 1 n ( x i − X ˉ ) 2 ) = 1 n − 1 ∑ i = 1 n ( x i − X ˉ ) 2 S^2=\frac{n}{n-1}\left(\frac{1}{n} \sum_{i=1}^n\left(x_i-\bar{X}\right)^2\right)=\frac{1}{n-1} \sum_{i=1}^n\left(x_i-\bar{X}\right)^2 S2=n1n(n1i=1n(xiXˉ)2)=n11i=1n(xiXˉ)2

则:

E ( S 2 ) = E ( 1 n − 1 ∑ i = 1 n ( x i − X ˉ ) 2 ) = E ( 1 n − 1 ∑ i = 1 n ( ( x i − μ ) − ( X ˉ − μ ) ) 2 ) = E ( 1 n − 1 ∑ i = 1 n ( ( x i − μ ) 2 − 2 ( x i − μ ) ( X ˉ − μ ) + ( X ˉ − μ ) 2 ) ) = E ( 1 n − 1 ∑ i = 1 n ( x i − μ ) 2 − 1 n − 1 ∑ i = 1 n 2 ( x i − μ ) ( X ˉ − μ ) + 1 n − 1 ∑ i = 1 n ( X ˉ − μ ) 2 ) = E ( 1 n − 1 ∑ i = 1 n ( x i − μ ) 2 − 2 n n − 1 ( X ˉ − μ ) ( X ˉ − μ ) + n n − 1 ( X ˉ − μ ) 2 ) = E ( 1 n − 1 ∑ i = 1 n ( x l − μ ) 2 ) − E ( n n − 1 ( X ˉ − μ ) 2 ) = n n − 1 E ( 1 n ∑ i = 1 n ( x i − μ ) 2 ) − n n − 1 E ( ( X ˉ − μ ) 2 ) = n n − 1 σ 2 − n n − 1 × σ 2 n = σ 2 \begin{aligned} & E\left(S^2\right) \\ & =E\left(\frac{1}{n-1} \sum_{i=1}^n\left(x_i-\bar{X}\right)^2\right) \\ & =E\left(\frac{1}{n-1} \sum_{i=1}^n\left(\left(x_i-\mu\right)-(\bar{X}-\mu)\right)^2\right) \\ & =E\left(\frac{1}{n-1} \sum_{i=1}^n\left(\left(x_i-\mu\right)^2-2\left(x_i-\mu\right)(\bar{X}-\mu)+(\bar{X}-\mu)^2\right)\right) \\ & =E\left(\frac{1}{n-1} \sum_{i=1}^n\left(x_i-\mu\right)^2-\frac{1}{n-1} \sum_{i=1}^n 2\left(x_i-\mu\right)(\bar{X}-\mu)+\frac{1}{n-1} \sum_{i=1}^n(\bar{X}-\mu)^2\right) \\ & =E\left(\frac{1}{n-1} \sum_{i=1}^n\left(x_i-\mu\right)^2-\frac{2 n}{n-1}(\bar{X}-\mu)(\bar{X}-\mu)+\frac{n}{n-1}(\bar{X}-\mu)^2\right) \\ & =E\left(\frac{1}{n-1} \sum_{i=1}^n\left(x_l-\mu\right)^2\right)-E\left(\frac{n}{n-1}(\bar{X}-\mu)^2\right) \\ & =\frac{n}{n-1} E\left(\frac{1}{n} \sum_{i=1}^n\left(x_i-\mu\right)^2\right)-\frac{n}{n-1} E\left((\bar{X}-\mu)^2\right) \\ & =\frac{n}{n-1} \sigma^2-\frac{n}{n-1} \times \frac{\sigma^2}{n} \\ & =\sigma^2 \\ & \end{aligned} E(S2)=E(n11i=1n(xiXˉ)2)=E(n11i=1n((xiμ)(Xˉμ))2)=E(n11i=1n((xiμ)22(xiμ)(Xˉμ)+(Xˉμ)2))=E(n11i=1n(xiμ)2n11i=1n2(xiμ)(Xˉμ)+n11i=1n(Xˉμ)2)=E(n11i=1n(xiμ)2n12n(Xˉμ)(Xˉμ)+n1n(Xˉμ)2)=E(n11i=1n(xlμ)2)E(n1n(Xˉμ)2)=n1nE(n1i=1n(xiμ)2)n1nE((Xˉμ)2)=n1nσ2n1n×nσ2=σ2

故修正之后的样本方差的期望是总体方差的一个无偏估计,这就可以解释分母为何要除以 n − 1 n-1 n1 了。

结语

没有结语

如果有什么地方写的不够完善,请各位大佬在评论区指出 /bx/bx/bx

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/18944.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

下载列表视频的具体操作

主要是介绍怎样获取上篇博客需要的HAR文件和请求域名

docker: Error response from daemon: No command specified.

执行 docker run -it -d -v /home/dell/workspace/workspace/test_192.168.1.202_pipeline:/home/workspace1 --name test_192.168.1.202_pipeline_10 qnx:7.1报错 问题定位:export导入的镜像需要带上command,以下命令查看command信息 docker ps --no…

十进制、八进制、二进制、十六进制

十进制 每一位都有 0~9 十个数码,逢十进一 二进制 每一位仅有 0 和 1 两个数码,逢二进一 八进制 每一位都有 0~7 八个数码,逢八进一 十六进制 每一位都有 0~9、A(10)、B(11)、C(12)、D(13)、E(14)、F(15),十六个数码&#…

牛客网Verilog刷题——VL53

牛客网Verilog刷题——VL53 题目答案 题目 设计一个单端口RAM,它有: 写接口,读接口,地址接口,时钟接口和复位;存储宽度是4位,深度128。注意rst为低电平复位。模块的接口示意图如下。 输入输出描…

【A200】Ubuntu18.04 + ROS-Melodic + 比业电子VISIOSCAN雷达 评测

大家好,我是虎哥,朋友介绍,有一款单线激光雷达,25米的检测距离,有80HZ的扫描频率,而且角度分辨率最高可以到0.1,这个参数我确实没有见过,所以立刻着手从厂家那申请到了VISIOSCAN雷达…

JVM基础篇-虚拟机栈

JVM基础篇-虚拟机栈 定义 Java Virtual Machine Stacks (Java 虚拟机栈) 每个线程运行时所需要的内存,称为虚拟机栈每个栈由多个栈帧(Frame)组成,对应着每次方法调用时所占用的内存每个线程只能有一个活动…

机房断网断电监测网关支持远程告警

RTU5028E网络故障监测终端是一款功能强大且方便实用的设备,集合了断网、断电、网线故障报警功能。它支持同时监测多达7台网络设备,可以帮助用户快速定位远程网络设备离线的原因。此外,它还具备自动重启和远程重启网络设备的功能,为…

思科模拟器配置静态路由(下一跳使用IP)

Router0配置代码:##端口配置 Router(config)#int fastEthernet 0/0 Router(config-if)#ip address 192.168.10.254 255.255.255.0 Router(config-if)#no shutdown Router(config-if)#int fastEthernet 0/1 Router(config-if)#ip address 192.168.20.1 255.255.255.2…

深度剖析数据在内存中的存储

目录 数据类型介绍 类型的基本归类 整形家族: 浮点数家族: 构造类型: 指针类型 空类型: 整形在内存中的存储 原码、反码、补码 大小端介绍 什么大端小端: 为什么有大端和小端: 练习 浮点型在内存中的储存 一个例子 浮点数存储规则 数据类型介绍 前面我们…

Windows同时安装两个版本的JDK并随时切换,以JDK6和JDK8为例,并解决相关存在的问题(亲测有效)

Windows同时安装两个版本的JDK并随时切换,以JDK6和JDK8为例,并解决相关存在的问题(亲测有效) 1.下载不同版本JDK 这里给出JDK6和JDK的百度网盘地址,具体安装过程,傻瓜式安装即可。 链接:http…

【Linux】用户相关内容

如果命令ll 出现以上信息,UID为具体的数字,代表之前UID为502的用户被删除了。 更改目录或文件所属用户和所属组 在Linux中,创建一个文件时,该文件的拥有者都是创建该文件的用户。 更改所属用户 chown 用户名 文件名/目录名 更…

VisualStudioWindows下 远程调试

前置条件 1、调试方与被调试方,以下简称调试方为A,被调试方为B。A与B双方能相互ping通 2、B需要运行RemoteDebugger服务,该程序位于C:\Program Files\Microsoft Visual Studio\2022\Community\Common7\IDE\Remote Debugger下。 我这里是安装…

基于总线加锁和缓存锁(CPU实现原子操作的两种方式)

总线锁 总线锁就是使用处理器提供的一个 LOCK#信号,当一个处理器在总线上输出此信号时,其他处理器的请求将被阻塞住,那么该处理器可以独占共享内存。 CPU和内存之间的通信被锁!! 如果多个 处 理器同 时对 …

windows下的txt文档,传到ubuntu后,每行后面出现^M,怎么处理?

问题背景:windows下pycharm生成的txt文档,传到ubuntu后,每行后面出现^M 用vim打开显示 使用cat -A filename显示如下 参考https://www.lmlphp.com/user/16697/article/item/579325/给出的几种方法 方法一、dos2unix filename。服务器没装…

配置IPv6 over IPv4手动隧道示例

组网需求 如图1所示,两台IPv6主机分别通过SwitchA和SwitchC与IPv4骨干网络连接,客户希望两台IPv6主机能通过IPv4骨干网互通。 图1 配置IPv6 over IPv4手动隧道组网图 配置思路 配置IPv6 over IPv4手动隧道的思路如下: 配置IPv4网络。配置接…

iptables防火墙、filter表控制、扩展匹配、使用iptables配置网络型防火墙、NAT原理、配置SNAT

day05 day05iptables防火墙filter表filter中的三条链环境准备iptables操作验证FORWARD链准备环境配置FORWARD链NAT配置SNAT iptables iptables有多种功能,每一种功能都用一张表来实现最常用的功能是防火墙和NAT从RHEL7开始,默认的防火墙为firewalld&a…

fiddler 手机抓包(含https) 完整流程

第一部分:下载并安装fiddler 一.使用任一浏览器搜索【fiddler下载安装】,并下载fiddler 安装包。 二.fiddler安装包下载成功后,将下载的fiddler压缩包解压到自定义文件夹【fiddler】或者解压到当前文件夹下,双击文件夹中的【fidd…

一起学算法(链表篇)

1.链表的概念 对于顺序存储的结构最大的缺点就是插入和排序的时候需要移动大量的元素&#xff0c;所以链表的出生由此而来 先上代码&#xff1a; // 链表 public class LinkedList<T extends Comparable> {// 结点类class Node {T ele; // 当前结点上的元素内容Node ne…

台式机/工控机通过网线共享笔记本电脑无线网络linux系统下 usb网卡的驱动安装

一、台式机/工控机通过网线共享笔记本电脑无线网络 1、 将台式机通过网线和笔记本连接。 2、 将笔记本的“本地连接”和“无线网络连接”的ipv4均设置为自动获取。 4.修改台式机的IP地址为如下&#xff08;对应笔记本信息&#xff09; IP地址为192.168.XXX.12 子网掩码为255.2…

flask

flask 介绍 # python 界的web框架 -Django&#xff1a;大而全&#xff0c;快速开发&#xff0c;公司内部项目 -Flask&#xff1a;小而精&#xff0c;不具备web开发好多功能&#xff0c;丰富的第三方插件 -FastApi&#xff1a;异步框架&#xff0c;主要为了做前后端…