统计学-R语言-6.1

文章目录

  • 前言
  • 参数估计的原理
    • 总体、样本和统计量
    • 点估计
    • 区间估计
    • 评价估计量的标准
    • 有效性
  • 总体均值的区间估计
    • 一个总体均值的估计(大样本)
    • 一个总体均值的估计(小样本估计)
  • 练习


前言

本篇文章将开始介绍参数估计的相关知识。


参数估计的原理

总体、样本和统计量

在调查居民对延迟退休态度的例子中,每个爱民区居民的态度称为(这个调查问题中的)个体(element, individual, unit),而所有爱民区居民对这个问题的观点称为总体(population)
总体是包含所有要研究的个体的集合。
由于包含的个体数有限,该总体也称为有限总体(finite population)
如果总体包含的个体数是无限或相对无限的,则称为无限总体(infinite population)
调查获得的部分爱民区居民的观点(也就是部分个体)称为该总体的一个样本(sample),它是从总体中选出的一部分。
总体代表我们所关心的那部分现实世界
在大多数情况下,要么总体的规模很大,要么很难确定总体的所有成员,因此需要通过样本信息来推断总体特征
但是,样本虽然含有总体的信息,但是信息一般比较分散,不能直接用于统计推断
为了把分散在样本中的信息集中起来,我们用样本的某个不含总体未知参数的函数来表示,这个函数就称为统计量(statistics)
因此,统计量是对数据的压缩
如果样本的函数包含了未知参数,那这个函数就不是统计量,因为还未完成对数据的压缩。

如果能够估计出参数,那么对总体的具体分布就知道得差不多了。换句话说,不知道总体的特征参数,但可以通过计算样本统计量来估计总体参数。
用于估计参数的统计量称为估计量(estimator)。若得到一组观察值,则将其代入估计量得到的具体数值, 称为参数的估计值。
今后,将不再强调估计量和估计值的区别,在不至于引起混淆的场合统称为估计。

点估计

点估计(point estimation)是用估计量 的某个取值直接作为总体参数θ的估计值。比如:用样本均值 直接作为总体均值μ的估计值;
用样本比例p直接作为总体比例的估计值,等等。

比如:从软件行业从业人员中抽出一个随机样本,计算出平均月收入为18000元,用18000元作为该行业从业人员月平均收入的一个估计值,这就是点估计。

比如:要估计一批产品的合格率,根据样本计算的合格率为98%,将98%直接作为这批产品合格率的估计值,这也是点估计。

由于点估计无法得到估计的可靠性(因为一个点估计量的可靠性是由其抽样分布的标准误来衡量的),也无法说出点估计值与总体参数真实值接近的程度,因此,我们不能完全依赖一个点估计,而应围绕点估计值构造出总体参数的一个区间。

区间估计

区间估计(interval estimate)是在点估计的基础上,给出总体参数估计的一个估计区间,该区间由样本统计量加减估计误差而得到。
根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量。
比如,某班级平均分数在75~85之间,置信水平是95% 。

在区间估计中,由样本估计量构造出的总体参数在一定置信水平下的估计区间称为置信区间(confidence interval,CI),其中区间的最小值称为置信下限,最大值称为置信上限。
置信区间中包含总体参数真值的次数所占的比例称为置信水平,也称为置信度或置信系数(confidence coefficient)。统计上,常用的置信水平有90%,95%和99%。有关置信区间的概念可用下面的图来表示:
在这里插入图片描述
对于固定的样本量,置信水平越大,包含总体均值的区间就越多(上下比较)
对于同样的置信水平,样本量n大的, 区间往往就短些(左右比较)
在每个图内部的各个置信区间的长短也不一样,因为样本标准差因样本 而异,这也影响了置信区间的宽度。
在这里插入图片描述
样本量相同时,置信水平越大,置信区间就越宽。置信水平相同时,样本量越大,置信区间就越窄。

使用一个较大的置信水平会得到一个比较宽的置信区间,而使用一个较大的样本则会得到一个较准确(较窄)的区间。直观地说,较宽的区间会有更大的可能性包含参数
但实际应用中,过宽的区间往往没有实际意义。

区间估计的两个端点都是统计量,因而也都是随机变量
“某总体参数μ的置信度为100 1− 𝜶 %的置信区间”意味着如果抽取(相同样本量)的大量样本,那么,从这些样本中 得到的以同样方法(或公式)计算的大量区间中会有大约𝟏− 𝜶比例的区间包含未知的总体参数𝝁,而有约𝜶比例的区间不包含该总体参数
具体的从一个样本中计算出来的一个数值区间,比如前面的(75,85),则要么包含真实比例,要么不包含真实比例。
由于真实比例和这个区间(75,85)都是确定的数,不包括随机性,也没有概率可言。因此,“95%置信区间(75,85)以概率0.95包含真实比例”的说法是正确的还是错误的?
该种说法是错误的。

评价估计量的标准

用于估计总体参数θ的估计量 可以有很多。
如:可以用样本均值作为总体均值的估计量
也可以用样本中位数作为总体均值的估计量,等等。
那么,究竟用哪种估计量作为总体参数的估计呢?什么样的估计量才算是一个好的估计量呢?这就需要有一定的评价标准。统计学家给出了评价估计量的一些标准,主要有以下几个。
无偏性、有效性、一致性。

在这里插入图片描述
无偏性(unbiasedness)是指估计量抽样分布的数学期望等于被估计的总体参数。设总体参数为 在这里插入图片描述,所选择的估计量为 在这里插入图片描述 ,如果 在这里插入图片描述,则称 在这里插入图片描述在这里插入图片描述的无偏估计量。

在这里插入图片描述
由统计量的抽样分布可知,E( )=μ,E(p)=π,E( )= ,因此 、p、 分别是总体均值μ、总体比例、总体方差的无偏估计量。

样本均值、样本中位数和样本方差的无偏性模拟
假定从均值为50、方差为100的正态总体中随机抽取10000组样本量为10的样本,分别计算出10000个样本均值的均值样本中位数的均值和样本方差的均值
注:函数vector()用于产生一个空向量。函数append(x, values, after = length(x))在向量x中追加数值,after指定在哪个数据后插入数值。

x<-vector();m<-vector();v<-vector()n=10
for(i in 1:10000){
x<-append(x,mean(rnorm(n,50,10)))
m<-append(m,median(rnorm(n,50,10)))
v<-append(v,var(rnorm(n,50,10)))
}
data.frame(mean(x),mean(m),mean(v))

在这里插入图片描述

在正态总体条件下,样本均值和样本中位数都是总体均值的无偏估计量,而样本方差则是总体方差的无偏估计量。
在这里插入图片描述
在这里插入图片描述

有效性

无偏性对估计量而言是很基本的要求,它的直观意义是没有系统误差。
一个好的估计量应当对参数的平均偏差比较小。
第二个标准就是无偏估计量中取方差最小的估计量,也称为最有效或者最好的估计量。换句话说,这就是当样本变化时,该统计量变化最小
方差小,说明由许多样本产生的各个估计量之间差别较小 。
在这里插入图片描述

衡量估计量好坏的第三个标准是一致性或相合性 (consistency)
它意味着样本量越大,估计量对总体参数的估计就越精确(统计量收敛于所估总体的参数)
当样本容量越大时,信息越多,当然估计就应该越准确
在这里插入图片描述
假定总体是均值为50、方差为100的1000正态随机数,从该总体分别抽取样本量为10,100,500,900的样本,并计算出每个样本的均值:

计算样本量分别为10、100、500、900时的样本均值

 N=rnorm(1000,50,10)mu=mean(N)xbar10<-mean(sample(N,10,replace=F))xbar100<-mean(sample(N,100,replace=F))xbar500<-mean(sample(N,500,replace=F))xbar900<-mean(sample(N,900,replace=F))data.frame(总体均值=mu,xbar10,xbar100,xbar500,xbar900)

在这里插入图片描述
计算样本均值与总体均值mu的差值d

data.frame("d10"=(xbar10-mu),"d100"=(xbar100-mu),"d500"=(xbar500-mu),"d900"=(xbar900-mu))

在这里插入图片描述
样本均值随着样本量的增大而越来越接近总体均值。

总体均值的区间估计

一个总体均值的估计(大样本)

一个总体均值区间的一般表达式:
总体均值的置信区间是由样本均值加减估计误差得到的
估计误差由两部分组成:一是点估计量的标准误,它取决于样本统计量的抽样分布。二是估计时所要的求置信水平,统计量分布两侧面积对应的分位数值,它取决于事先所要求的可靠程度
总体均值在置信水平下的置信区间可一般性地表达为
样本均值±分位数×样本均值的标准误。
在大样本(n≥30)情形下,由中心极限定理可知,样本均值近似服从期望值为μ、方差为 的正态分布。
使用正态分布统计量 z在这里插入图片描述
总体均值 在这里插入图片描述在1-在这里插入图片描述置信水平下的置信区间为

在这里插入图片描述
是事先确定的一个概率值,它是总体均值不包括在置信区间内的概率;
(1- 在这里插入图片描述)称为置信水平;
z  /2是标准正态分布两侧面积各为 在这里插入图片描述/2时的z值;
在这里插入图片描述是估计误差。

可以看出:
置信区间的上下界是统计量,因此该区间是随机区间。
从上面的推导可以看出, 置信度是该随机区间覆盖真实均值的概率。
如果根据一个样本的数据算出上下界的实现值,就不是随机区间了,而是一个固定的数值区间。

例题:
一家研究机构随机抽取40辆相同排气量的家用轿车,经过测试得到每百公里耗油量数据(单位:升) 。建立该排气量轿车平均耗油量的90%的置信区间
example5_1
在这里插入图片描述
注:函数z.test(x,y=NULL,sigma.x=NULL,sima.y=NULL,conf. level=0.95)用于构建基于标准正态分布的单样本和双样本的置信区间和假设检验。参数y=NULL用于单样本; sigma.x和 sigma.y用于指定两个总体的标准差,当总体标准差未知时用样本标准差代替;conf.level用于指定置信水平,默认为0.95.
平均耗油量的90%的置信区间(使用z.test函数)

load("C:/example/ch5/example5_1.RData")
library(BSDA) 
z.test(example5_1$耗油量,sigma.x=sd(example5_1$耗油量),conf.level=0.90) 

在这里插入图片描述
只输出置信区间的信息
z.test(example5_1 耗油量 , s i g m a . x = s d ( e x a m p l e 5 1 耗油量,sigma.x=sd(example5_1 耗油量,sigma.x=sd(example51耗油量),conf.level=0.90)$conf.int
在这里插入图片描述

一个总体均值的估计(小样本估计)

假定条件(对总体均值的估计)
总体服从正态分布
小样本 (n < 30)
如果正态总体的σ已知,样本均值经过标准化后仍然服从标准正态分布,此时可使用 建立总体均值的置信区间
如果正态总体的σ未知,样本均值经过标准化后则服从自由度为n-1的t分布,此时使用 t 分布统计量
在这里插入图片描述

总体均值 在1-置信水平下的置信区间为
在这里插入图片描述
例题:
(数据:example5_2.Rdata)从一批袋装食品中随机抽取25袋,测得每袋重量如下表所示。假定食品重量服从正态分布,估计该批食品平均重量的置信区间,置信水平为95%。
总体服从正态分布但σ未知,由于是小样本,样本均值经标准化后服从自由度为n-1的t分布。

在这里插入图片描述
注:t.test(x,y=NULL,mu=0, paired=FALSE,var.equal=FALSE)用于单样本和双样本假设检验。参数y=NULL用于单样本;独立样本时, paired=FALSE;方差不等时,var equal=FALSE。
食品平均重量95%的置信区间(使用t.test函数)

load("C:/example/ch5/example5_2.RData")
t.test(example5_2,conf.level=0.95)

在这里插入图片描述

只输出置信区间的信息

t.test(example5_2)$conf.int

在这里插入图片描述


练习

1、假定从均值为0、方差为1的正态总体中随机抽取10000组样本量为10的样本,如何来计算出10000个样本均值的方差和样本中位数的方差?从结果当中我们又能得到什么结论?

x<-vector();m<-vector()
n=10
for(i in 1:10000){x<-append(x,mean(rnorm(n)))
m<-append(m,median(rnorm(n)))
}
data.frame(var(x),var(m))

2、某快餐店想要估计每位顾客午餐平均花费的金额,在为期3周的时间里选取49名顾客组成了一个简单随机样本,得到样本均值为120元,标准差为15元。求总体均值μ的95%的置信区间。
用公式计算

q<-qnorm(0.975)
LCI<-120-q*(15/sqrt(49))
UCI<-120+q*(15/sqrt(49))
data.frame(LCI,UCI)

在这里插入图片描述

3、利用下面的信息,构建总体均值μ的置信区间。
(1)总体服从正态分布,已知σ=500,n=15, =8900,置信水平为95%。
用公式计算
在这里插入图片描述

q<-qnorm(0.975)
LCI<-8900-q*(500/sqrt(15))
UCL<-8900+q*(500/sqrt(15))
data.frame(LCI,UCI)

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/632860.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关于java的继承

关于java的继承 我们在上一篇文章中&#xff0c;了解到了封装&#xff0c;我们本篇文章来介绍一下面向对象的第二大特点&#xff0c;继承&#xff0c;还是遵循结合现实生活中的实际情况&#xff0c;理解着去学习&#xff0c;能更好的加深印象&#x1f600;。 一、继承 继承的…

C++、QT 数字合成游戏

一、项目介绍 数字合成游戏 基本要求&#xff1a; 1&#xff09;要求游戏界面简洁美观&#xff0c;且符合扫雷的游戏风格。 2&#xff09;需要有游戏操作或者规则说明&#xff0c;方便玩家上手。 3&#xff09;需具有开始游戏&#xff0c;暂停游戏&#xff0c;结束游戏等方便玩…

Java17新特性详解含示例代码(值得珍藏)

1. 概述 Java 17 是 Java 开发工具包&#xff08;JDK&#xff09;的一个重要版本&#xff0c;它带来了一系列的新特性和改进&#xff0c;以进一步增强 Java 语言的功能和性能。以下是 Java 17 中的一些主要新特性及其详细说明。 2. 新特性详解 JEP 356: Enhanced Pseudo-Ran…

【​电力电子在电力系统中的应用​】6 滞环电流控制的PWM整流器 + STATCOM整流器 + APF仿真

【仅供参考】 【2023.06西南交大电力电子在电力系统中的应用】 目录 步骤一&#xff1a;基于滞环电流控制的PWM整流器仿真 1.1 仿真要求 1.2 仿真电路原理及设计 1.2.1 主电路的搭建 1.2.2 控制电路的搭建 1.3 波形分析 步骤二&#xff1a;从PWM整流器到STATCOM仿真 2…

全等三角形定率

一.有两角夹一边分别相等的两个三角形全等 数学证明: 设△ A B C 与△ A 1 B 1 C 1 ∠ B ∠ B 1 , ∠ C ∠ C 1 , B 1 C 1 B C 设△ABC与△A_1B_1C_1∠B∠B_1,∠C∠C_1,B_1C_1BC 设△ABC与△A1​B1​C1​∠B∠B1​,∠C∠C1​,B1​C1​BC ①移动 ∠ B 1 与 ∠ B 重合 , 边 B…

Android WorkManager入门(二)

WorkManager入门 上一篇前言创建 WorkRequest并提交 定时的任务&#xff08;PeriodicWorkRequest&#xff09;配合约束使用定义执行范围失败后的重试为WorkRequest打上TAG其他取消方法 传参和返回参数总结参考资料 上一篇 Android WorkManager入门&#xff08;一&#xff09; …

EMQX安装和Java使用

一、EMQX介绍 EMQX是大规模分布式MQTT消息服务器&#xff0c;可以高效可靠连接海量物联网设备&#xff0c;实时处理分发消息与事件流数据&#xff0c;助力构建关键业务的物联网与云应用。EMQX 作为物联网应用开发和物联网平台搭建必须用到的基础设施软件&#xff0c;主要在边缘…

VSCode使用Makefile Tools插件开发C/C++程序

提起Makefile&#xff0c;可能有人会觉得它已经过时了&#xff0c;毕竟现在有比它更好的工具&#xff0c;比如CMake&#xff0c;XMake&#xff0c;Meson等等&#xff0c;但是在Linux下很多C/C源码都是直接或者间接使用Makefile文件来编译项目的&#xff0c;可以说Makefile是基石…

qt学习:进度条,水平滑动条,垂直滑动条+rgb调试实战

目录 水平滑动条&#xff0c;垂直滑动条 常用信号 进度条 常用信号 修改进度条 例子 rgb调色 配置ui界面 编写3个进度条的事件函数 添加链表容器和按钮索引 在.h里的类定义 初始化链表容器和按钮索引 编写添加颜色的按钮点击事件函数 效果 水平滑动条&#xff0c…

Java-初识正则表达式 以及 练习

目录 什么是正则表达式&#xff1f; 1. 正则表达式---字符类&#xff08;一个大括号匹配一个字符&#xff09;&#xff1a; 2. 正则表达式---预字符类&#xff08;也是匹配一个字符&#xff09;&#xff1a; 正则表达式---数量词 &#xff08;可以匹配多个字符&#xff09;…

【前后端的那些事】15min快速实现图片上传,预览功能(ElementPlus+Springboot)

文章目录 Element Plus SpringBoot实现图片上传&#xff0c;预览&#xff0c;删除效果展示 1. 后端代码1.1 controller1.2 service 2. 前端代码2.1 路由创建2.2 api接口2.2 文件创建 3. 前端上传组件封装 前言&#xff1a;最近写项目&#xff0c;发现了一些很有意思的功能&…

网络安全产品之认识WEB应用防火墙

随着B/S架构的广泛应用&#xff0c;Web应用的功能越来越丰富&#xff0c;蕴含着越来越有价值的信息&#xff0c;应用程序漏洞被恶意利用的可能性越来越大&#xff0c;因此成为了黑客主要的攻击目标。传统防火墙无法解析HTTP应用层的细节&#xff0c;对规则的过滤过于死板&#…

移动云助力智慧交通数智化升级

智慧交通是在整个交通运输领域充分利用物联网、空间感知、云计算、移动互联网等新一代信息技术&#xff0c;综合运用交通科学、系统方法、人工智能、知识挖掘等理论与工具&#xff0c;以全面感知、深度融合、主动服务、科学决策为目标&#xff0c;推动交通运输更安全、更高效、…

软件设计师5--CISC与RISC

软件设计师5--CISC与RISC 考点1&#xff1a;CISC与RISC有什么不同考点2&#xff1a;CISC与RISC比较&#xff0c;分哪些维度例题&#xff1a; 考点1&#xff1a;CISC与RISC有什么不同 考点2&#xff1a;CISC与RISC比较&#xff0c;分哪些维度 例题&#xff1a; 1、以下关于RISC…

SD-WAN组网设计原则:灵活、安全、高效

在实现按需、灵活和安全的SD-WAN组网方案中&#xff0c;我们必须遵循一系列关键的设计原则&#xff0c;以确保网络的可靠性和效率。通过以下几点设计原则&#xff0c;SD-WAN能够满足企业对灵活性、安全性和高效性的迫切需求。 灵活的Overlay网络互联 SD-WAN通过IP地址在站点之间…

Unicode编码

文章目录 前言一、Unicode &#xff1f;二、前端工程师使用Unicode三、Javascript中处理 Unicode总结 前言 一、Unicode &#xff1f; Unicode 是一种字符编码标准&#xff0c;旨在为世界上所有的字符&#xff08;包括各种语言、符号和特殊字符&#xff09;提供唯一的数字标识…

深度求索开源国内首个 MoE 大模型 | DeepSeekMoE:在专家混合语言模型中实现终极专家专业化

文章目录 一、前言二、主要内容三、总结 &#x1f349; CSDN 叶庭云&#xff1a;https://yetingyun.blog.csdn.net/ 一、前言 在大语言模型时代&#xff0c;混合专家模型&#xff08;MoE&#xff09;是一种很有前途的架构&#xff0c;用于在扩展模型参数时管理计算成本。然而&a…

旅游项目day03

1. 前端整合后端发短信接口 2. 注册功能 后端提供注册接口&#xff0c;接受前端传入的参数&#xff0c;创建新的用户对象&#xff0c;保存到数据库。 接口设计&#xff1a; 实现步骤&#xff1a; 手机号码唯一性校验&#xff08;后端一定要再次校验手机号唯一性&#xff09…

Vray渲染效果图材质参数设置

渲染是创造出引人入胜视觉效果的关键步骤&#xff0c;在视觉艺术领域尤为重要。不过&#xff0c;渲染作为一个资源密集型的过程&#xff0c;每当面对它时&#xff0c;我们往往都会遭遇到时间消耗和资源利用的巨大挑战。幸运的是&#xff0c;有几种方法能够帮助我们优化渲染&…

【51单片机】数码管的静态与动态显示(含消影)

数码管在现实生活里是非常常见的设备&#xff0c;例如 这些数字的显示都是数码管的应用。 目录 静态数码管&#xff1a;器件介绍&#xff1a;数码管的使用&#xff1a;译码器的使用&#xff1a;缓冲器&#xff1a; 实现原理&#xff1a;完整代码&#xff1a; 动态数码管&#…