可汗学院统计学笔记 42-81集

假设检验

假设检验是推论统计中用于检验统计假设的一种方法。而“统计假设”是可通过观察一组随机变量的模型进行检验的科学假说。一旦能估计未知参数,就会希望根据结果对未知的真正参数值做出适当的推论。统计上对参数的假设,就是对一个或多个参数的论述。而其中欲检验其正确性的为零假设(null hypothesis),零假设通常由研究者决定,反映研究者对未知参数的看法。相对于零假设的其他有关参数之论述是备择假设(alternative hypothesis),它通常反映了执行检定的研究者对参数可能数值的另一种(对立的)看法(换句话说,备择假设通常才是研究者最想知道的)。假设检验的种类包括:t检验,z检验,卡方检验,F检验等等。

(百度百科)

在假设检验的问题中,通常需要根据已有的统计量对某一个假设进行检验。我们得到的统计量通常是样本均值的抽样分布,服从正态分布(当n足够大时,例如n>=30)或t分布(当n<30)。在零假设成立的条件下,计算出现样本统计量的概率。如果概率值小于某个阈值,则“拒绝”零假设,接受备择假设。在这个问题中,有两个假设的概念:

零假设,通常记为H_0。备择假设,通常记为H_1H_a

假设检验通常检验零假设的正确性,也即是问题中的假设的对立假设,对于利用这个零假设进行检验,我理解的原因是:题目中真正需要进行检验的假设通常不能提供确切的统计数值用于计算,而零假设可以充分利用题目中所给的条件,利用反正法推翻零假设,就证明了备择假设的可信性。

p-value:在零假设成立的条件下,出现样本统计情况的概率通常很小,将这种极端情况的概率值称为p-value,通常设置5%为门限,当p-value低于这个门限时,就拒绝零假设。

双侧检验(two-tailed test):当样本出现的极端情况可能出现在总体分布的两侧尾部时,称为双侧检验。通常题目中的假设要求检验某个统计量是否变化;

单侧检验(one-tailed test):当样本出现的极端情况只可能出现在总体分布的一侧尾部时,只需检测一侧的尾部,称为单侧检验。通常题目中的假设要求检验某个统计量向某个方向的变化。

z-统计量 和 t-统计量

与样本容量有关。当样本容量很大时(n>=30),样本统计量(不一定是均值,可能是其他计算量)的抽样分布服从正态分布,此时计算概率时使用z分布的计算表;当样本容量不是很大(n<30)时,样本统计量的抽样分布不再服从正态分布,而服从t分布,此时使用t分布的计算表。

第一型错误(type 1 error):拒绝了正确的零假设的概率,也就是零假设判断错误的概率。

大样本占比的假设检:

样本占比实验可以理解为伯努利实验,占比就是伯努利实验的成功率。n次伯努利实验是二项分布,当n很大时,二项分布趋近于正态分布。具体地,当np>5,且n(1-p)>5,则可以假定样本占比的分布为正态分布。

随机变量之差的方差:

\mu _{X+Y}=\mu _X+\mu _Y

\mu _{X-Y}=\mu _X-\mu _Y

\sigma _{X+Y}=\sigma _X+\sigma_Y

\sigma _{X-Y}=\sigma_X+\sigma _Y

 

 

 

 

 

 

 

 

1.线性回归

统计学中的线性回归:对于一组具有线性关系的数据,可以用一条直线来拟合这些数据。用于拟合这些数据的直线应该使得所有数据到这条直线的距离最短(这里的距离简化为真实值和预测值之间的距离)。

设这条直线为:y=mx+b

其中,m为直线的斜率,b为截距。线性回归学习的目的是找到这样的参数m和b,使得所有数据点到这条直线的距离最短。数据点到直线的距离的平方之和,或说是平方误差为:

\begin{aligned} SE_{Line}=&\sum_{i=1}^{n}(y_i-mx_i-b)^2\\ =&\sum_{i=1}^{n}y_i^2-2(mx_i+b)y_i+(mx_i+b)^2\\ =&\sum_{i=1}^{n}y_i^2-2mx_iy_i-2by_i+m^2x_i^2+b^2+2mbx_i\\ =&n\bar{Y^2}-2mn\bar{XY}-2bn\bar{Y}+m^2n\bar{X^2}+nb^2+2mnb\bar{X} \end{aligned}

分别对m和b求偏导,并令其为0,可得:

\frac{\partial SE_{Line}}{\partial m}=-2n\bar{XY}+2mn\bar{X^2}+2nb\bar{X}=0

\frac{\partial SE_{Line}}{\partial b}=-2n\bar{Y}+2nb+2mn\bar{X}=0

求得:

m=\frac{\bar{XY}-\bar{X}\bar{Y}}{\bar{X^2}-(\bar{X})^2}

b=y-mx

 

决定系数(coefficient of determination):   y的波动多大程度上可以被x的波动描述,what % of the total variation is described by the variation in x

r^2=1-\frac{SE_{Line}}{SE_{\bar{Y}}}

其中:

SE_{Line}=\sum_{i=1}^{n}(y_i-(mx_i+b))^2,

SE_{\bar{Y}}=\sum_{i=1}^{n}(y_i-\bar{y})^2

SE_{Line}很小时,说明直线很好地拟合了数据\rightarrow\frac{SE_{Line}}{SE_{\bar{Y}}}很小\rightarrowr^2接近于1;当SE_{Line}的值较大时,说明直线不能很好地拟合数据\rightarrow\frac{SE_{Line}}{SE_{\bar{Y}}}接近1\rightarrowr^2接近于0。因此从r^2的值可以推断出直线的拟合程度。

线性回归的斜率与随机变量协方差的关系:

令X,Y为两个随机变量,X和Y的协方差定义为:

Cov(X,Y)=E[(X-E[X])(Y-E[Y])]

可以化简为:

\begin{aligned} Cov(X,Y)=&E[(X-E[X])(Y-E[Y])]\\ =&E[XY-XE[Y]-E[X]Y+E[X]E[Y]]\\ =&E[XY]-E[X]E[Y]-E[X]E[Y]+E[X]E[Y]\\ =&E[XY]-E[X]E[Y] \end{aligned}

当X=Y时,有Cov(X,X)=E[(X-E[X])(X-E[X])]=Var[X],即X和X的协方差等于X的方差

上式中的期望可以用样本均值来估计,即:

E[XY]\approx \bar{XY},E[X]\approx \bar{X},E[Y]\approx \bar{Y}

则用样本均值估计的协方差可以写为:Cov(X,Y)\approx \bar{XY}-\bar{X}\bar{Y}

这是不是有点熟悉?线性回归拟合的直线中的斜率就有上述类似的表达式。随机变量的协方差是总体的统计量,而样本均值是对样本的统计量。之前得到的回归线的斜率可以看成是从总体分布中抽样得到的一个值,可以表示为:

\hat{m}=\frac{\bar{XY}-\bar{X}\bar{Y}}{\bar{X^2}-(\bar{X})^2}

则关于总体的回归线斜率为:

m=\frac{Cov(X,Y)}{Var(X)}

\chi ^2分布(Chi-Squared distribution)

假设有一些相互独立的服从标准正态分布的变量,例如:X_1,X_2,\cdots,另外一些变量与它们的关系为:

\begin{aligned} Q_1=&X^2\\ Q_2=&X_1^2+X_2^2\\ Q_3=&X_1^2+X_2^2+X_3^2 \end{aligned}

则称Q_1,Q_2,Q_3分别服从分布:Q_1\sim \chi ^2_1,Q_2\sim\chi^2_2,Q_3\sim\chi^2_3    。下标1,2,3分别表示自由度为1,2,3。

\chi ^2检验(待补充)

皮尔逊\chi ^2检验

列联表(contingency table)\chi ^2检验

列联表自由度:n=(c-1)(r-1)

自由度是真正独立的数据点个数

2.方差分析

总平均值(grand mean) ,所有样本的均值,记为\mu

总平方和(sum square total)SST,所有样本离总平均值的距离的平方和。

SST=\sum_{i=1}^{N}(x_i-\mu)^2,自由度为mn-1

组内平方和(the sum of squares within)SSW,每一组的样本离本组的均值的距离的平方和的和。设每组均值分别为\mu_1,\mu_2,\mu_3:

SSW=\sum_{j=1}^{m}\sum_{i=1,x_i\in g_j}^{n}(x_i-\mu_j)^2,自由度为m(n-1)

组间平方和(sum of squares between)SSB,每个样本点所在组的均值与总体均值的距离的平方和。

SSB=\sum_{j=1}^{m}n(\mu_j-\mu)^2,自由度为m-1

重要结论:总体波动可以描述为组内波动与组间波动的和。SST=SSW+SSB

总体的自由度=组内自由度+组间自由度。

第七十一集 协方差
度量各个维度偏离其均值的程度。协方差是为多维变量创立的,目的是为了描述两个变量的关系(正相关,负向关。相互独立)。需注意协方差只能两个维度算,多个维度的协方差形成协方差矩阵。
cov(X,Y)=E[(x-E[X])(y-E[Y])]
在这里插入图片描述
第七十二集 卡方分布
一些服从标准正态随机变量的平方求和即是分布,其中n为自由度,确定一个式子自由度的方法是:
若式子包含有n个独立的随机变量,和由它们所构成的k个样本统计量,则这个表达式的自由度为n-k.比如中包含ξ1,ξ2,…,ξn这n个独立的随机变量,
同时还有它们的平均数ξ这一统计量,因此自由度为n-1.。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
第七十三、四集 卡方检验
  卡方分布可以不用对总体做任何假设,卡方检验可以用来衡量观测与理论之间的拟合程度,或者推断两个分类变量是否相关或者独立。

具体例子可参考:https://blog.csdn.net/bitcarmanlee/article/details/52279907
第七十五、六集 平方和
组内平方和:是每组的值减去每组自己的平均值,求平方和,组间平方和理解为两组之间的差异。

组间平方和:是每组自己的平均值减去总均值,求平方和,组内平方和理解为两组内部不同数据的差异。

如图:这几集的内容是为了说明总的波动=组内波动+组间波动
在这里插入图片描述
F假设检验
  F统计量是组间平方和除以其自由度比上组内平方和除以其自由度。F值主要描述:组间的差异大,还是组内的差异大?如果是组间的差异大,那么这两组数据本身不一致的概率就大,对应F值比较大。F检验又称为方差其次性检验,检查的是方差的差异性。需注意:F检验的前提是F分布,而F分布的前提是正态分布。F检验通常作为T检验的一步。
  在这里插入图片描述各个分布的应用如下:
方差已知情况下求均值是Z检验。
方差未知求均值是t检验(样本标准差s代替总体标准差R,由样本平均数推断总体平均数)
均值方差都未知求方差是X^2检验
两个正态分布样本的均值方差都未知情况下求两个总体的方差比值是F检验。

F-statistic

F-statistic=\frac{\frac{SSB}{m-1}}{\frac{SSW}{m(n-1)}}

F分布其实是两个 \chi ^2分布之比

当这个值的分子比分母大得多时,说明总体波动大部分来自组间波动,而较少来自组内波动,说明每个组的总体均值之间有差异。

当分母比分子大很多时,说明组内波动比组间波动在总体中占比更多,这意味着,差异可能只是随机产生的。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/549249.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

再谈js拖拽(一)

关于js拖拽早已是老生常谈&#xff0c;网上一搜一大坨&#xff0c;但是有很多并不是很完善&#xff0c;或者兼容性不够&#xff0c;或者功能不全&#xff0c;并且这样的东西还是自己写的好用。我打算在&#xff08;一&#xff09;中主要对js拖拽功能的注意点进行罗列&#xff0…

操作系统进程调度算法图解(FCFS、轮转、SPN、SRT、HRRN、反馈)

版权声明&#xff1a;本文为博主原创文章&#xff0c;遵循 CC 4.0 BY-SA 版权协议&#xff0c;转载请附上原文出处链接和本声明。 本文链接&#xff1a;https://blog.csdn.net/woshiwanghao_hi/article/details/13004507 FCFS: 先来先服务&#xff0c;也可以称为先进先出 轮转…

安装Ubuntu之后一定要安装Docky

2019独角兽企业重金招聘Python工程师标准>>> 安装Ubuntu之后一定要安装Docky&#xff0c;然后把面板隐藏&#xff0c;真是太漂亮了&#xff01; 图片太大&#xff0c;传不上来&#xff0c;传到百度上&#xff0c;又不让引用&#xff0c;还是百度看吧&#xff1a; 我…

操作系统中调度算法(FCFS、RR、SPN、SRT、HRRN)

版权声明&#xff1a;本文为博主原创文章&#xff0c;遵循 CC 4.0 BY-SA 版权协议&#xff0c;转载请附上原文出处链接和本声明。 本文链接&#xff1a;https://blog.csdn.net/xieminyao123/article/details/79116985 决策模式 决策模式说明选择函数在执行的瞬间的处理方式&a…

操作系统学习总结(超赞!!!)

我是技术搬运工,好东西当然要和大家分享啦.原文地址 操作系统基本特征 1. 并发 并发性是指宏观上在一段时间内能同时运行多个程序&#xff0c;而并行性则指同一时刻能运行多个指令。 并行需要硬件支持&#xff0c;如多流水线或者多处理器。 操作系统通过引入进程和线程&#xf…

操作系统的SPOOLING技术

SPOOLING技术&#xff08;Simultaneous Peripheral Operating On Line) 同时联机外围操作技术&#xff0c;它是关于慢速字符设备如何与计算机主机进行数据交换的一种技术&#xff0c;通常又称假脱机技术。 在多道程序环境下&#xff0c;利用多道程序中的一道或者两道程序来模拟…

独立磁盘冗余阵列:RAID

版权声明&#xff1a;本文为博主原创文章&#xff0c;遵循 CC 4.0 BY-SA 版权协议&#xff0c;转载请附上原文出处链接和本声明。 本文链接&#xff1a;https://blog.csdn.net/fsx2550553488/article/details/79819164 RAID RAID&#xff1a;独立磁盘冗余阵列&#xff08;Redun…

task2 EDA数据分析

目标 了解&#xff0c;验证数据集 了解变量关系&#xff0c;与预测值之间关系 数据处理、特征工程 数据探索性分析 EDA探索性数据分析 通过EDA可实现: 1. 得到数据的直观表现 2. 发现潜在的结构 3. 提取重要的变量 4. 处理异常值 5. 检验统计假设 6. 建立初步…

task2 EDA探索性数据分析

1、赛题数据赛题以预测二手车的交易价格为任务&#xff0c;数据集报名后可见并可下载&#xff0c;该数据来自某交易平台的二手车交易记录&#xff0c;总数据量超过40w&#xff0c;包含31列变量信息&#xff0c;其中15列为匿名变量。为了保证比赛的公平性&#xff0c;将会从中抽…

2021-06-10

局部搜索算法是一种简单的贪心搜索算法&#xff0c;是解决最优化问题的一种启发式算法&#xff0c;该算法每次从当前解的临近解空间中根据启发函数选择一个最优解&#xff08;也不一定是最优解&#xff09;作为当前解&#xff0c;直到达到一个局部最优解。本文以求解八皇后问题…

.NET(C#) Internals: 以一个数组填充的例子初步了解.NET 4.0中的并行(二)

引言 随着CPU多核的普及&#xff0c;编程时充分利用这个特性越显重要。上篇首先用传统的嵌套循环进行数组填充&#xff0c;然后用.NET 4.0中的System.Threading.Tasks提供的Parallel Class来并行地进行填充&#xff0c;最后对比他们的性能。本文将深入分析Parallel Class并借机…

.net框架读书笔记---CLR内存管理\垃圾收集(二)

前几天学习了CLR垃圾收集原理和基本算法&#xff0c;但是那些是仅仅相对于托管堆而言的&#xff0c;任何非托管资源的类型&#xff0c;例如文件、网络资源等&#xff0c;都必须支持一种称为终止化&#xff08;finalization&#xff09;的操作。 终止化 终止化操作允许一种资源在…

重构手法——提炼函数、搬移函数、以多态取代条件表达式

目录我的心路历程我的学习概括Extract Method&#xff08;提炼函数&#xff09;动机*--做法动机--做法*Move Method&#xff08;搬移函数&#xff09;动机*--做法动机--做法*Replace Conditional with Polymorphism&#xff08;以多态取代条件表达式&#xff09;动机*--做法动机…

FTP服务器架设详细图解

FTP是File Transfer Protocol&#xff08;文件传输协议&#xff09;的缩写&#xff0c;用来在两台计算机之间互相传送文件。FTP服务作为Internet最古老的服务之一&#xff0c;无论在过去还是现在都有着不可替代的作用。在企业中&#xff0c;对于一些大文件的共享&#xff0c;通…

IP-tools

IP-tools 网管员的第三只眼^ Ip-tools是一款功能齐全的网管软件&#xff0c;可以随时随地的向网管员报告网络的运行情况ip-tools自身集成多种tcp/ip使用工具&#xff0c;如本地信息、链接信息、端口扫描、ping、WHOIS、finger、nslookup、telnet、NetBIOS等功能。界面是全英的&…

用git提交代码到远程仓库遇到的问题

目录我的学习过程git环境配置&#xff08;Mac版&#xff09;git原理图git的push操作思路遇到的问题我的学习过程 昨天重写了一遍聊天程序&#xff0c;准备提交到git上进行代码管理。结果遇到了不少问题。我照着网上的教程进行操作&#xff0c;一步一步踩了很多坑。 git环境配…

git pull和push整理和归纳

目录各个模块概念工作区版本库暂存区远程仓库pull和push流程相关的命令暂存区相关版本库相关远程仓库相关利用远程仓库协作开发各个模块概念 我的理解&#xff1a; Git是版本管理工具&#xff0c;它主要对指定目录下的一些特定的文件的修改进行版本管理。 相关的模块有&#x…

Linux中点号,星号,加号,问号实战

目录Linux中的星号&#xff0c;点号和加号概念我的学习过程&#xff1a;我的思考过程&#xff1a;点号&#xff08;.&#xff09;星号&#xff08;*&#xff09;加号&#xff08;&#xff09;问号&#xff08;?&#xff09;linux星号&#xff0c;点号&#xff0c;加号&#xf…

广播地址的计算方法(与运算、或运算)

目录我的学习过程Python中逻辑运算符notandor位运算符取反&#xff08;~&#xff09;与&#xff08;&&#xff09;或&#xff08;|&#xff09;广播地址计算方法IP地址子网掩码网络地址广播地址广播地址计算举例我的学习过程 今天学习UDP的单播、多播、广播中&#xff0c;…