数学建模学习笔记(五)——相关系数以及假设检验

文章目录

    • 皮尔逊相关系数
    • 假设检验
    • 下面来看一个例子
    • 斯皮尔曼(spearman)相关系数
    • 注意

皮尔逊相关系数

  1. 总体皮尔逊(Pearson)相关系数
    如果有 A:{A1,A2,⋯,An}A:\{A_1, A_2, \cdots, A_n\}A:{A1,A2,,An}Y:{Y1,Y2,⋯,Yn}Y:\{Y_1, Y_2, \cdots, Y_n\}Y:{Y1,Y2,,Yn} 这两组数据,并且这两组数据都是总体数据。(即调查所有对象而得出的数据),那么可以求出总体均值为:E(X)=∑i=1nXin,E(Y)=∑i=1nYinE(X) = \frac{\sum_{i = 1}^{n}X_i}{n}, E(Y) = \frac{\sum_{i = 1}^{n}Y_i}{n}E(X)=ni=1nXi,E(Y)=ni=1nYi 同时,总体协方差也就可以表示为:Cov(X,Y)=∑i=1n(Xi−E(X))(Yi−E(Y))nCov(X, Y) = \frac{\sum_{i = 1}^{n}(X_i - E(X))(Y_i - E(Y))}{n}Cov(X,Y)=ni=1n(XiE(X))(YiE(Y)) 协方差可以理解为 XXXYYY 的变化方向是否相同。但是,协方差要受到量纲的影响,因此不适合作为比较。

    有了协方差以及总体均值,那么总体皮尔逊(Pearson)相关系数便可表示为:ρ=Cov(X,Y)σ=∑i=1n(Xi−E(X))σXYi−E(Y)σYn\rho = \frac{Cov(X, Y)}{\sigma} = \frac{\sum_{i = 1}^{n}\frac{(X_i - E(X))}{\sigma_{X}}\frac{Y_i - E(Y)}{\sigma_Y}}{n}ρ=σCov(X,Y)=ni=1nσX(XiE(X))σYYiE(Y)其中,σX\sigma_XσXσY\sigma_YσY 表示 XXXYYY 的标准差,计算公式为:σX=∑i=1n(Xi−E(X))2n,σY=∑i=1n(Yi−E(Y))2n\sigma_X = \sqrt{\frac{\sum_{i = 1}^{n}(X_i - E(X))^2}{n}}, \sigma_Y = \sqrt{\frac{\sum_{i = 1}^{n}(Y_i - E(Y))^2}{n}}σX=ni=1n(XiE(X))2,σY=ni=1n(YiE(Y))2我们还可以得出,∣ρXY∣≤1|\rho_{XY}| \leq 1ρXY10≤ρ≤10 \leq \rho \leq 10ρ1 时,表示 XXXYYY 之间成正相关关系,反之则成负相关关系。

  2. 样本皮尔逊(Pearson)系数
    样本均值:Xˉ=∑i=1nXin,Yˉ=∑i=1nYin\bar{X} =\frac{\sum_{i = 1}^{n}X_i}{n}, \bar{Y} = \frac{\sum_{i = 1}^{n}Y_i}{n}Xˉ=ni=1nXi,Yˉ=ni=1nYi
    样本协方差为:Cov(X,Y)=∑i=1n(Xi−Xˉ)(Yi−Yˉ)n−1Cov(X, Y) = \frac{\sum_{i = 1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{n - 1}Cov(X,Y)=n1i=1n(XiXˉ)(YiYˉ) (注意分母是 n−1n - 1n1 , 而不是 nnn ! !)
    样本皮尔逊(Pearson)相关系数:rXY=Cov(X,Y)SXSYr_{XY} = \frac{Cov(X, Y)}{S_X S_Y}rXY=SXSYCov(X,Y)
    其中,SX=∑i=1n(Xi−Xˉ)2n−1,∑i=1n(Yi−Yˉ)2n−1S_X = \sqrt{\frac{\sum_{i = 1}^{n}(X_i - \bar{X})^2}{n - 1}}, \sqrt{\frac{\sum_{i = 1}^{n}(Y_i - \bar{Y})^2}{n - 1}}SX=n1i=1n(XiXˉ)2,n1i=1n(YiYˉ)2 同样,分母都是 n−1n - 1n1 哦!!

  3. 关于皮尔逊相关系数容易理解错误的点
    ∙\bullet 必须要在两个变量线性相关时,求出的相关系数才能说明这两个变量的相关性
    ∙\bullet 异常点对于线性相关系数的影响很大,不能一概而论
    ∙\bullet 相关系数为0,只能说明这两个变量不是线性相关的,但也有可能会有其他更为复杂的关系。

  4. 使用皮尔逊相关系数之前需要:
    ∙\bullet 做出散点图确定这两个变量是否初步拥有线性相关关系
    不确定两个变量的关系,及时相关系数很大也无法判断。
    确定两个变量具有线性相关关系,计算皮尔逊(Pearson)相关系数时,可以直接在 MatlabMatlabMatlab 中调用 corrceofcorrceofcorrceof 函数来计算。

假设检验

假设检验一般有如下几个步骤:

  1. 提出原假设 H0H_0H0 以及备择假设 H1H_1H1 (两个假设互补)
  2. 在原假设成立的条件下,利用要检验的量构造一个满足某一分布的统计量(分布一般有:标准正态分布、ttt 分布、χ2\chi^2χ2 分布、FFF 分布)
  3. 根据这个统计量,将检验对象带入统计量,得到一个检验值。
  4. 确定置信水平(99%, 95%, 90%,一般选取95%),根据置信水平确定临界值。
  5. 由检验值和临界值的大小来判断假设是否能够显著接受。

下面来看一个例子

首先必须画出散点图确定是否有相关性哦!!!

经过 MatlabMatlabMatlab 处理后可得的相关系数表为:
相关系数表
这是一个对称矩阵,矩阵中的数据表示行和列的相关系数。

  1. 提出假设:
    H0H_0H0rrr = 0,H1H_1H1rrr ≠ 0
  2. 提出满足分布的统计量
    可以构造统计量为:t=rn−21−r2t = r\sqrt{\frac{n - 2}{1 - r^2}}t=r1r2n2可以证明 ttt 时服从自由度为 n−2n - 2n2ttt 分布。
  3. 带入得检验值
    看第一行、第二列的值为:0.0580,样本数为730,因此 t∗=0.0580730−21−0.05802=1.5676t^* = 0.0580\sqrt{\frac{730 - 2}{1 - 0.0580^2}}=1.5676t=0.058010.058027302=1.5676
  4. 给定置信水平,确定临界值
    给定置信水平为 95%,根据 ttt 分布表查阅对应的临界值
    接受范围
    比较检验值是否在接受域或者拒绝域。

{若在拒绝域,结论:在95%的置信水平上,我们拒绝原假设,r显著不为0若在接受域,结论:在95%的置信水平上,我们无法拒绝原假设\left\{\begin{aligned} &\text{若在拒绝域,结论:在95\%的置信水平上,我们拒绝原假设,r显著不为0} \\ &\text{若在接受域,结论:在95\%的置信水平上,我们无法拒绝原假设}\end{aligned}\right.{若在拒绝域,结论:在95%的置信水平上,我们拒绝原假设,r显著不为0若在接受域,结论:在95%的置信水平上,我们无法拒绝原假设

  1. 补充P值判断法
    根据得到的检验值 t∗t^*t,可以计算出这个检验值对应的概率。{若是单侧检验,可在 Matlab 中P=1−tcdf(t∗,728)若是双侧检验,可在 Matlab 中P=(1−tcdf(t∗,728))×2\left\{\begin{aligned} &\text{若是单侧检验,可在 Matlab 中} P = 1 - tcdf(t^*, 728) \\ &\text{若是双侧检验,可在 Matlab 中} P = (1 - tcdf(t^*, 728)) \times 2 \end{aligned} \right.{若是单侧检验,可在 Matlab P=1tcdf(t,728)若是双侧检验,可在 Matlab P=(1tcdf(t,728))×2

  2. 皮尔逊相关系数假设检验的条件
    ∙\bullet 实验数据满足正态分布
    ∙\bullet 实验数据不能差距太大
    ∙\bullet 魅族样本之间时独立抽样的
    在平常的题目中,可以当作第二个和第三个条件成立。但是,第一个条件必须需要经过检验,检验成立才能使用皮尔逊(Pearson)相关系数检验。

  3. 正态分布检验
    ∙\bullet 正态分布 JBJBJB 检验(大样本 n>30n > 30n>30 时)

    对于一个随机变量{Xi}\{X_i\}{Xi} ,假设其偏度为 SSS,峰度为 KKK,那么可以构造JB统计量:JB=n6[S2+(K−3)24]JB = \frac{n}{6}[S^2 + \frac{(K - 3)^2}{4}]JB=6n[S2+4(K3)2]可以证明,如果 {Xi}\{X_i\}{Xi} 是正态分布,那么在大样本情况下 JB−χ2(2)JB - \chi^2(2)JBχ2(2) (自由度为2的卡方分布)
    注:正态分布的偏度为 0,峰度为 3

    那么假设检验的步骤如下:
    H0H_0H0:该变量服从正态分布,H1H_1H1:该随机变量不服从正态分布。
    然后可以计算变量的偏度和峰度,得到检验值 JB∗JB^*JB ,并计算出其相应的 ppp 值。
    ppp 值与 0.05 作比较,小于 0.05 则可拒绝原假设,否则不能拒绝原假设。
    可以在 MatlabMatlabMatlab 中调用 [h,p]=jbtest(column,置信水平)[h, p] = jbtest(column, \text{置信水平})[h,p]=jbtest(column,置信水平)hhh 表示 JB∗JB^*JB 的值,ppp 表示对应的 ppp 值。

    ∙\bullet 夏皮洛-威尔克(Shapiro-wilk)检验

    H0H_0H0:该随机变量服从正态分布,H1H_1H1:该随机变量不服从正态分布
    计算出威尔克统计量后,可以求出对应的 ppp
    ppp 值与 0.05 比较,如果小于 0.05 则可以拒绝原假设,否则不能拒绝原假设。
    计算威尔克统计量可以使用 SPSSSPSSSPSS 工具。

    ∙\bullet Q−Q图Q-Q \text{图}QQ

    直接在 MatlabMatlabMatlab 中调用 qqplot(column)qqplot(column)qqplot(column) 函数做出图像,如果 QQQQQQ 图近似于一条直线,该随机变量满足正态分布。
    注意:作 QQQQQQ 图要求数据量非常大,做出图像才会更加准确。

斯皮尔曼(spearman)相关系数

  1. 一种定义
    XXXYYY 为两组数据,其斯皮尔曼相关系数定义为:rs=1−6∑i=1ndi2n(n2−1)r_s = 1 - \frac{6\sum_{i = 1}^{n}d_i^2}{n(n^2 - 1)}rs=1n(n21)6i=1ndi2其中,did_idiXiX_iXiYiY_iYi 之间的等级差(一个数的等级 = 将它的一列数按照从小到大排序后,这个数的位置
    同样,rsr_srs 位于 -1 和 1 之间
    |X|Y|X的等级|Y的等级|等级差|等级差的平方|
    |–|--|–|--|–|--|
    |3|5|2|1|1|1|
    |8|10|5|4.5|0.5|0.25|
    |4|8|3|3|0|0|
    |7|10|4|4.5|-0.5|0.25|
    |2|6|1|2|-1|1|
    根据公式:rs=1−6∑i=1ndi2n(n2−1)r_s = 1 - \frac{6\sum_{i = 1}^{n}d_i^2}{n(n^2 - 1)}rs=1n(n21)6i=1ndi2可得:rs=1−6×(1+0.25+0.25+1)5×24=0.875r_s = 1 - \frac{6\times(1+0.25+0.25+1)}{5\times24} = 0.875rs=15×246×(1+0.25+0.25+1)=0.875
  2. 另一种定义
    等级之间的皮尔逊相关系数
XYX的等级Y的等级等级差等级差的平方
352111
81054.50.50.25
483300
71044.5-0.50.25
2612-11
rank_X = [2 5 3 4 1]
rank_Y = [1 4.5 3 4.5 2]
R = corrcoef(rank_X, rank_Y)

MatlabMatlabMatlab 中,可以使用 corr()corr()corr() 函数,corr(rankX,rankY,′type′,′Spearman′)corr(rank_X, rank_Y, 'type', 'Spearman')corr(rankX,rankY,type,Spearman)
注意:MatlabMatlabMatlab 中使用的是第二种计算方法

∙\bullet 小样本情况下(n<30n < 30n<30),可以直接查表

∙\bullet 大样本情况下,可以构造统计量为:rsn−1r_s\sqrt{n - 1}rsn1
H0H_0H0rs=0r_s = 0rs=0H1H_1H1rs≠0r_s ≠ 0rs=0
计算检验值 z∗=rsn−1z^* = r_s\sqrt{n - 1}z=rsn1,并求出对应的 ppp 值与 0.05 比较。{若是单侧检验,P=1−normcdf(z∗)若是双侧检验,P=(1−normcdf(z∗))×2\left\{\begin{aligned} &\text{若是单侧检验},P = 1 - normcdf(z^*) \\ &\text{若是双侧检验},P = (1 - normcdf(z^*))\times 2 \end{aligned} \right.{若是单侧检验P=1normcdf(z)若是双侧检验P=(1normcdf(z))×2或者直接在 MatlabMatlabMatlab 中:[R,P]=corr(rankX,rankY,′type′,′Spearman′)[R, P] = corr(rank_X, rank_Y, 'type', 'Spearman')[R,P]=corr(rankX,rankY,type,Spearman)

注意

  1. 皮尔逊相关系数条件:连续数据、正态分布、线性关系
    因此,要使用皮尔逊相关系数:
    首先要是连续数据
    然后画散点图初步确定线性关系
    接着还要进行正态分布检验
    最后才能使用。

    当这些条件满足时,也可以使用斯皮尔曼相关系数,但是效率没皮尔逊相关系数高。

  2. 上述条件任意不满足,就用斯皮尔曼相关系数,不能使用皮尔逊相关系数

  3. 两个定序数据也可以使用斯皮尔曼相关系数,不能使用皮尔逊相关系数。

有什么好的建议,烦请告知hhh~~~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/565132.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

没有bug队——加贝——Python 57,58

相关 tkinter 的介绍&#xff1a;Python 55&#xff0c;56 目录 57.题目&#xff1a;画图&#xff0c;学用line画直线。 58.题目&#xff1a;画图&#xff0c;学用rectangle画方形。   57.题目&#xff1a;画图&#xff0c;学用line画直线。 #57 from tkinter import *c…

C语言高级输出及进阶

在C语言中&#xff0c;有三个函数可以用来在显示器上输出数据&#xff0c;它们分别是&#xff1a; puts()&#xff1a;只能输出字符串&#xff0c;并且输出结束后会自动换行。putchar()&#xff1a;只能输出单个字符。printf()&#xff1a;可以输出各种类型的数据。printf() 是…

数学建模学习笔记(六)——多元线性回归分析

文章目录一、综述二、常见的回归分析三、对于相关性的理解四、一元线性回归模型五、对于回归系数的解释六、内生性七、四类线性模型回归系数的解释八、对于定性变量的处理——虚拟变量XXX九、下面来看一个实例十、扰动项需要满足的条件十一、异方差十二、多重共线性十三、逐步回…

没有bug队——加贝——Python 59,60

相关 tkinter 的介绍&#xff1a;Python 55&#xff0c;56 目录 59.题目&#xff1a;画图&#xff0c;综合例子。  60.题目&#xff1a;计算字符串长度。  len&#xff08;&#xff09;函数用法 59.题目&#xff1a;画图&#xff0c;综合例子。   程序分析&#xff…

爬虫必备反爬技能:使用动态ip

目录 一、为什么要使用动态代理ip? 二、如何申请动态代理ip&#xff1f; 三、如何使用动态ip&#xff1f; 一、为什么要使用动态代理ip? 使用它的好处在哪里呢&#xff1f; 保护你的网络免受外部攻击屏蔽你的IP地址限制不必要的内容更好的帮助你抓取网络数据绕过目标网站…

数学建模学习笔记(七)——图论最短路问题

文章目录一、综述二、图论最短路问题三、几个简单的作图方法四、Dijkstra&#xff08;迪杰斯特拉&#xff09;算法五、Bellman-Ford算法六、总结一、综述 本文主要根据图论的基本概念&#xff0c;介绍图论中常见的建模问题——最短路问题。同时&#xff0c;介绍了解决图论最短…

pycharm和pythonIDE安装详解

目录 一、pycharm下载安装 二、python下载安装 ​三、pycharm上配置python 我们可能显示的库不大一样&#xff0c;因为我这大都事先安装过了&#xff0c;就没有删​打印成功&#xff1a;标志配置完成​四、配置镜像源让你下载嗖嗖的快 4.1&#xff09;pycharm内部配置 4.2…

数学建模学习笔记(八)——分类模型

文章目录一、分类模型综述二、逻辑回归三、两点分布&#xff08;伯努利分布&#xff09;四、连接函数的取法五、Logistic回归模型六、在SPSS中进行二元Logistic回归七、预测结果较差的解决八、Fisher线性判别分析九、多分类问题十、总结一、分类模型综述 通过样本数据中的分类…

python基础入门(1)

目录 一、python入门 二、python缩进 三、Python注释 1&#xff09;单行注释 2&#xff09;多行注释 四、Python 变量 1&#xff09;变量定义理解 2&#xff09; 变量名命名 3&#xff09; 分配多个值 4&#xff09;输出变量 5&#xff09;全局变量与局部变量&#…

数学建模学习笔记(九)——聚类模型

文章目录一、聚类综述二、主要用到的聚类算法三、K-means聚类算法四、K-means算法五、对于K-means算法和K-means算法的讨论六、系统&#xff08;层次&#xff09;聚类算法七、DBSCAN算法八、总结一、聚类综述 聚类的主要目的就是将样本划分为由类似的对象组成的多个类的过程。…

python基础入门(2)

目录 一、Python数据类型 1&#xff09;置数据类型 2&#xff09;获取数据类型 3&#xff09;设置数据类型 4&#xff09;设置特定数据类型 6&#xff09;练习题 二、python数字- 1&#xff09;整数 2&#xff09;浮点数 3&#xff09;虚数 4&#xff09;类型转换 …

C语言scanf:获取输入的内容

获取外部输入数据内容 在C语言中&#xff0c;有多个函数可以从键盘获得用户输入&#xff1a; scanf()&#xff1a;和 printf() 类似&#xff0c;scanf() 可以输入多种类型的数据。getchar()、getche()、getch()&#xff1a;这三个函数都用于输入单个字符。gets()&#xff1a;获…

数学建模学习笔记(十)——时间序列模型

文章目录一、时间序列综述二、时间序列数据以及基本概念三、时间序列分解四、指数平滑模型五、一元时间序列分析的模型六、AR&#xff08;p&#xff09;模型七、MA&#xff08;q&#xff09;模型八、ARMA&#xff08;p, q&#xff09;模型九、模型选择&#xff1a;AIC 和 BIC 准…

python基础入门(3)之字符串

目录 一、Python字符串 1.字符串基本使用 1&#xff09;字符串理解 2&#xff09;将字符串分配给变量 3&#xff09;多行字符串 4&#xff09;字符串是数组 5)遍历字符串 6)字符串长度 7)检查字符串 8)检查如果不是 2.切片字符串 1)切片 2)从头开始切片 3)切到最…

数学建模学习笔记(十一)——预测模型

文章目录一、综述二、灰色预测简介三、GM&#xff08;1, 1&#xff09;模型四、使用灰色系统建模的前提 —— 准指数规律检验五、对于GM(1, 1)的检验六、GM&#xff08;1, 1&#xff09;模型的拓展七、什么时候使用灰色预测八、神经网络模型一、综述 本文首先介绍了灰色预测模…

python基础入门(4)之布尔值

目录 一、Python布尔值 1)比较 2)评估值和变量 3)布尔真值 4)布尔假值 5)函数可以返回布尔值 6)练习题 一、Python布尔值 布尔值表示两个值之一&#xff1a; True或False。在编程中&#xff0c;您经常需要知道表达式是否为 True或False。举一些例子就明白了。 1)比较 当…

C语言if else语句详解

前面我们看到的代码都是顺序执行的&#xff0c;也就是先执行第一条语句&#xff0c;然后是第二条、第三条……一直到最后一条语句&#xff0c;这称为顺序结构。 但是对于很多情况&#xff0c;顺序结构的代码是远远不够的&#xff0c;这时我们就要使用判断语句即if else语句。 …

数学建模学习笔记(十二)——奇异值分解

文章目录一、综述二、奇异值分解三、使用SVD进行降维四、SVD的评价及应用一、综述 奇异值分解是线性代数中一种重要的矩阵分解方法&#xff0c;它在图形的压缩等方面具有重要的意义及作用。 二、奇异值分解 三个引理&#xff1a; AB 和 BA 非零的特征值完全相同&#xff1b;…

python基础入门(5)之运算符

目录 一、python运算符 1)算术运算符 2)赋值运算符 一、python运算符 1)算术运算符 自己赋值粘贴运行下就懂了&#xff01; 加减法&#xff1a;&#xff08; -&#xff09; a2 b3 ca-b da-b print(c,d)乘除法&#xff1a;&#xff08;* /&#xff09; a(50-5*6)/4 print(…

Python实例 61,62

61.题目&#xff1a;打印出杨辉三角形 程序设计&#xff1a; 第一步&#xff1a;先找规律&#xff0c;抽象化问题&#xff1a; 首先我们观察到&#xff0c;第一行为[1]&#xff0c;我们直接赋给一个变量&#xff1a;初始化数列 p [1] 其次我们观察到&#xff0c;下面的每一…