「协方差」与「相关系数」的概念

一、协方差:

可以通俗的理解为:两个变量在变化过程中是同方向变化?还是反方向变化?同向或反向程度如何?

你变大,同时我也变大,说明两个变量是同向变化的,这时协方差就是正的。

你变大,同时我变小,说明两个变量是反向变化的,这时协方差就是负的。

从数值来看,协方差的数值越大,两个变量同向程度也就越大。反之亦然。

咱们从公式出发来理解一下:
在这里插入图片描述
公式简单翻译一下是:如果有X,Y两个变量,每个时刻的“X值与其均值之差”乘以“Y值与其均值之差”得到一个乘积,再对这每时刻的乘积求和并求出均值(其实是求“期望”,但就不引申太多新概念了,简单认为就是求均值了)。

下面举个例子来说明吧:

比如有两个变量X,Y,观察t1-t7(7个时刻)他们的变化情况。

简单做了个图:分别用红点和绿点表示X、Y,横轴是时间。可以看到X,Y均围绕各自的均值运动,并且很明显是同向变化的。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
总结一下,如果协方差为正,说明X,Y同向变化,协方差越大说明同向程度越高;如果协方差为负,说明X,Y反向运动,协方差越小说明反向程度越高。

--------LINE---------

一般的同学看到above the line的内容就ok了。但有一些爱钻研的同学,可能会进一步提问:
在这里插入图片描述
另外,如果你还钻牛角尖,说如果t1,t2,t3……t7时刻X,Y都在增大,而且X都比均值大,Y都比均值小,这种情况协方差不就是负的了?7个负值求平均肯定是负值啊?但是X,Y都是增大的,都是同向变化的,这不就矛盾了?

这个更好解释了:这种情况不可能出现!

因为,你的均值算错了……

在这里插入图片描述
好了,现在,对于协方差应该有点感觉了吧?

二、相关系数:

对于相关系数,我们从它的公式入手。一般情况下,相关系数的公式为:
在这里插入图片描述

翻译一下:就是用X、Y的协方差除以X的标准差和Y的标准差。

所以,相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。

既然是一种特殊的协方差,那它:

1、也可以反映两个变量变化时是同向还是反向,如果同向变化就为正,反向变化就为负。

2、由于它是标准化后的协方差,因此更重要的特性来了:它消除了两个变量变化幅度的影响,而只是单纯反应两个变量每单位变化时的相似程度。

比较抽象,下面还是举个例子来说明:
在这里插入图片描述
这是为什么呢?

因为以上两种情况下,在X、Y两个变量同向变化时,X变化的幅度不同,这样,两种情况的协方差更多的被变量的变化幅度所影响了。

所以,为了能准确的研究两个变量在变化过程中的相似程度,我们就要把变化幅度对协方差的影响,从协方差中剔除掉。于是,相关系数就横空出世了,就有了最开始相关系数的公式:
在这里插入图片描述
所以标准差描述了变量在整体变化过程中偏离均值的幅度。协方差除以标准差,也就是把协方差中变量变化幅度对协方差的影响剔除掉,这样协方差也就标准化了,它反应的就是两个变量每单位变化时的情况。这也就是相关系数的公式含义了。

同时,你可以反过来想象一下:既然相关系数是协方差除以标准差,那么,当X或Y的波动幅度变大的时候,它们的协方差会变大,标准差也会变大,这样相关系数的分子分母都变大,其实变大的趋势会被抵消掉,变小时也亦然。于是,很明显的,相关系数不像协方差一样可以在+∞+\infty+−∞-\infty间变化,它只能在+1到-1之间变化(相关系数的取值范围在+1到-1之间变化可以通过施瓦茨不等式来证明,有些复杂,这里就不赘述了,有兴趣的可以google下)。

总结一下,对于两个变量X、Y,

当他们的相关系数为1时,说明两个变量变化时的正向相似度最大,即,你变大一倍,我也变大一倍;你变小一倍,我也变小一倍。也即是完全正相关(以X、Y为横纵坐标轴,可以画出一条斜率为正数的直线,所以X、Y是线性关系的)。

随着他们相关系数减小,两个变量变化时的相似度也变小,当相关系数为0时,两个变量的变化过程没有任何相似度,也即两个变量无关。

当相关系数继续变小,小于0时,两个变量开始出现反向的相似度,随着相关系数继续变小,反向相似度会逐渐变大。

当相关系数为-1时,说明两个变量变化的反向相似度最大,即,你变大一倍,我变小一倍;你变小一倍,我变大一倍。也即是完全负相关(以X、Y为横纵坐标轴,可以画出一条斜率为负数的直线,所以X、Y也是线性关系的)。

在这里插入图片描述

好了,讲了这么多,不知你看完是否对相关系数也有了一些感觉?

原文作者GRAYLAMB
https://www.zhihu.com/question/20852004

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/345496.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【渝粤题库】国家开放大学2021春3929电气安全技术题目

试卷代号:3929 2021年春季学期期末统一考试 电气安全技术 试题(开卷) 2021年7月 一、单选题(每小题3分,共30分) 1.定时过电流保护的动作电流应躲过( )。 A.线路末端的最大短路电流 B.线路末端的最小短路电流…

【渝粤题库】国家开放大学2021春4010渠道管理题目

试卷代号:4010 2021年春季学期期末统一考试 渠道管理 试题 2021年7月 一、单项选择题(在备选答案中,有一个正确答案,请将正确答案的字母填入括号内。每小题2分,共20分) 1.渠道管理人员一般位于企业的中低层…

在matlab中输出、读取多个文件

%% 输出及读取多个文件 % filepathD:\new\;%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% 输出多个文件 t_start 1; % start time t_end 100; % ending time min arr_rate 50; % data arrival rate at HAP******* for k1:5 M int2str(k); N .txt.; L ./; output [L M N];…

【渝粤题库】广东开放大学 外贸会计1 形成性考核

选择题 题目: 题干 下列选项中,属于反映会计信息的基本过程和手段的是()。 选择一项或多项: 题目: 当受益人对信用证开证行能否有效执行付款缺乏信心时,受益人可以要求开证申请人另外申请一家…

垃圾收集 java_关于Java垃圾收集

垃圾收集 java本文讨论的是使用的最流行的框架之一带来的开销–我敢打赌,几乎没有应用程序不使用java.util.Collections。 本文基于以下事实:框架为例如集合的初始大小提供了默认值。 因此,我们有一个假设,即大多数人不会费心地自…

在git bush中如何退出vim编辑器

编辑器有三种模式: 命令行模式末行模式输入模式 常用命令 按Esc退出输入模式进入命令行模式也是系统默认模式。 o,i,a都可以进入输入模式。在命令模式下键入ZZ或者:wq保存修改并且退出 。如果只想保存文件,则键入:w&#xff0c…

【渝粤题库】广东开放大学 互联网营销 形成性考核

选择题 题目:下面的哪个调研内容属于经济环境调研?() 题目:()的目的就是加强与客户的沟通,它是是网络媒体也是网络营销的最重要特性。 题目:4Ps策略中4P是指产品、价格、…

【渝粤题库】广东开放大学 信息安全数学基础 形成性考核 (2)

选择题 题目:2.设a,b都是非零整数,若a|p,b|a, 则( ) . 题目:3.大于20且小于50的素数有()个. 题目:4.下列四个选项中,( ) 是安全素数. 题目:5.设b6,则余数r ( )为最小正余数. 题目:16…

带Spring Boot的GWT

介绍 我最近一直在研究用Java编写UI代码的选项。 在我以前的文章中,我研究了Eclipse RAP,发现它可以与Spring Boot集成在一个可执行jar中。 这次我想对GWT做同样的技巧。 每个人都喜欢Spring Boot。 它使很多事情变得更加干净和容易。 但是从历史上看&a…

matlab中统计数组中各数字(元素)出现的次数

1. tabulate 调用MATLAB自带的函数tabulate统计一个数组中各数字(元素)出现的频数、频率 【例1】统计数值型数组中各元素出现的频数、频率。 >> x [2 2 6 5 2 3 2 4 3 4 3 4 4 4 4 2 26 0 4 7 2 5 8 3 1 3 2 5 3 …

【渝粤题库】广东开放大学 大学英语B 形成性考核

选择题 题目: Do you still get free plastic bags from the supermarkets? Things have changed. China has banned free plastic bags at shops and supermarkets, and people have to pay for using plastic bags. The rule started on June 1. It came becaus…

Latex \bibliographystyle+修改字体字号的大小

1. bibliography style LaTeX 标准选项及其样式共有以下8种: plain ,按字母的顺序排列,比较次序为作者、年度和标题. unsrt ,样式同plain,只是按照引用的先后排序. alpha ,用作者名首字母年份后两位作标号…

【渝粤题库】广东开放大学 文化产业经济学 形成性考核

选择题 题目:受传统文化影响,中国的父母生孩子的意义和其他国家截然不同。父母一方面节衣缩食给孩子提供最好的物质条件,一方面对孩子"四体不勤”给予最大的宽容。这说明()。 题目:当今国际竞争的实质…

【渝粤题库】广东开放大学 标准的研制与编制 形成性考核

​👉关注我,看答案👈 选择题 题目:采纳( )制定为本国标准,可将国外先进标准转化为国内标准。 题目:标准的编制包括了标准的( )及标准三稿的形成过程。 题目:编制标准通常在此前已有标…

boxplot

1. 简介 箱形图,又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图。箱形图于1977年由美国著名统计学家约翰图基(John Tukey)发明。它能显示出一组数据的最大值、最小值、中位数、上下四分位数及…

【渝粤题库】广东开放大学 社会学基础 形成性考核

选择题 题目: 在1838年出版的《实证哲学教程》第四卷中,孔德第一次提出了"社会学”这一术语。( ) 选择一项: 题目: 家庭这种群体之所以经久不衰,就在于它具有满足人类个体和社会需求的一…

Java 11的期望

过去的几年对Java世界一直是动荡不安的,在相当多的发行版中添加了各种各样的功能。 在开发人员社区中,人们逐渐意识到Java的开发速度不够快。 在最初的20年中,Java平台和Java开发工具包(JDK)经历了庞大,不…

MATLAB 在一个数组中随机选择n个数

MATLAB 中在一个数组内随机选择n个数。 例如:在 A [10, 50, 80, 100, 130, 260] 中随机选择5个数。 允许重复: n 5; A [10, 50, 80, 100, 130, 260]; random_num A(randi(numel(A),1,n)); random_num sort(random_num);不允许重复: …

【渝粤题库】广东开放大学photoshop图像处理 形成性考核

题目: 使用变换命令中的缩放命令时,按住哪个键可以保证等比例缩放?( ) 题目: 将前景色和背景色恢复为默认颜色的快捷键是()? 题目: Photoshop中“图像尺寸”…

martingale与Markov Process的关系

鞅过程与马尔科夫过程是什么关系? 1.鞅代表的是公平游戏,马尔可夫过程侧重过程无记忆性 总而言之:鞅和马尔可夫过程没有包含的关系。因为鞅代表的是公平游戏,而马尔可夫过程侧重过程无记忆性。两者没有内在联系。 注&#xff1…