python计算线性相关系数_Python+pandas计算数据相关系数(person、Kendall、spearman)

pandas中DataFrame对象corr()方法的用法,该方法用来计算DataFrame对象中所有列之间的相关系数(包括pearson相关系数、Kendall Tau相关系数和spearman秩相关)。

pandas相关系数-DataFrame.corr()参数详解

DataFrame.corr(method='pearson', min_periods=1)

参数说明:

method:可选值为{‘pearson’, ‘kendall’, ‘spearman’}

pearson:Pearson相关系数来衡量两个数据集合是否在一条线上面,即针对线性数据的相关系数计算,针对非线性数据便会有误差。

kendall:用于反映分类变量相关性的指标,即针对无序序列的相关系数,非正太分布的数据

spearman:非线性的,非正太分析的数据的相关系数

min_periods:样本最少的数据量

返回值:各类型之间的相关系数DataFrame表格。

#导入依赖库

import numpy as np

import pandas as pd

data = pd.DataFrame({'A':np.random.randint(1, 100, 10),

'B':np.random.randint(1, 100, 10),

'C':np.random.randint(1, 100, 10)})

data.corr() # 计算pearson相关系数

data.corr('kendall') # Kendall Tau相关系数

data.corr('spearman') # spearman秩相关

计算积距pearson相关系数,连续性变量才可采用;计算Spearman秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据; 计算Kendall秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据。

计算相关系数:当资料不服从双变量正态分布或总体分布未知,或原始数据用等级表示时,宜用 spearman或kendall相关

Pearson 相关复选项积差相关 计算连续变量或是等间距测度的变量间的相关分析

Kendall 复选项 等级相关 计算分类变量间的秩相关,适用于合并等级资料

Spearman 复选项 等级相关 计算斯皮尔曼相关,适用于连续等级资料

注:

1若非等间距测度的连续变量 因为分布不明-可用等级相关/也可用Pearson 相关,对于完全等级离散变量必用等级相关

2当资料不服从双变量正态分布或总体分布型未知或原始数据是用等级表示时,宜用 Spearman 或 Kendall相关。

3 若不恰当用了Kendall 等级相关分析则可能得出相关系数偏小的结论。则若不恰当使用,可能得相关系数偏小或偏大结论而考察不到不同变量间存在的密切关系。对一般情况默认数据服从正态分布的,故用Pearson分析方法。

两个连续变量间呈线性相关时,使用Pearson积差相关系数,用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系。(前提:作散点图主观判断下先)。按照高中数学水平来理解, 它很简单, 可以看做将两组数据首先做Z分数处理之后, 然后两组数据的乘积和除以样本数。

按照大学的线性数学水平来理解, 它比较复杂一点,可以看做是两组数据的向量夹角的余弦.

Spearman相关系数又称秩相关系数,是利用两变量的秩次大小作线性相关分析,对原始变量的分布不作要求,属于非参数统计方法,适用范围要广些。斯皮尔曼等级相关是根据等级资料研究两个变量间相关关系的方法。它是依据两列成对等级的各对等级数之差来进行计算的,所以又称为“等级差数法”

斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关来进行研究

对于服从Pearson相关系数的数据亦可计算Spearman相关系数,但统计效能要低一些。Pearson相关系数的计算公式可以完全套用 Spearman相关系数计算公式,但公式中的x和y用相应的秩次代替即可。

Kendall's tau-b等级相关系数:用于反映分类变量相关性的指标,适用于两个分类变量均为有序分类的情况。对相关的有序变量进行非参数相关检验;取值范围在-1-1之间,此检验适合于正方形表格;肯德尔(Kendall)W系数又称和谐系数,是表示多列等级变量相关程度的一种方法。适用这种方法的数据资料一般是采用等级评定的方法收集的,即让K个评委(被试)评定N件事物,或1个评委(被试)先后K次评定N件事物。等级评定法每个评价者对N件事物排出一个等级顺序,最小的等级序数为1 ,最大的为N,若并列等级时,则平分共同应该占据的等级,如,平时所说的两个并列第一名,他们应该占据1,2名,所以它们的等级应是1.5,又如一个第一名,两个并列第二名,三个并列第三名,则它们对应的等级应该是1,2.5,2.5,5,5,5,这里2.5是2,3的平均,5是4,5,6的平均。

肯德尔(Kendall)U系数又称一致性系数,是表示多列等级变量相关程度的一种方法。该方法同样适用于让K个评委(被试)评定N件事物,或1个评委(被试)先后K次评定N件事物所得的数据资料,只不过评定时采用对偶评定的方法,即每一次评定都要将N个事物两两比较,评定结果如下表所示,表格中空白位(阴影部分可以不管)填入的数据为:若i比j好记1,若i比j差记0,两者相同则记0.5。一共将得到K张这样的表格,将这K张表格重叠起来,对应位置的数据累加起来作为最后进行计算的数据,这些数据记为γij。

参考资料

参考资料Python+pandas计算数据相关系数的实例_python_脚本之家​www.jb51.nethttps://blog.csdn.net/CallMeYunzi/article/details/81134741​blog.csdn.nethttps://blog.csdn.net/wqhlmark64/article/details/78339622​blog.csdn.nethttps://blog.csdn.net/walking_visitor/article/details/85128461​blog.csdn.net

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/488366.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

matlab设置非平坦结构元,详解MATLAB/Simulink通信系统建模与仿真图书信息

第1章 Simulink基础1.1 Simulink简介1.2 运行Simulink演示程序1.2.1 运行房屋热力学系统演示模型1.2.2 房屋热力学系统模型说明1.2.3 其他Simulink演示程序1.3 建立一个简单的Simulink模型1.4 保存Simulink模型1.5 打印及HTML报告1.5.1 打印模型1.5.2 生成模型报告1.6 打印边框…

创建Socket【Socket编程4】

java在包java.net中提供了两个类Socket和ServerSocket,分别用来表示双向连接的客户端和服务端。这是两个封装得非常好的类,使用很方便。其构造方法如下: Socket(InetAddress address, int port); Socket(InetAddress address, int port, bool…

python打包linux可执行文件_Linux下安装pyinstaller用于将py文件打包生成一个可执行文件...

听说pyinstaller多平台支持的比较好,考虑在linux(redhat 6 32-bit)上装个pyinstall,不过真的是遇到太多问题了。。。下面是安装和使用流程:安装使用流程1. 首先给系统装个easy_install, 如果装了的可以跳过这步到pypi官方网址 https://pypi.p…

oracle未找到时区,解决ORA-01882:未找到时区区域%s

和许多网友一样,今天遇到了ora-01882问题,查了matelink解决了! 环境:Oracle server端版本:SQLgt; select * from v$version和许多网友一样,今天遇到了ora-01882问题,查了matelink解决了&#xf…

脑神经计算建模揭示前额叶皮层不同类型中间神经元在信息维持中的作用

来源:智能的本质与未来尽管占比相对锥形神经元数量少,但是中间神经元在大脑皮层实现认知功能中的作用却不容小觑。中间神经元的显著特点就是种类丰富,因此对不同类型中间经元在特定认知功能的分工作用的探索是揭示智能机制的关键之一。中国科…

支付宝支付-刷卡支付(条码支付)

此项目已开源欢迎Start、PR、发起Issues一起讨论交流共同进步 https://github.com/Javen205/IJPay http://git.oschina.net/javen205/IJPay 在官方的产品是叫做当面付 1、什么是当面付呢? 简单的讲就是条码支付(刷卡支付)、扫码支付、声波支付。 【官方是这样解释的…

solr做索引时抛出异常_Solr---gt;01

Solr介绍 什么叫做全文检索呢?这要从我们生活中的数据说起。 我们生活中的数据总体分为两种:结构化数据和非结构化数据。 1、结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。 2、非结构化数据&a…

新冠肺炎疫情把科研推上“云端”

来源:新华网美国威斯康星国家灵长类动物研究中心的戴夫奥康纳清晨收到在伦敦的一名合作伙伴发来的论文预印本。这项研究在中国完成,两人通过企业协同云端办公软件Slack讨论了一上午。下午2点,奥康纳打开高清会议系统GoToMeeting,和…

mysql和oracle的通用存储,MySQL与Oracle在使用上的一些区别

1.mysql与oracle数据库实现自增列的区别:mysql可以实现自增列,只要在建表时设置auto_increment即可,而oracle在建表时不能设置自增列功能,必须通过sequence序列来实现自增列功能,建立sequence序列的语句如下(假设序列名…

CSDN专訪:大数据时代下的商业存储

原文地址:http://www.csdn.net/article/2014-06-03/2820044-cloud-emc-hadoop摘要:EMC公司作为全球信息存储及管理产品方面的率先公司,不久前。EMC宣布收购DSSD加强和巩固了其在行业内的领导地位,日前我们有幸採訪到EMC中国的张安…

安装python后安装ana_Windows10+anacond+GPU+pytorch安装详细过程

1、查看自己电脑是否匹配GPU版本。设备管理器查看。查看官网是否匹配。地址:https://developer.nvidia.com/cuda-gpus **2、进入NVIDIA对电脑版本进行查**看。如果可以的的话可以自己卸载原来版本,后安装新版本。安装地址https://developer.nvidia.com/…

兵棋推演有助于我们了解哪些战争知识?

来源:兵推天下菲利普塞班博士是英国伦敦国王学院战争研究系的战略研究教授,他也是兵棋专家和兵棋设计师。在30多年的教学生涯中,他将兵棋融合到了课堂教学中,向学生展示兵棋推演对军事规划工作的实际作用。在一次访谈中&#xff0…

mssql与oracle不同点,MySql,Mssql,Oracle的优缺点和异同(欢迎补充) *

2007-10-04 14:18:151.绝对值S:select abs(-1) valueO:select abs(-1) value from dual2.取整(大)S:select ceiling(-1.001) valueO:select ceil(-1.001) value from dual3.取整(小)S:select floor(-1.001) valueO:select floor(-1.001) value…

2020 五大技术趋势:无人驾驶发展、机器视觉崛起、区块链实用化、人类增强技术、超自动化...

来源:机器人创新生态__自动驾驶技术的发展_近年来,自动驾驶技术一直在发展,特斯拉、英特尔等大公司在这一领域取得了长足的进展。虽然我们还没有达到L4级或L5级自动驾驶汽车的水平,但我们已经很接近了。为了解释每个级别的含义&am…

算法笔记_202:第三届蓝桥杯软件类决赛真题(Java高职)

目录 1 填算式 2 提取子串 3 机器人行走 4 地址格式转换 5 排日程 前言:以下代码仅供参考,若有错误欢迎指正哦~ 1 填算式 【结果填空】 (满分11分)看这个算式:☆☆☆ ☆☆☆ ☆☆☆如果每个五角星代表 1 ~ 9 的不同的数字。这个算式有多少种…

基于java的qq屏幕截图工具的设计与实现论文_众包学习:Web界面众包评估的通用工具包...

论文:Nebeling M , Speicher M , Norrie M C . CrowdStudy: general toolkit for crowdsourced evaluation of web interfaces[C]// Acm Sigchi Symposium on Engineering Interactive Computing Systems. ACM, 2013.摘要:传统的可用性测试方法既费时又昂…

oracle recover redo,oracle redo log日志(当前或非当前日志)损坏之后的db恢复

出错情况:sql> alter database open;alter database open*第 1 行出现错误:ora-01113: 文件 1 需要介质恢复ora-01110: 数据文件 1: f:/oracle/oradata/orcl/system01.dbf试图恢复数据文件出错:sql> recover datafile f:/oracle/oradata/orcl/syst…

福布斯2020年AI领域10大预测:人工智能越来越“边缘化”!

来源:人工智能和大数据毫无疑问,人工智能(AI)一直是2010年代的技术主题,随着新的十年的来临,这一趋势似乎不会消失。在过去的十年中,人们会回想起真正可以被视为“智能”机器的时代,…

vmware虚拟机克隆CentOS7 出现的网络问题解决办法

http://www.bubuko.com/infodetail-1483490.html(转) vmware虚拟机克隆CentOS7 出现的网络问题解决办法 时间:2016-04-02 07:17:00 阅读:578 评论:0 …

spss数据_职场白骨精进阶秘籍——SPSS数据分析基础

点击上方“蓝字”关注我们吧!想做数据分析,不会编程怎么办?如何让自己的数据分析更加专业?职场打拼,如何快速提升自己的竞争力?著名的未来学家托夫勒在其所著的《第三次浪潮》中将“大数据”称颂为“第三次…