Pandas库学习之dataframe.corr()函数

Pandas库学习之dataframe.corr()函数

一、简介

dataframe.corr()是Pandas库中的一个函数,用于计算DataFrame中各列之间的相关系数。相关系数衡量的是两个变量之间线性关系的强度和方向,结果在-1到1之间,分别表示完全负相关和完全正相关。

二、语法和参数

DataFrame.corr(method='pearson', min_periods=1)
  • method: 可选。计算相关系数的方法,有’pearson’(默认)、‘kendall’、'spearman’三种可选。
    • 'pearson':标准皮尔逊相关系数。
    • 'kendall':肯德尔等级相关系数。
    • 'spearman':斯皮尔曼等级相关系数。
  • min_periods: 可选。每对元素的最小数量,以便计算相关系数。

三、实例

3.1 计算默认的皮尔逊相关系数
import pandas as pd# 创建示例数据
data = {'A': [1, 2, 3, 4, 5],'B': [5, 4, 3, 2, 1],'C': [2, 2, 3, 4, 4]
}
df = pd.DataFrame(data)# 计算相关系数
correlation_matrix = df.corr()
print(correlation_matrix)

输出:

          A         B         C
A  1.000000 -1.000000  0.948683
B -1.000000  1.000000 -0.948683
C  0.948683 -0.948683  1.000000
3.2 计算斯皮尔曼相关系数
import pandas as pd# 创建示例数据
data = {'A': [1, 2, 3, 4, 5],'B': [5, 4, 3, 2, 1],'C': [2, 2, 3, 4, 4]
}
df = pd.DataFrame(data)# 计算相关系数
correlation_matrix = df.corr(method='spearman')
print(correlation_matrix)

输出:

          A         B         C
A  1.000000 -1.000000  0.948683
B -1.000000  1.000000 -0.948683
C  0.948683 -0.948683  1.000000
3.3 计算斯皮尔曼相关系数
import pandas as pd# 创建示例数据
data = {'A': [1, 2, 3, 4, 5],'B': [5, 4, 3, 2, 1],'C': [2, 2, 3, 4, 4]
}
df = pd.DataFrame(data)# 计算相关系数
correlation_matrix = df.corr(method='kendall')
print(correlation_matrix)

输出

          A         B         C
A  1.000000 -1.000000  0.894427
B -1.000000  1.000000 -0.894427
C  0.894427 -0.894427  1.000000

四、注意事项

  • 当使用kendallspearman方法时,计算可能会比pearson方法慢,因为这些方法需要排序。
  • 如果数据集中存在NaN值,默认情况下这些值会被忽略。
  • 计算相关系数前,确保数据已经清洗并准备好,以避免错误或不准确的结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/47963.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前端代码审查大纲

一、代码审查的目的 提升代码质量:代码审查可以发现代码中的错误、漏洞、不符合规范的地方,从而及时进行修正。这有助于提升代码的稳定性和可靠性,减少运行时出现的问题。 统一编码标准和风格:代码审查可以确保团队成员遵循统一的…

Maven学习——Maven的下载、安装与配置(详细攻略!)

目录 前言 1.下载与安装 2.配置Maven的环境变量 3.配置Maven的本地仓库 4. 配置Maven的镜像远程仓库 前言 我在之前写了一篇博客,是介绍Maven的基本概念和下载安装,但是由于篇幅过长,Maven的下载与安装写的并不详细🐶&#x…

TCP三次握手与四次挥手详解

1.什么是TCP TCP(Transmission Control Protocol,传输控制协议)是一种面向连接的、可靠的、基于字节流的通信协议,属于互联网协议族(TCP/IP)的一部分。TCP 提供可靠的、顺序的、无差错的数据传输服务&…

TeamViewer手机端APP提示:请先验证账户

当你在手机端下载安装了TeamViewerAPP后,需要你先登录个人账号,然后还会要求你验证账户,同时跳转到一个网址中,但是这个网址并没有自动跳转到验证账户的位置。 解决办法: 在手机浏览器中进入下面这个网址:…

SpringCloudAlibaba-Seata2.0.0与Nacos2.2.1

一、下载 ## 下载seata wget https://github.com/apache/incubator-seata/releases/download/v2.0.0/seata-server-2.0.0.tar.gz## 解压 tar zxvf seata-server-2.0.0.tar.gz二、执行sql文件 ## 取出sql文件执行 cd /seata/script/server/db/mysql ## 找个mysql数据库执行三、…

分布式搜索引擎ES-elasticsearch入门

1.分布式搜索引擎:luceneVS Solr VS Elasticsearch 什么是分布式搜索引擎 搜索引擎:数据源:数据库或者爬虫资源 分布式存储与搜索:多个节点组成的服务,提高扩展性(扩展成集群) 使用搜索引擎为搜索提供服务。可以从海量…

算法基础之回溯法

本文将详细介绍回溯法的基本原理和适用条件,并通过经典例题辅助读者理解回溯法的思想、掌握回溯法的使用。本文给出的例题包括:N皇后问题、子集和问题。 算法原理 在问题的解空间树中,回溯法按照深度优先的搜索策略,从根结点出发…

IP溯源工具--IPTraceabilityTool

工具地址:xingyunsec/IPTraceabilityTool: 蓝队值守利器-IP溯源工具 (github.com) 工具介绍: 在攻防演练期间,对于值守人员,某些客户要求对攻击IP都进行分析溯源,发现攻击IP的时候,需要针对攻击IP进行分析…

Hive理论讲解

Hive介绍 1、Hive本质 Hive本质是【数仓设计方案】,hive本身并不存储数据【数据包含:元数据 (表)数据】。 2、hql和sql对比 sql 结构化查询语言【structured query language】hql hive/hadoop类sql查询语言【hive/hadoop query language like sql…

Python学习笔记40:游戏篇之外星人入侵(一)

前言 入门知识已经学完,常用标准库也了解了,pygame入门知识也学了,那么开始尝试小游戏的开发。 当然这个小游戏属于比较简单的小游戏,复杂的游戏需要长时间的编写累计开发经验,同时也需要一定的时间才能编写出来。现在的话还是嫩…

2024年7月16日(使用光盘创建本地仓库,引入网络镜像仓库,创建自建仓库)

了解yum源安装包的特点 了解常用的网络yum源 掌握本地和网络yum源的配置 能够使用yum工具安装软件包 rpm -ivh xxx 手动添加依赖 yum不止执行安装,会自动处理依赖安装 1、yum优点 rpm安装 (下载软件 单独安装 需要解决依赖关系) 源码安装 &am…

海外媒体发稿-瑞典SEO破茧成蝶:从0到10的实战精要-大舍传媒

海外媒体发稿-瑞典SEO破茧成蝶:从0到10的实战精要 一、迷茫与意义的探寻 有一天我找了王老师聊天,谈到生活迷茫和人生的意义。老师说了一段话:当全情投入于一件事情时,是没有时间去迷茫或思索人生意义的。我感触很深,当总感到迷…

linux服务器配置conda环境安装教程

1 软件准备 1.1 软件下载 https://repo.anaconda.com/archive/index.html 根据官网选择自己需要的版本。 这里下载的是 Anaconda3-2023.03-1-Linux-x86_64.sh 或者直接在linux中输入 wget -c https://repo.anaconda.com/archive/Anaconda3-2023.03-1-Linux-x86_64.sh 1.…

操作系统内核源码杂谈篇:临界区

临界资源,是指同一时刻只能由一个线程(linux下为进程)访问的资源,而临界区就是为了确保临界资源访问是单一数据流。 临界区的代码执行,也就是进行原子操作,不会被打断。 先分析RTOS的运行架构&#xff0c…

Paypal个人支付申请及沙箱测试配置

目录 一. 申请paypal账号二. Sanbox 测试配置申请买家Account申请卖家AccountSandbox的Client ID及密钥申请Live的Client ID及密钥申请IPN回调设置 一. 申请paypal账号 浏览器输入https://www.paypal.com, 单击注册按钮 2. 我这里申请个人账户,如果你需要企业账户&…

AI绘画入门实践|Midjourney 的模型版本

模型分类 Midjourney 的模型主要分为2大类: 默认模型:目前包括:V1, V2, V3, V4, V5.0, V5.1, V5.2, V6 NIJI模型:目前包括:NIJI V4, NIJI V5, NIJI V6 模型切换 你在服务器输入框中输入 /settings: 回车后…

ActiViz实战:ActiViz中的自己实现鼠标双击事件

文章目录 1、添加鼠标事件2、网上实现双击事件的方式3、增加双击的时间限制4、补充说明1、添加鼠标事件 已知在C#中观察者/命令模式会报错,正常添加鼠标事件如下: private void VtkInteractorStyleTest() {vtkInteractorStyle style = vtkInteractorStyle.New();style.LeftB…

【深度学习驱动智能超材料设计与应用】

在深度学习与超材料融合的背景下,不仅提高了设计的效率和质量,还为实现定制化和精准化的治疗提供了可能,展现了在材料科学领域的巨大潜力。深度学习可以帮助实现超材料结构参数的优化、电磁响应的预测、拓扑结构的自动设计、相位的预测及结构…

浏览器的缓存

1. 什么是浏览器缓存?它在前端开发中的作用是什么? 浏览器缓存是指浏览器在访问网页时将一些数据(如HTML、CSS、JavaScript文件、图像等)存储在客户端本地的临时存储空间中。这样,在用户再次访问同一个页面时&#xf…

抖音矩阵系统源码开发部署流程分享

#短视频矩阵源码 #短视频矩阵 #源码交付 抖音矩阵系统源码开发部署流程如下: 环境配置:首先,需要安装并配置开发环境,包括安装Java JDK、MySQL数据库、Eclipse开发工具等。 数据库设计:根据抖音矩阵系统的需求&…