Pandas数学函数大揭秘:让数据处理变得如此简单高效,轻松玩转数据分析新纪元!

在这里插入图片描述

1.导包

# 导包
import numpy as np
import pandas as pd

2.聚合函数

df = pd.DataFrame(data=np.random.randint(0,100,size=(5,3)))
df
012
0355028
1552376
2314193
3589543
4679917
# 列非空元素的数量
df.count()
0    5
1    5
2    5
dtype: int64
# 行非空元素的数量
df.count(axis=1)
0    3
1    3
2    3
3    3
4    3
dtype: int64
# 默认求每一列中不同行之间的最大值
df.max()
0    67
1    99
2    93
dtype: int32
# 求每一行中不同列之间的最大值
df.max(axis=1)
0    50
1    76
2    93
3    95
4    99
dtype: int32
# 求最小值
df.min()
0    31
1    23
2    17
dtype: int32
df.min(axis=1)
0    28
1    23
2    31
3    43
4    17
dtype: int32
# 求中位数
df.median()
0    55.0
1    50.0
2    43.0
dtype: float64
# 求每列元素的和
df.sum()
0    246
1    308
2    257
dtype: int64
# 求每行元素的和
df.sum(axis=1)
0    113
1    154
2    165
3    196
4    183
dtype: int64
# 求所有元素的和
df.values.sum()
811
# 求每一列不同行的平均值
df.mean()
0    49.2
1    61.6
2    51.4
dtype: float64
# 求每一行不同列的平均值
df.mean(axis=1)
0    37.666667
1    51.333333
2    55.000000
3    65.333333
4    61.000000
dtype: float64

3.方差

  • 当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和较大,方差就较大
  • 当数据分布比较集中时,各个数据与平均数的差的平方和较小
  • 因此方差较大,数据的波动较大;方差越小数据的波动就越小
  • 标准差
    • 标准差 = 方差的算术平方根
df = pd.DataFrame(data=np.random.randint(0,100,size=(5,3)))
df
012
072419
1367545
2998933
3302377
4195216
# 方差
df.var()
0    1108.7
1     695.0
2     725.0
dtype: float64
# 标准差
df.std()
0    33.297147
1    26.362853
2    26.925824
dtype: float64

4.其他数学函数

# 统计元素出现次数
df[1].value_counts()
1
41    1
75    1
89    1
23    1
52    1
Name: count, dtype: int64
# 累加
df.cumsum()
012
072419
110811654
220720587
3237228164
4256280180
# 累乘
df.cumprod()
012
072419
125923075405
225660827367513365
3769824062945251029105
414626656032731530016465680

5.协方差

  • 两组数值中每对变量的偏差乘积的平均值
  • 协方差>0:表示两组变量正相关
    • 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值是另外一个也大于自身的值,那么两个变量之间的协方差就是正值
  • 协方差<0:表示两组变量负相关
    • 如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值是另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值
  • 协方差=0:表示两组变量不相关
# 协方差
df.cov()
012
01108.70451.25-266.75
1451.25695.00-199.00
2-266.75-199.00725.00
# 第0列和第1列的协方差
df[0].cov(df[1])
451.25
  • 相关系数 r
    • 相关系数 = X与Y的协方差 / (X的标准差 * Y的标准差)
    • 相关系数值的范围在 -1 和 +1 之间
    • r > 0 为正相关,r < 0 为负相关,r = 0 表示不相关
    • r 的绝对值越大,相关程度越高
# 所有特征相关系数
df.corr()
012
01.0000000.514065-0.297528
10.5140651.000000-0.280344
2-0.297528-0.2803441.000000
# 单一特征相关系数
df.corrwith(df[2])
0   -0.297528
1   -0.280344
2    1.000000
dtype: float64

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/45097.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

多输入多输出 | Matlab实现Transformer多输入多输出预测

多输入多输出 | Matlab实现Transformer多输入多输出预测 目录 多输入多输出 | Matlab实现Transformer多输入多输出预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 多输入多输出 | Matlab实现Transformer多输入多输出预测&#xff08;完整源码和数据&#xff09; 1.da…

二分查找算法——部分OJ题详解

目录 关于二分查找算法 部分OJ题详解 704.二分查找 一&#xff0c;分析题目 二&#xff0c;细节处理 三&#xff0c;题目代码 四&#xff0c;*总结朴素模板 *34.在排序数组中查找元素的第一个和最后一个位置 一&#xff0c;查找左端点 二&#xff0c;处理左端点细…

Socks5代理为何比HTTP代理快?

在网络世界中&#xff0c;代理服务器扮演着重要的角色&#xff0c;它们能够帮助我们访问被限制的网站、提高网络安全性以及优化网络性能。其中&#xff0c;Socks5代理和HTTP代理是两种常见的代理类型。然而&#xff0c;很多用户发现&#xff0c;相较于HTTP代理&#xff0c;Sock…

【两大3D转换SDK对比】HOOPS Exchange VS. CAD Exchanger

在现代工业和工程设计领域&#xff0c;CAD数据转换工具是确保不同软件系统间数据互通的关键环节。HOOPS Exchange和CAD Exchanger是两款备受关注的工具&#xff0c;它们在功能、支持格式、性能和应用场景等方面有着显著差异。 本文将从背景、支持格式、功能和性能、应用场景等…

嵌入式ARM控制器在AGV里的应用

随着ARM技术以及芯片加工工艺的迅猛发展&#xff0c; ARM工业计算机得到了越来越广泛的应用&#xff0c;尤其在工业智慧城市、智能设备以及工业自动化控制等领域。本文将为大家详细介绍ARM控制器在AGV控制系统中的应用&#xff0c;来供大家学习和参考&#xff0c;欢迎大家一起来…

Linux磁盘-创建分区

作者介绍&#xff1a;简历上没有一个精通的运维工程师。希望大家多多关注作者&#xff0c;下面的思维导图也是预计更新的内容和当前进度(不定时更新)。 Linux磁盘涉及到的命令不是很多&#xff0c;但是在实际运维中的作用却很大&#xff0c;因为Linux系统及业务都会承载到硬盘…

【PTA天梯赛】L1-003 个位数统计(15分)

作者&#xff1a;指针不指南吗 专栏&#xff1a;算法刷题 &#x1f43e;或许会很慢&#xff0c;但是不可以停下来&#x1f43e; 文章目录 题目题解总结 题目 题目链接 题解 使用string把长度达1000位的数字存起来开一个代表个位数的数组 a[11]倒序计算最后一位&#xff0c;…

进度条提示-在python程序中使用避免我误以为挂掉了

使用库tqdm 你还可以手写一点&#xff0c;反正只要是输出点什么东西都可以&#xff1b; Demo from chatgpt import time from tqdm import tqdm# 示例函数&#xff0c;模拟长时间运行的任务 def long_running_task():total_steps 100for step in tqdm(range(total_steps), …

mac下mysql无法登陆的问题

用如下命令登录出现错误。 sudo mysql.server start解决方案 使用如下命令登录 sudo /usr/local/MySQL/support-files/mysql.server start

利用 Plotly.js 创建交互式条形图

本文由ScriptEcho平台提供技术支持 项目地址&#xff1a;传送门 利用 Plotly.js 创建交互式条形图 应用场景介绍 交互式条形图广泛应用于数据可视化和分析领域。它可以直观地展示不同类别或分组之间的数值差异&#xff0c;并允许用户通过交互操作探索数据。 代码基本功能介…

基于springboot+mybatis学生管理系统

基于springbootmybatis学生管理系统 简介&#xff1a; 题目虽然是学生管理系统&#xff0c;但功能包含(学生&#xff0c;教师&#xff0c;管理员),项目基于springboot2.1.x实现的管理系统。 编译环境 &#xff1a; jdk 1.8 mysql 5.5 tomcat 7 框架 &#xff1a; springboot…

代码随想录第50天|单调栈

739. 每日温度 参考 思路1: 暴力解法 思路2: 单调栈 使用场合: 寻找任一个元素的右边或者左边第一个比自己大或者小的元素位置, 存放的是遍历过的元素 记忆: 单调栈是对遍历过的元素做记录, 一般是对栈顶的元素 nums[mystack.top()] 做赋值操作的 如果想找到右边的元素大于左…

TCP和IP数据包结构

一、问题引入 一般我们在谈上网速度的时候&#xff0c;专业上用带宽来描述&#xff0c;其实无论说网速或者带宽都是不准确的&#xff0c;呵呵。比如&#xff1a;1兆&#xff0c;512K……有些在学校的学生&#xff0c;也许会有疑问&#xff0c;明明我的业务是1M&#xff0c;为…

51单片机(STC8051U34K64)_RA8889_SPI4参考代码(v1.3)

硬件&#xff1a;STC8051U34K64 RA8889开发板&#xff08;硬件跳线变更为SPI-4模式&#xff0c;PS101&#xff0c;R143&#xff0c;R141短接&#xff0c;R142不接&#xff09; STC8051U34K64是STC最新推出来的单片机&#xff0c;主要用于替换传统的8051单片机&#xff0c;与标…

程序员学长 | 快速学习一个算法,GAN

本文来源公众号“程序员学长”&#xff0c;仅用于学术分享&#xff0c;侵权删&#xff0c;干货满满。 原文链接&#xff1a;快速学习一个算法&#xff0c;GAN GAN 如何工作&#xff1f; GAN 由两个部分组成&#xff1a;生成器&#xff08;Generator&#xff09;和判别器&…

从0开始基于transformer进行股价预测(pytorch版本)

目录 数据阶段两个问题开始利用我们的代码进行切分 backbone网络训练效果 感觉还行&#xff0c;没有调参数。源码比较长&#xff0c;如果需要我后续会发&#xff08;因为太长了&#xff01;&#xff01;&#xff09; 数据阶段 &#xff01;&#xff01;&#xff01;注意&#…

还不懂 OOM ?详解内存溢出与内存泄漏区别!

内存溢出与内存泄漏 1. 内存溢出&#xff08;Out Of Memory&#xff0c;OOM&#xff09; 概念&#xff1a; 内存溢出是指程序在运行过程中&#xff0c;尝试申请的内存超过了系统所能提供的最大内存限制&#xff0c;并且垃圾收集器也无法提供更多的内存&#xff0c;导致程序无…

# Redis 入门到精通(一)数据类型(3)

Redis 入门到精通&#xff08;一&#xff09;数据类型&#xff08;3&#xff09; 一、redis 数据类型–set 类型介绍与基本操作 1、set 类型 新的存储需求: 存储大量的数据&#xff0c;在查询方面提供更高的效率。需要的存储结构: 能够保存大量的数据&#xff0c;高效的内部…

【爬虫】解析爬取的数据

目录 一、正则表达式1、常用元字符2、量词3、Re模块4、爬取豆瓣电影 二、Xpath1、Xpath解析Ⅰ、节点选择Ⅱ、路径表达式Ⅲ、常用函数 2、爬取豆瓣电影 解析数据&#xff0c;除了前面的BeautifulSoup库&#xff0c;还有正则表达式和Xpath两种方法。 一、正则表达式 正则表达式…

C++|智能指针

目录 引入 一、智能指针的使用及原理 1.1RAII 1.2智能指针原理 1.3智能指针发展 1.3.1std::auto_ptr 1.3.2std::unique_ptr 1.3.3std::shared_ptr 二、循环引用问题及解决方法 2.1循环引用 2.2解决方法 三、删除器 四、C11和boost中智能指针的关系 引入 回顾上…