pandas 根据列名索引多列数据_Pandas 数据聚合与分组运算[groupby+apply]速查笔记

利用Pandas将数据进行分组,并将各组进行聚合或自定义函数处理。

b8ca8cf472cefe5405e5157c92826b65.png
Pandas中Groupby分组与聚合过程

导入模块

import pandas as pd

缩写

df表示Dataframe对象

分组

  • df.groupby('col1'): 根据col1列将df全部列分组(默认:axis=0行)
  • df['col2'].groupby('col1'): 根据col1列对df中col2列分组
    • =df['col2'].groupby(df['col1'])
    • =df.groupby('col1')[['col2']]
    • =df.groupby('col1')['col2']
  • df.groupby(['col1','col2']): 根据col1,col2列将df分组
  • dict(list(df.groupby('col1'))): 将分组存为key为组名,value为group的字典
  • for name,group in df.groupby('col1'): 遍历分组名+组
  • for (n1,n2),group in df.groupby(['col1','col2']): 遍历取层级分组名+组
  • df.groupby(df.types, axis=1): 根据数据类型对df列分组
  • df.groupby(dict/list,axis=1):以字典或列表对df各列分组
    • dict中key为列名,value为分类标签,根据分类标签将列分类
  • df.groupby(len):计算df索引值的字符串长度,以长度值为分组及组名
  • df.groupby([len,list]):混和使用,层次化索引(0层:len,1层,list)
  • df.groupby(level='num',axis=1):层次化索引df中,以索引层名为num的列分组
  • groupby(group_keys=False): 分组列不成为索引
    • =reset_index()

聚合

>>>grouped = df.groupby('col1')

  • grouped.mean() :分组计算均值
    • grouped.agg('mean'):同上
  • grouped.size():分组大小
  • grouped.count():分组中非NA的数量
  • grouped.median():分组中位数
  • grouped.std():分组无偏标准差(分母n-1)
  • grouped.var():分组无偏方差
  • grouped.min():非NA最小值
  • grouped.max():非NA最大值
  • grouped.prod():非NA值的积
  • grouped.first():第一个非NA值
  • grouped.last():最后一个非NA值
  • grouped('col2').quantile(0.5):以col2列的0.5分位数聚合

自定义函数

  • grouped.agg(func):以自定义的func函数聚合
    • func 是以sereis为基础的操作
    • 默认聚合后的列名为func名
      • grouped.agg([(name,func)]):指定列名,不用func名
    • =grouped.aggregate(func)
  • grouped[col].agg([func1,‘mean','std',...,funcn]): 对分组列col使用多个聚合函数
  • grouped[col1,col2].agg([func1,funcn]): 分组后的多列使用多个聚合函数
  • grouped.agg({col:func1,col2:func2}): 对col1列用func1聚合,col2列用func2聚合

分组级运算

本质:将一维数组简化为标量值的函数

  • grouped.transform(func): 将聚合的标量值广播
  • grouped.apply(func,param1,param2....): 对各个分组列使用func函数,param是func的参数
  • groupby + pd.cut : 将数据分为等距区间分组
  • groupby + pd.qcut: 将数据根据分位数区间分组

透视表与交叉表

  • df.pivot_table() : 透视表
    • rows:行索引
    • cols:列索引
    • margins:总计行列数据,默认平均值
    • fill_value:填补缺失值
  • pd.crosstab(df.col1,df.col2) : 交叉表计算分组频率的特殊透视表

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/379013.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

杀毒软件对InstallShield编译过程以及安装包运行的影响

版权声明: 可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息。在某些情况下,杀毒软件会导致InstallShield编译过程崩溃。比如 McAfee VirusScan Enterprise 8.5.0i版本,在某些情况下会在InstallScript工程编译过程中,将ISSe…

Java FileInputStream close()方法与示例

FileInputStream类close()方法 (FileInputStream Class close() method) close() method is available in java.io package. close()方法在java.io包中可用。 close() method is used to close this FileInputStream and free all system resources linked with this stream. c…

ffplay分析 (视频从Frame(解码后)队列取数据到SDL输出)

《ffplay的数据结构分析》 《ffplay分析(从启动到读取线程的操作)》 《ffplay分析(视频解码线程的操作)》 《ffplay分析(音频解码线程的操作)》 《ffplay 分析(音频从Frame(解码后)队列取数据到…

线性结构节点类型(三)

一、线性结构 特点 第一个数据元素没有前驱最后一个数据元素没有后继1:1逻辑上相邻、物理上也相邻 类型 线性表(就是一张二维表)(为主研究对象)栈队列 学习方法 画逻辑结构—>定义存储结构—>实现相应的操作 二、线性表 线性结构 逻辑上的1:1存储结构 顺序存储结…

PL/SQL详细介绍

PL/SQL笔记PL/SQL块中只能直接嵌入SELECT,DML(INSERT,UPDATE,DELETE)以及事务控制语句(COMMIT,ROLLBACK,SAVEPOINT),而不能直接嵌入DDL语句(CREATE,ALTER,DROP)和DCL语句(GRANT,REVOKE) 1.检索单行数据 1.1使用标量变量接受数据 v_ename emp.ename%type; v_sal emp.sal%…

redis 备份导出rdb_Redis数据迁移利器之redisshake

“当需要进行Redis实例或集群数据迁移时,我们可以采用导出/导入的方式进行数据迁移,但当需要做数据异地灾备或双活时,再使用传统的方式就不合适了,我们需要借助工具(如redis-port/redis-shake)来完成。”redis-shake介绍redis-sha…

从Live Space搬家到这里

听说Live Space很快要关闭了,所以从http://peking2toronto.spaces.live.com/搬家到这里。转载于:https://www.cnblogs.com/pentest/archive/2010/08/29/1811726.html

java 方法 示例_Java Collectionsfrequency()方法与示例

java 方法 示例集合类的frequency()方法 (Collections Class frequency() method) frequency() method is available in java.util package. frequency()方法在java.util包中可用。 frequency() method is used to return the frequency of the given Object (obj) to the give…

线性结构常规操作(四)

定义存储结构(以单向链表为主) 对于链表的定义,通过结构体进行定义,包括两部分,一是数据域,另一个就是指针,用于指向下一个节点。 1,创建链表 定义链表: struct nodesq{int data;//数据域&a…

ffplay分析 (暂停 / 播放处理)

《ffplay的数据结构分析》 《ffplay分析(从启动到读取线程的操作)》 《ffplay分析(视频解码线程的操作)》 《ffplay分析(音频解码线程的操作)》 《ffplay 分析(音频从Frame(解码后)队列取数据到…

源码 状态机_[源码阅读] 阿里SOFA服务注册中心MetaServer(1)

[源码阅读] 阿里SOFA服务注册中心MetaServer(1)0x00 摘要0x01 服务注册中心1.1 服务注册中心简介1.2 SOFARegistry 总体架构1.3 为什么要分层0x02 MetaServer2.1简介2.2 问题0x03 代码结构0x04 启动运行4.1 集成部署4.2 独立部署0x05 总体逻辑5.1 程序主体5.2 配置0x06 启动6.1…

HttpService远程校验

今天学了下HttpService,和大家分享一下。HttpService是用来读取远程数据的一个对象,数据格式为XML。 我做了一个登陆校验的功能,主要是通过HttpService将服务器端的用户数据得到,然后在客户端判断输入的用户名和密码是否存在。 主…

免费开源FTP Server软件FileZilla Server

很多朋友在实际应用中都可能需要用到FTP Server类的软件,这类软件有很多,比较知名的有Serv-U、G6等,这里向大家介绍一下FileZilla Server,Windows平台下一款不错的FTP Server软件,而且是免费的、开源的。 S…

Java BigDecimal floatValue()方法与示例

BigDecimal类floatValue()方法 (BigDecimal Class floatValue() method) floatValue() method is available in java.math package. floatValue()方法在java.math包中可用。 floatValue() method is used to convert a BigDecimal to a float value and when this BigDecimal m…

明明的随机数(快排)

明明想在学校中请一些同学一起做一项问卷调查,为了实验的客观性,他先用计算机生成了N个1到1000之间的随机整数(N≤100),对于其中重复的数字,只保留一个,把其余相同的数去掉,不同的数…

ffplay分析 (seek操作处理)

《ffplay的数据结构分析》 《ffplay分析(从启动到读取线程的操作)》 《ffplay分析(视频解码线程的操作)》 《ffplay分析(音频解码线程的操作)》 《ffplay 分析(音频从Frame(解码后)队列取数据到…

android 代码设置 键盘适应_硬核软件,能在电脑上控制iPhone和Android手机

在电脑上控制手机大概已经不是什么新鲜操作,小米、华为都为自家手机和电脑的联动推出了同屏操作之类的功能,此外也可以通过开源软件Scrcpy来在Windows或者macOS上实现对安卓手机的控制,这些基本都只针对安卓手机。近期,奇客君发现…

网址出现error.aspx?aspxerrorpath=404.htm?aspxerrorpath=的原因及解决办法转

网址出现aspxerrorpath的问题描述 1.网页打不开了,输入网址后就提示error.aspx?aspxerrorpath/about-us.html,到底是什么原因啊? 2.ASP网站自定义了404错误页,但访问不存在的网址时网址错误页后面总多出aspxerrorpath参数,怎么解…

ruby hash方法_Ruby中带有示例的Hash.default(key = nil)方法

ruby hash方法Hash.default(key nil)方法 (Hash.default(keynil) Method) In this article, we will study about Hash.default(keynil) Method. The working of this method can be predicted with the help of its name but it is not as simple as it seems. Well, we will…

回文数、括号匹配(栈操作)

回文数 “xyzyx”是一个回文字符串,所谓回文字符串就是指正读反读均相同的字符序列,如“席主席”、“记书记”、“aha”和“ahaha”均是回文,但“ahah”不是回文。输入一行字符(仅包含小写英文字母a~z)请判断这行字符…