pandas 根据列名索引多列数据_Pandas 数据聚合与分组运算[groupby+apply]速查笔记

利用Pandas将数据进行分组,并将各组进行聚合或自定义函数处理。

b8ca8cf472cefe5405e5157c92826b65.png
Pandas中Groupby分组与聚合过程

导入模块

import pandas as pd

缩写

df表示Dataframe对象

分组

  • df.groupby('col1'): 根据col1列将df全部列分组(默认:axis=0行)
  • df['col2'].groupby('col1'): 根据col1列对df中col2列分组
    • =df['col2'].groupby(df['col1'])
    • =df.groupby('col1')[['col2']]
    • =df.groupby('col1')['col2']
  • df.groupby(['col1','col2']): 根据col1,col2列将df分组
  • dict(list(df.groupby('col1'))): 将分组存为key为组名,value为group的字典
  • for name,group in df.groupby('col1'): 遍历分组名+组
  • for (n1,n2),group in df.groupby(['col1','col2']): 遍历取层级分组名+组
  • df.groupby(df.types, axis=1): 根据数据类型对df列分组
  • df.groupby(dict/list,axis=1):以字典或列表对df各列分组
    • dict中key为列名,value为分类标签,根据分类标签将列分类
  • df.groupby(len):计算df索引值的字符串长度,以长度值为分组及组名
  • df.groupby([len,list]):混和使用,层次化索引(0层:len,1层,list)
  • df.groupby(level='num',axis=1):层次化索引df中,以索引层名为num的列分组
  • groupby(group_keys=False): 分组列不成为索引
    • =reset_index()

聚合

>>>grouped = df.groupby('col1')

  • grouped.mean() :分组计算均值
    • grouped.agg('mean'):同上
  • grouped.size():分组大小
  • grouped.count():分组中非NA的数量
  • grouped.median():分组中位数
  • grouped.std():分组无偏标准差(分母n-1)
  • grouped.var():分组无偏方差
  • grouped.min():非NA最小值
  • grouped.max():非NA最大值
  • grouped.prod():非NA值的积
  • grouped.first():第一个非NA值
  • grouped.last():最后一个非NA值
  • grouped('col2').quantile(0.5):以col2列的0.5分位数聚合

自定义函数

  • grouped.agg(func):以自定义的func函数聚合
    • func 是以sereis为基础的操作
    • 默认聚合后的列名为func名
      • grouped.agg([(name,func)]):指定列名,不用func名
    • =grouped.aggregate(func)
  • grouped[col].agg([func1,‘mean','std',...,funcn]): 对分组列col使用多个聚合函数
  • grouped[col1,col2].agg([func1,funcn]): 分组后的多列使用多个聚合函数
  • grouped.agg({col:func1,col2:func2}): 对col1列用func1聚合,col2列用func2聚合

分组级运算

本质:将一维数组简化为标量值的函数

  • grouped.transform(func): 将聚合的标量值广播
  • grouped.apply(func,param1,param2....): 对各个分组列使用func函数,param是func的参数
  • groupby + pd.cut : 将数据分为等距区间分组
  • groupby + pd.qcut: 将数据根据分位数区间分组

透视表与交叉表

  • df.pivot_table() : 透视表
    • rows:行索引
    • cols:列索引
    • margins:总计行列数据,默认平均值
    • fill_value:填补缺失值
  • pd.crosstab(df.col1,df.col2) : 交叉表计算分组频率的特殊透视表

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/379013.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ffplay分析 (视频从Frame(解码后)队列取数据到SDL输出)

《ffplay的数据结构分析》 《ffplay分析(从启动到读取线程的操作)》 《ffplay分析(视频解码线程的操作)》 《ffplay分析(音频解码线程的操作)》 《ffplay 分析(音频从Frame(解码后)队列取数据到…

redis 备份导出rdb_Redis数据迁移利器之redisshake

“当需要进行Redis实例或集群数据迁移时,我们可以采用导出/导入的方式进行数据迁移,但当需要做数据异地灾备或双活时,再使用传统的方式就不合适了,我们需要借助工具(如redis-port/redis-shake)来完成。”redis-shake介绍redis-sha…

线性结构常规操作(四)

定义存储结构(以单向链表为主) 对于链表的定义,通过结构体进行定义,包括两部分,一是数据域,另一个就是指针,用于指向下一个节点。 1,创建链表 定义链表: struct nodesq{int data;//数据域&a…

ffplay分析 (暂停 / 播放处理)

《ffplay的数据结构分析》 《ffplay分析(从启动到读取线程的操作)》 《ffplay分析(视频解码线程的操作)》 《ffplay分析(音频解码线程的操作)》 《ffplay 分析(音频从Frame(解码后)队列取数据到…

源码 状态机_[源码阅读] 阿里SOFA服务注册中心MetaServer(1)

[源码阅读] 阿里SOFA服务注册中心MetaServer(1)0x00 摘要0x01 服务注册中心1.1 服务注册中心简介1.2 SOFARegistry 总体架构1.3 为什么要分层0x02 MetaServer2.1简介2.2 问题0x03 代码结构0x04 启动运行4.1 集成部署4.2 独立部署0x05 总体逻辑5.1 程序主体5.2 配置0x06 启动6.1…

HttpService远程校验

今天学了下HttpService,和大家分享一下。HttpService是用来读取远程数据的一个对象,数据格式为XML。 我做了一个登陆校验的功能,主要是通过HttpService将服务器端的用户数据得到,然后在客户端判断输入的用户名和密码是否存在。 主…

免费开源FTP Server软件FileZilla Server

很多朋友在实际应用中都可能需要用到FTP Server类的软件,这类软件有很多,比较知名的有Serv-U、G6等,这里向大家介绍一下FileZilla Server,Windows平台下一款不错的FTP Server软件,而且是免费的、开源的。 S…

ffplay分析 (seek操作处理)

《ffplay的数据结构分析》 《ffplay分析(从启动到读取线程的操作)》 《ffplay分析(视频解码线程的操作)》 《ffplay分析(音频解码线程的操作)》 《ffplay 分析(音频从Frame(解码后)队列取数据到…

android 代码设置 键盘适应_硬核软件,能在电脑上控制iPhone和Android手机

在电脑上控制手机大概已经不是什么新鲜操作,小米、华为都为自家手机和电脑的联动推出了同屏操作之类的功能,此外也可以通过开源软件Scrcpy来在Windows或者macOS上实现对安卓手机的控制,这些基本都只针对安卓手机。近期,奇客君发现…

ijkplayer 消息循环处理过程分析

ijkplayer 消息循环处理过程分析简介一、消息队列初始化1、 initWithContentURLString函数2、 ijkmp_ios_create函数3、 ijkmp_create函数二、消息队列的消息循环处理函数启动1、prepareToPlay函数2、ijkmp_prepare_async函数3、ijkmp_prepare_async_l函数4、ijkmp_msg_loop函数…

json解析对应的value为null_徒手撸一个JSON解析器

Java大联盟致力于最高效的Java学习关注作者 | 田小波cnblogs.com/nullllun/p/8358146.html1、背景JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。相对于另一种数据交换格式 XML,JSON 有着诸多优点。比如易读性更好,占用空间更少等。在 …

平院Python习题

在读写文件之前,用于创建文件对象的函数是( A )。 A. open B. create C. file D.folder 解析: open(file, mode‘r’, buffering-1, encodingNone, errorsNone, newlineNone, close…

搭建srs服务器(rtmp)

搭建srs服务器(rtmp) 目录:1、下载srs源码(从码云上):2、 切换到srs.oschina:3、 这里使用3.0版本:4、 切换到trunk:5、 编译:6、 启动:7、查看日志输出&…

2560介绍_炒股高手收益翻10倍,只因妙用这一招2560战法,看了都不亏了

(本文由公众号越声研究(yslc927yj)整理,仅供参考,不构成操作建议。如自行操作,注意仓位控制和风险自负。)选股是每个刚入市的新股民需掌握的技巧,通过资金选股了解资金流向,善用工具轻松选股,同时多留意行业…

rtmp协议分析(三次握手)

RTMP详细分析(Message 消息,Chunk分块) librtmp分析(发送数据包处理) librtmp分析(接收数据包处理) RTMP协议是Real Time Message Protocol(实时信息传输协议)的缩写,它是由Adobe公司提出的一种应 用层的协…

合并文件夹中子目录_01 Linux之统计文件夹中文件个数以及目录个数

案例分析:今天遇到了一个需要统计路径下目录个数的问题如果一个一个的去数会很麻烦,找到了一篇文章刚好提到这个,于是我将方法整理了一下。该方法的链接:Linux统计文件夹中文件个数以及目录个数_SG匚hang的博客-CSDN博客_linux统计…

关于Makefile,Makefile.in,Makefile.am,Configure功能及相互关系的问题

目录makefile写法1. 简介2. 上路之前3. 一个简单的例子4.说明:4.1、autoscan4.2、 configure.scan4.3、aclocal4.4、autoconf4.5、Makefile.am4.6、 automake4.7、Makefilemakefile写法 在 Unix 上写程式的人大概都碰过 Makefile,尤其是用 C 来开发程式…

西安理工大学863(转载)

原创:https://blog.csdn.net/mzj15101229871/article/details/107613162 (博主总结的很完整,很厉害,本人为了查看方便,才转载的。本人只是个小白~) 第一章 绪论 考试大纲 1)了解数据元素、数…

原理简介_消息通信的利器MQTT协议简介及协议原理

- 没用过但是必须得知道系列 -前言:相比于 XMPP, MQTT 的简单轻量受到了不少工程师的喜爱,从物联网到传统的消息服务,简单可依赖的 MQTT 到底为何让人如此着迷呢?MQTT 协议-MQTT 协议简介及协议原理MQTT(Me…

rtmp协议分析(Message 消息,Chunk分块)

RTMP详细分析(三次握手) librtmp分析(发送数据包处理) librtmp分析(接收数据包处理) 目录1、Message(消息)2、Chunking(Message 分块)2.1、 Basic Header(基本的头信息)2.1.1、Basic Header为1个字节时2.1.…