《Python数据分析技术栈》第06章使用 Pandas 准备数据 13 分组和汇总 Grouping and aggregation

13 分组和汇总 Grouping and aggregation

《Python数据分析技术栈》第06章使用 Pandas 准备数据 13 分组和汇总 Grouping and aggregation

Aggregation is the process of summarizing a group of values into a single value.

聚合是将一组值汇总为一个值的过程。

Hadley Wickham, a statistician, laid down the “Split-Apply-Combine” methodology (the paper can be accessed here: https://www.jstatsoft.org/article/view/v040i01/v40i01.pdf), which has three steps:

  • Split the data into smaller groups that are manageable andindependent of each other. This is done using the groupby methodin Pandas.
  • Apply functions on each of these groups. We can apply any of theaggregation functions, including minimum, maximum, median,mean, sum, count, standard deviation, variance, and size. Eachof these aggregate functions calculate the aggregate value of theentire group. Note that we can also write a customized aggregationfunction.
  • Combine the results after applying functions to each group into asingle combined object.

统计学家哈德利-威克姆(Hadley Wickham)提出了 "拆分-应用-合并 "方法(论文可在此处查阅:https://www.jstatsoft.org/article/view/v040i01/v40i01.pdf),该方法分为三个步骤:

  • 将数据分割成易于管理且相互独立的较小分组。这可以使用 Pandas 中的 groupby 方法来完成。
  • 在每个分组上应用函数。我们可以应用任何聚合函数,包括最小值、最大值、中位数、平均值、总和、计数、标准偏差、方差和大小。每个聚合函数都会计算整个组的聚合值。请注意,我们也可以编写自定义的聚合函数。
  • 将每个组应用函数后的结果合并为一个组合对象。

In the following section, we look at the groupby method, aggregation functions, the transform, filter, and apply methods, and the properties of the groupby object.

下面我们将介绍 groupby 方法、聚合函数、变换、筛选和应用方法以及 groupby 对象的属性。

Here, we again use the same COVID-19 dataset, which shows the number of cases and deaths for all countries on 12th April 2020.

在此,我们再次使用相同的 COVID-19 数据集,该数据集显示了 2020 年 4 月 12 日所有国家的病例数和死亡数。

df=pd.read_csv('subset-covid-data.csv')
df.head()

As we can see, there are several countries belonging to the same continent. Let us find the total number of cases and deaths for each continent. For this, we need to do grouping using the ‘continent’ column.

我们可以看到,有几个国家属于同一个大洲。让我们找出各大洲的病例总数和死亡人数。为此,我们需要使用 "洲 "列进行分组。

df.groupby('continent')['cases','deaths'].sum()

Here, we are grouping by the column “continent”, which becomes the grouping column. We are aggregating the values of the number of cases and deaths, which makes the columns named “cases” and “deaths” the aggregating columns. The sum method, which becomes our aggregating function, calculates the total of cases and deaths for all countries belonging to a given continent. Whenever you perform a groupby operation, it is recommended that these three elements (grouping column, aggregating column, and aggregating function) be identified at the outset.

在这里,我们按 "洲 "列进行分组,"洲 "列成为分组列。我们对病例数和死亡数进行汇总,因此 "病例 "和 "死亡 "列成为汇总列。求和方法是我们的聚合函数,用于计算属于某一大洲的所有国家的病例数和死亡数的总和。在执行分组操作时,建议从一开始就确定这三个元素(分组列、汇总列和汇总函数)。

The following thirteen aggregate functions can be applied to groups: sum(), max(), min(), std(), var(), mean(), count(), size(), sem(), first(), last(), describe(), nth().

以下 13 个聚合函数可用于分组:sum(), max(), min(), std(), var(), mean(), count(), size(), sem(), first(), last(), describe(), nth()。

We can also use the agg method, with np.sum as an attribute, which produces the same output as the previous statement:

我们还可以使用以 np.sum 为属性的 agg 方法,其输出结果与上一条语句相同:

df.groupby('continent')['cases','deaths'].agg(np.sum)

The agg method can accept any of the aggregating methods, like mean, sum, max, and so on, and these methods are implemented in NumPy.

agg 方法可以接受任何聚合方法,如 mean、sum、max 等,这些方法都在 NumPy 中实现。

We can also pass the aggregating column and the aggregating method as a dictionary to the agg method, as follows, which would again produce the same output.

我们还可以将聚合列和聚合方法作为字典传递给 agg 方法,如下所示,同样会产生相同的输出结果。

df.groupby('continent').agg({'cases':np.sum,'deaths':np.sum})

If there is more than one grouping column, use a list to save the column names as strings and pass this list as an argument to the groupby method.

如果有多个分组列,请使用列表将列名称保存为字符串,并将此列表作为参数传递给 groupby 方法。

Further reading on aggregate functions: https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html#aggregation

关于集合函数的进一步阅读: https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html#aggregation

检查 groupby 对象的属性 Examining the properties of the groupby object

The result of applying the groupby method is a groupby object. This groupby object has several properties that are explained in this section.

应用 groupby 方法的结果是一个 groupby 对象。这个 groupby 对象有几个属性,本节将对此进行说明。

分组对象的数据类型 Data type of groupby object

The data type of a groupby object can be accessed using the type function.

可使用 type 函数访问 groupby 对象的数据类型。

grouped_continents=df.groupby('continent')
type(grouped_continents)

获取组名 Obtaining the names of the groups

The groupby object has an attribute called groups. Using this attribute on the groupby object would return a dictionary, with the keys of this dictionary being the names of the groups.

groupby 对象有一个名为 groups 的属性。在 groupby 对象上使用该属性将返回一个字典,字典的键就是组的名称。

grouped_continents.groups.keys()

使用第 n 种方法返回每组中位置相同的记录 Returning records with the same position in each group using the nth method

Let us say that you want to see the details of the fourth country belonging to each continent. Using the nth method, we can retrieve this data by using a positional index value of 3 for the fourth position.

假设您想查看属于各大洲的第四个国家的详细信息。使用第 n 次方法,我们可以在第四个位置使用位置索引值 3 来检索该数据。

grouped_continents.nth(3)

使用 get_group 方法获取特定组的所有数据 Get all the data for a particular group using the get_group method

Use the get_group method with the name of the group as an argument to this method. In this example, we retrieve all data for the group named ‘Europe’.

使用 get_group 方法,并将组的名称作为该方法的参数。在本例中,我们将检索名为 "欧洲 "的组的所有数据。

grouped_continents.get_group('Europe')

We have seen how to apply aggregate functions to the groupby object. Now let us look at some other functions, like filter, apply, and transform, that can also be used with a groupby object.

我们已经了解了如何将聚合函数应用于 groupby 对象。现在让我们看看其他一些函数,如 filter、apply 和 transform,它们也可以与 groupby 对象一起使用。

过滤组 Filtering groups

The filter method removes or filters out groups based on a particular condition. While the agg (aggregate) method returns one value for each group, the filter method returns records from each group depending on whether the condition is satisfied.

筛选器方法根据特定条件删除或筛选出组。agg(聚合)方法为每个组返回一个值,而过滤器方法则根据条件是否满足从每个组返回记录。

Let us consider an example to understand this. We want to return all the rows for the continents where the average death rate is greater than 40. The filter method is called on a groupby object and the argument to the filter method is a lambda function or a predefined function. The lambda function here calculates the average death rate for every group, represented by the argument “x”. This argument is a DataFrame representing each group (which is the continent in our example). If the condition is satisfied for the group, all its rows are returned. Otherwise, all the rows of the group are excluded.

让我们看一个例子来理解这一点。我们希望返回平均死亡率大于 40 的各大洲的所有行。过滤方法是在 groupby 对象上调用的,过滤方法的参数是 lambda 函数或预定义函数。这里的 lambda 函数计算参数 "x "所代表的每个组的平均死亡率。该参数是一个 DataFrame,代表每个组(在我们的示例中是大陆)。如果满足该组的条件,则返回其所有行。否则,将排除该组的所有行。

grouped_continents=df.groupby('continent')
grouped_continents.filter(lambda x:x['deaths'].mean()>=40)

In the output, we see that only the rows for the groups (continents) ‘America’ and ‘Europe’ are returned since these are the only groups that satisfy the condition (group mean death rate greater than 40).

在输出结果中,我们可以看到只有 "美洲 "和 "欧洲 "这两个组(大洲)的行被返回,因为只有这两个组满足条件(组平均死亡率大于 40)。

变换方法和分组 Transform method and groupby

The transform method is another method that can be used with the groupby object, which applies a function on each value of the group. It returns an object that has the same rows as the original data frame or Series and is similarly indexed as well.

transform 方法是另一种可与 groupby 对象一起使用的方法,它可对组中的每个值应用一个函数。它返回一个与原始数据帧或系列具有相同行数的对象,并具有类似的索引。

Let us use the transform method on the population column to obtain the population in millions by dividing each value in the row by 1000000.

让我们在人口列上使用变换法,将该行中的每个值除以 1000000,即可得到以百万为单位的人口数。

grouped_continents['population'].transform(lambda x:x/1000000)

Notice that while the filter method returns lesser records as compared to its input object, the transform method returns the same number of records as the input object.

请注意,与输入对象相比,过滤方法返回的记录数量较少,而转换方法返回的记录数量与输入对象相同。

In the preceding example, we have applied the transform method on a Series. We can also use it on an entire DataFrame. A common application of the transform method is used to fill null values. Let us fill the missing values in our DataFrame with the value 0. In the output, notice that the values for the country code and population for the country ‘Anguilla’ (which were missing earlier) are now replaced with the value 0.

在前面的示例中,我们对一个系列应用了变换方法。我们也可以在整个 DataFrame 中使用该方法。transform 方法的一个常见应用是填充空值。让我们用 0 来填充 DataFrame 中的缺失值。在输出结果中,请注意 "安圭拉 "国家的国家代码和人口值(之前缺失)现在被替换为 0。

grouped_continents.transform(lambda x:x.fillna(0))

The transform method can be used with any Series or a DataFrame and not just with groupby objects. Creating a new column from an existing column is a common application of the transform method.

transform 方法不仅可用于 groupby 对象,还可用于任何 Series 或 DataFrame。从现有列创建新列是 transform 方法的常见应用。

应用方法和分组 Apply method and groupby

The apply method “applies” a function to each group of the groupby object. The difference between the apply and transform method is that the apply method is more flexible in that it can return an object of any shape while the transform method needs to return an object of the same shape.

apply 方法将一个函数 "应用 "到 groupby 对象的每个组中。apply 方法和 transform 方法的区别在于,apply 方法更灵活,它可以返回任何形状的对象,而 transform 方法需要返回相同形状的对象。

The apply method can return a single (scalar) value, Series or DataFrame, and the output need not be in the same structure as the input. Also, while the transform method applies the function on each column of a group, the apply method applies the function on the entire group.

apply 方法可以返回单个(标量)值、Series 或 DataFrame,输出不必与输入结构相同。此外,transform 方法在组的每一列上应用函数,而 apply 方法则在整个组上应用函数。

Let us use the apply method to calculate the total missing values in each group (continent).

让我们使用应用法来计算各组(洲)的缺失值总数。

grouped_continents.apply(lambda x:x.isna().sum())

The apply method, similar to the transform method, can be used with Series and DataFrame objects in addition to the groupby object.

apply 方法与 transform 方法类似,除用于 groupby 对象外,还可用于 Series 和 DataFrame 对象。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/641418.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【 CSS 】精灵图、字体图标、CSS 三角、常用布局技巧

1. 精灵图(重点) 1.1 为何需要精灵图 一个网页中往往会应用很多小的背景图像作为修饰,当网页中的图像过多时,服务器就会频繁地接收和发送请求图片,造成服务器请求压力过大,这将大大降低页面的加载速度。 …

Linux/Mac 命令行工具 tree 开发项目结构可以不用截图了 更方便 更清晰 更全

tree 是一个命令行工具,用于以树形结构显示文件系统目录的内容。它可用于列出指定目录下的所有文件和子目录,以及它们的层次关系。tree 命令在许多操作系统中都可用,包括Unix、Linux和macOS。 效果如下: 一、安装 linux # De…

「Git」config 配置

Git 会自动跟踪是 谁 修改了项目,哪怕只是其中的一个字符,所以,Git需要配置用户的用户名以及邮箱地址。因此,在开始 Git 管理之前,我们可以先把 Git的用户设置配置一下【非必需,如果没有配置,Gi…

Prometheus+Grafana监控Mysql数据库

Promethues Prometheus https://prometheus.io Prometheus是一个开源的服务监控系统,它负责采集和存储应用的监控指标数据,并以可视化的方式进行展示,以便于用户实时掌握系统的运行情况,并对异常进行检测。因此,如何…

Ansible剧本playbooks

playbooks概述 Ansible剧本(playbook)是用于配置、部署和管理被控节点的一种描述文件。通过编写详细的剧本描述和执行其中的任务(tasks),可以使远程主机达到预期的状态。剧本由一个或多个"play"组成的列表构…

Spring Boot3整合knife4j(swagger3)

目录 1.前置条件 2.导依赖 3.配置 1.前置条件 已经初始化好一个spring boot项目且版本为3X,项目可正常启动。 作者版本为3.2.2最新版 2.导依赖 knife4j官网: Knife4j 集Swagger2及OpenAPI3为一体的增强解决方案. | Knife4j (xiaominfo.com)http…

CI/CD流水线插件在服务质量看护中的实践

一、前言 1、CI/CD CI/CD 是一种通过在应用开发阶段引入自动化来频繁向客户交付应用的方法。CI/CD 的核心概念是持续集成、持续交付和持续部署。 作为一种面向开发和运维团队的解决方案,CI/CD 主要针对在集成新代码时所引发的问题(亦称:“…

dnf:找不到命令

[rootecm-a08e ~]# sudo dnf install -y mysql-community-server sudo: dnf:找不到命令 [rootecm-a08e ~]# 在一些系统中,可能使用的是 yum 而不是 dnf 来进行包管理。请尝试使用 yum 命令安装 MySQL 8: sudo yum install -y mysql-communi…

R语言简介

1.R语言 R语言是一种数学编程语言,主要用于统计分析、绘图和数据挖掘。 2.R语言特点 免费、开源,兼容性好(Windows、MacOS或Linux)。具有多种数据类型,如向量、矩阵、因子、数据集等常用数据结构。多用于交互式数据分析&#x…

股权众筹模式介绍(下)

3、线上线下两段式投资 对于已经成成立并运营的企业来说,由于《证券法》明确规定,向“不特定对象发行证券”以及“向特定对象发行证券累计超过200人”的行为属于公开发行证券,必须通过证监会核准,由证券公司承销。这些规定限定了…

RTDETR 引入 UniRepLKNet:用于音频、视频、点云、时间序列和图像识别的通用感知大卷积神经网络 | DRepConv

大卷积神经网络(ConvNets)近来受到了广泛研究关注,但存在两个未解决且需要进一步研究的关键问题。1)现有大卷积神经网络的架构主要遵循传统ConvNets或变压器的设计原则,而针对大卷积神经网络的架构设计仍未得到解决。2)随着变压器在多个领域的主导地位,有待研究ConvNets…

LED流水灯

这段代码是用于STM32F10x系列微控制器的程序,主要目的是初始化GPIOA并使其所有引脚按照特定的模式进行闪烁。下面是对这段代码的逐行解释: #include "stm32f10x.h":这一行包含了STM32F10x系列微控制器的设备头文件。这个头文件包含…

《Python数据分析技术栈》第07章Python数据可视化 01 Matplotlib

01 Matplotlib 《Python数据分析技术栈》第07章Python数据可视化 01 Matplotlib In the last chapter, we read about Pandas, the library with various functions for preparing data in order to make it ready for analysis and visualization. Visualization is a means…

SAP CAP篇十三:拥抱TypeScript

本文目录 本系列文章从新开始为啥要用TypeScript官方文档程序框架从package.json开始tsconfig.jsonJest的配置 jest.config.js服务的实现自动化测试setup.ts文件夹integration 执行及测试对应代码及branch 本系列文章 SAP CAP篇一: 快速创建一个Service,基于Java的…

小程序商城 免 费 搭 建之java商城 电子商务Spring Cloud+Spring Boot+二次开发+mybatis+MQ+VR全景+b2b2c

java SpringCloud版本b2b2c鸿鹄云商平台全套解决方案 使用技术: Spring CloudSpring BootMybatis微服务服务监控可视化运营 B2B2C平台: 平台管理端(包含自营) 商家平台端(多商户入驻) PC买家端、手机wap/公众号买家端 微服务(30个通用…

Unity中URP下的SimpleLit的 BlinnPhong高光反射计算

文章目录 前言一、回顾Blinn-Phong光照模型1、Blinn-Phong模型: 二、URP下的SimpleLit的 BlinnPhong1、输入参数2、程序体计算 前言 在上篇文章中,我们分析了 URP下的SimpleLit的 Lambert漫反射计算。 Unity中URP下的SimpleLit的 Lambert漫反射计算 我…

Java基于沙箱环境实现支付宝支付

一、支付宝沙箱环境介绍 沙箱环境是支付宝开放平台为开发者提供的安全低门槛的测试环境,开发者在沙箱环境中调用接口无需具备所需的商业资质,无需绑定和开通产品,同时不会对生产环境中的数据造成任何影响。合理使用沙箱环境,可以…

【2024最新-python3小白零基础入门】No5.python函数的使用

文章目录 一 定义一个函数二 函数语法三 函数举例3.1 让我们使用函数来输出"Hello World!":3.2 比较两个数,并返回较大的数: 四 函数调用五 函数参数传递5.1 可更改(mutable)与不可更改(immutable)对象5.2 python 传不可变对象实例…

Android14实战:调整A2DP音量曲线(五十三)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒体系统工程师系列【原创干货持续更新中……】🚀 人生格言: 人生从来没有捷径,只…

【Linux install】Ubuntu和win双系统安装及可能遇到的所有问题

文章目录 1.前期准备1.1 制作启动盘1.2关闭快速启动、安全启动、bitlocker1.2.1 原因1.2.2 进入BIOSshell命令行进入BIOSwindows设置中高级启动在开机时狂按某个键进入BIOS 1.2.3 关闭Fast boot和Secure boot 1.3 划分磁盘空间1.3.1 查看目前的虚拟内存大小 2.开始安装2.1 使用…