python数据分析05—Pandas数据处理

1.缺失数据处理

1.1 DataFrame自身产生的缺失数据

1.2 缺失数据判断和统计

1.3 缺失数据清理

2. 多源数据操作

2.1 合并函数：merge()

2.2 连接函数：join()

2.3 指定方向合并：concat()

3. 数据分组和聚合运算

3.1 groupby()方法

3.2 聚合：aggregate()方法

3.2.1 一般聚合使用

3.2.2 分组聚合

1.缺失数据处理

1.1 DataFrame自身产生的缺失数据

通过调整列名（reindex），并增加带缺失值的‘four’列。

M2=M1.reindex(columns=['two','one','three','four'])

1.2 缺失数据判断和统计

1.3 缺失数据清理

（1）常量替代：

（2）通过fillna()方法替代：

（3）丢弃带缺失值的行或者列：

(4) 用repalce(）方法替换缺失值：

replace(to_replace=None,value=None)用value指定的新值，替换to_replace指定的原值。

2. 多源数据操作

2.1 合并函数：merge()

merge(left, right, how=‘inner’, on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=(’_x’, ‘_y’), copy=True, indicator=False, validate=None)

2.2 连接函数：join()

通过索引或者指定的列连接两个DataFrame：

DataFrame.join(other, on=None, how=’left’, lsuffix=”, rsuffix=”, sort=False)

参数说明
other:【DataFrame，或者带有名字的Series，或者DataFrame的list】如果传递的是Series，那么其name属性应当是一个集合，并且该集合将会作为结果DataFrame的列名
on:【列名称，或者列名称的list/tuple，或者类似形状的数组】连接的列，默认使用索引连接
how:【{‘left’, ‘right’, ‘outer’, ‘inner’}, default:‘left’】连接的方式，默认为左连接
lsuffix:【string】左DataFrame中重复列的后缀
rsuffix:【string】右DataFrame中重复列的后缀
sort:【boolean, default
False】按照字典顺序对结果在连接键上排序。如果为False，连接键的顺序取决于连接类型（关键字）。

实例：

现有first与other两个DataFrame对象。

2.3 指定方向合并：concat()

通过指定axis方向，进行多数据源合并。

pd.concat()函数可以沿着指定的轴将多个dataframe或者series拼接到一起，这一点和另一个常用的pd.merge()函数不同，pd.merge()函数只能实现两个表的拼接。

pd.concat( objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=None, copy=True,)

参数含义

objs：Series，DataFrame或Panel对象的序列或映射。如果传递了dict，则排序的键将用作键参数，除非它被传递，在这种情况下，将选择值（见下文）。任何无对象将被静默删除，除非它们都是无，在这种情况下将引发一个ValueError。
axis：指定合并方向，默认值为0，为竖向合并。1为横向合并。
join：{'inner'，'outer'}，默认为“outer”。如何处理其他轴上的索引。outer为联合和inner为交集。
ignore_index：boolean，default False。如果为True，请不要使用并置轴上的索引值。结果轴将被标记为0，...，n-1。如果要连接其中并置轴没有有意义的索引信息的对象，这将非常有用。注意，其他轴上的索引值在连接中仍然受到尊重。
join_axes：Index对象列表。用于其他n-1轴的特定索引，而不是执行内部/外部设置逻辑。
keys：序列，默认值无。使用传递的键作为最外层构建层次索引。如果为多索引，应该使用元组。
levels：序列列表，默认值无。用于构建MultiIndex的特定级别（唯一值）。否则，它们将从键推断。
names：list，default无。结果层次索引中的级别的名称。
verify_integrity：boolean，default False。检查新连接的轴是否包含重复项。这相对于实际的数据串联可能是非常昂贵的。
copy：boolean，default True。如果为False，请勿不必要地复制数据。

(4条消息) pandas的连接函数concat()函数_concat pandas_zzpdbk的博客-CSDN博客

3. 数据分组和聚合运算

3.1 groupby()方法

(8条消息) groupby函数详解_.groupby_Vergil_Zsh的博客-CSDN博客

DataFrame.groupby(by=None, axis=0, level=None, as_index=True, group_keys=True, squeeze=False,  observed=False, **kwargs)

例子：

对School信息按照学校行索引进行分组，然后统计体育、美术、舞蹈的人数。

如下按性别：

通过如上对比可见是通过level来确定统计标准。

3.2 聚合：aggregate()方法

aggregate(func,axis=0,*arg,**kwargs)

func：指定用于集合运算的函数，具体类型包括自定义函数名，字符串函数名，列表函数名等。

3.2.1 一般聚合使用

（1）内置函数聚合运算

（2）自定义函数聚合运算

（3）多统计函数聚合运算

3.2.2 分组聚合

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/5738.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

python数据分析05—Pandas数据处理

1.缺失数据处理

1.1 DataFrame自身产生的缺失数据

1.2 缺失数据判断和统计

1.3 缺失数据清理

2. 多源数据操作

2.1 合并函数：merge()

2.2 连接函数：join()

2.3 指定方向合并：concat()

3. 数据分组和聚合运算

3.1 groupby()方法

3.2 聚合：aggregate()方法

3.2.1 一般聚合使用

3.2.2 分组聚合

相关文章

（34）继电器开关

《向量数据库指南》：使用公共的Pinecone数据集

WPF 搜索框控件样式

《C语言杂记》C语言内存泄露分析与检测

栈OJ（C++）

7.23 校招实习内推面经

【kafka调试】用命令行查看kafka是否发出了命令

＜C语言＞数据在内存中的存储

设计模式-抽象工厂模式

使用 ChatGPT 碰到的坑

RocketMQ集成Springboot --Chapter5

PyTorch从零开始实现Transformer

Windows Spark 开发测试版本快速搭建

【unity】RectTransform与Transform组件有什么区别

线上问题排查-dubbo-Dubbo client can not supported string message

一起学SF框架系列5.8-spring-Beans-Bean注解解析3-解析配置component-scan

SpringAOP面向切面编程通知类型

Linux-tomcat环境搭建、jpress部署实践、nginx反向代理

分类评估指标

ElasticSearch学习--RestClient及案例