深入Pandas(二):高级数据处理技巧

文章目录

  • 系列文章目录
  • 引言
      • 时间序列分析可视化示例
    • 高级数据分析技术
      • 分组与聚合操作
      • 时间序列分析
    • 高级数据操作
      • 数据合并与重塑
      • 示例:数据合并merge
        • 示例:数据合并concat
        • 示例:数据重塑 - 透视表
      • 高级索引技巧
  • 结论

系列文章目录

Python数据分析全攻略
深入Pandas: 数据分析的强大工具

所有的代码资源包括说明文档均上传至资源,可在文章顶部免费下载!!!

引言

在我们上一篇关于Pandas的博客中,我们已经浏览了这一强大Python数据分析库的基础特性和初级数据处理功能。我们了解到,Pandas以其直观的数据结构和简洁的数据操作流程,为数据科学家和分析师提供了一个极其有效的工具。然而,Pandas的真正魅力远不止于此。对于那些已经熟悉了Pandas基础功能的读者来说,更深层次的探索将揭开Pandas高级数据处理和分析能力的神秘面纱。

在这篇博客中,我们将深入探讨Pandas的高级功能,包括复杂数据的合并与重塑、高级索引技巧、以及高级数据分析技术。此外,我们还将着重介绍如何利用Pandas进行高效的时间序列分析,并通过数据可视化技术将这些分析结果生动呈现。本篇内容旨在为那些希望提升自己在Pandas应用能力上的读者提供实用的指导和灵感。

时间序列分析可视化示例

在这里插入图片描述

高级数据分析技术

分组与聚合操作

Pandas的groupby功能非常强大,它允许按照某些条件将数据分组,并对每组数据进行聚合操作。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt# 创建一个包含多列的DataFrame
df = pd.DataFrame({'Date': pd.date_range(start='2023-01-01', periods=100, freq='D'),'Category': np.random.choice(['Electronics', 'Clothing', 'Furniture'], 100),'Region': np.random.choice(['North', 'South', 'East', 'West'], 100),'Sales': np.random.randint(100, 1000, size=100)
})# 使用groupby进行分组,按照'Category'和'Region'列
grouped = df.groupby(['Category', 'Region'])# 对每组数据进行多种聚合操作
agg_df = grouped['Sales'].agg([np.sum, np.mean, np.count_nonzero])# 设置画布大小
plt.figure(figsize=(18, 6))# 第一个图表:销售总额
plt.subplot(1, 3, 1)  # 1行3列,第1个
agg_df['sum'].unstack().plot(kind='bar', ax=plt.gca())
plt.title('Total Sales by Category and Region')
plt.ylabel('Total Sales')# 第二个图表:销售平均值
plt.subplot(1, 3, 2)  # 1行3列,第2个
agg_df['mean'].unstack().plot(kind='bar', colormap='viridis', ax=plt.gca())
plt.title('Average Sales by Category and Region')
plt.ylabel('Average Sales')# 第三个图表:销售次数
plt.subplot(1, 3, 3)  # 1行3列,第3个
agg_df['count_nonzero'].unstack().plot(kind='bar', colormap='coolwarm', ax=plt.gca())
plt.title('Number of Sales by Category and Region')
plt.ylabel('Sales Count')plt.tight_layout()  # 调整子图布局
plt.show()

分组与聚合

时间序列分析

Pandas提供了强大的时间序列处理能力,包括日期范围生成、频率转换、窗口函数等。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt# 生成两个时间序列数据
ts1 = pd.Series(np.random.randn(1000), index=pd.date_range('1/1/2000', periods=1000))
ts2 = pd.Series(np.random.randn(1000), index=pd.date_range('1/1/2000', periods=1000))# 累计和
ts1_cumsum = ts1.cumsum()
ts2_cumsum = ts2.cumsum()# 重采样并计算均值
ts1_resampled = ts1.resample('M').mean()
ts2_resampled = ts2.resample('M').mean()# 使用滚动窗口计算(例如:窗口大小为50)
roll_mean = ts1.rolling(window=50).mean()# 数据可视化
plt.figure(figsize=(12, 8))# 绘制原始数据
plt.subplot(2, 2, 1)
ts1.plot()
plt.title('Original Time Series 1')plt.subplot(2, 2, 2)
ts2.plot()
plt.title('Original Time Series 2')# 绘制累计和
plt.subplot(2, 2, 3)
ts1_cumsum.plot()
ts2_cumsum.plot()
plt.title('Cumulative Sum of Time Series')# 绘制重采样数据和滚动平均
plt.subplot(2, 2, 4)
ts1_resampled.plot()
roll_mean.plot()
plt.title('Resampled Monthly Mean and Rolling Mean')plt.tight_layout()
plt.show()

时间序列

高级数据操作

数据合并与重塑

Pandas提供了多种数据合并和重塑的方法,如mergeconcatpivot_table等。

示例:数据合并merge

import pandas as pd# 创建第一个DataFrame:员工ID、姓名和年龄
df1 = pd.DataFrame({'Employee ID': ['001', '002', '003', '004'],'Name': ['Alice', 'Bob', 'Charlie', 'David'],'Age': [25, 30, 35, 40]
})# 创建第二个DataFrame:员工ID、部门和工作地点
df2 = pd.DataFrame({'Employee ID': ['001', '002', '004', '005'],'Department': ['HR', 'Engineering', 'IT', 'Marketing'],'Location': ['New York', 'San Francisco', 'Toronto', 'Austin']
})# 创建第三个DataFrame:部门和部门经理
df3 = pd.DataFrame({'Department': ['HR', 'Engineering', 'IT', 'Marketing'],'Manager': ['Emma', 'Liam', 'Olivia', 'Noah']
})# 打印合并前的DataFrame
print("DataFrame 1 (Employee Info):")
print(df1)
print("\nDataFrame 2 (Work Info):")
print(df2)
print("\nDataFrame 3 (Department Info):")
print(df3)# 使用merge函数合并df1和df2
merged_df1 = pd.merge(df1, df2, on='Employee ID', how='left')# 打印第一次合并后的DataFrame
print("\nMerged DataFrame 1 and 2:")
print(merged_df1)# 再次使用merge合并merged_df1和df3
final_merged_df = pd.merge(merged_df1, df3, on='Department', how='left')# 打印最终合并后的DataFrame
print("\nFinal Merged DataFrame:")
print(final_merged_df)

数据合并merge

示例:数据合并concat
import pandas as pd
import matplotlib.pyplot as plt# 示例数据集
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],'B': ['B0', 'B1', 'B2', 'B3'],'C': ['C0', 'C1', 'C2', 'C3'],'D': ['D0', 'D1', 'D2', 'D3']},index=[0, 1, 2, 3])df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],'B': ['B4', 'B5', 'B6', 'B7'],'C': ['C4', 'C5', 'C6', 'C7'],'D': ['D4', 'D5', 'D6', 'D7']},index=[4, 5, 6, 7])# 使用concat进行数据合并
result = pd.concat([df1, df2])# 为每个唯一的字符串分配一个唯一的整数
for column in result.columns:result[column] = result[column].astype('category').cat.codes# 可视化合并后的数据
result.plot(kind='bar')
plt.title("Concatenated DataFrames with Numerical Representation")
plt.xlabel("Index")
plt.ylabel("Assigned Value")
plt.show()

数据合并concat

示例:数据重塑 - 透视表
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt# 创建一个包含日期、产品类别、地区和销售额的DataFrame
data = {'Date': pd.date_range(start='2023-01-01', periods=100, freq='D'),'Category': np.random.choice(['Electronics', 'Clothing', 'Furniture'], 100),'Region': np.random.choice(['North', 'South', 'East', 'West'], 100),'Sales': np.random.randint(100, 1000, size=100)
}
df = pd.DataFrame(data)# 创建透视表
pivot_table = df.pivot_table(values='Sales', index=['Region', 'Category'], aggfunc=[np.sum, np.mean])# 设置图表的大小
plt.figure(figsize=(12, 8))  # 绘制图表
pivot_table['sum'].plot(kind='bar', title='Total Sales by Region and Category')
plt.ylabel('Total Sales')# 调整横坐标标签的角度
plt.xticks(rotation=45)plt.tight_layout()
plt.savefig('pivot_table.png', format='png')  # 保存图表为图片# plt.show()  # 显示图表

透视表

高级索引技巧

Pandas支持多级索引(Hierarchical indexing),它允许在一个轴上拥有多个(两个以上)索引级别。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt# 创建一个带有多级索引的DataFrame
index = pd.MultiIndex.from_tuples([('a', 1), ('a', 2), ('b', 1), ('b', 2), ('a', 3), ('b', 3)], names=['group', 'subgroup'])
df = pd.DataFrame(np.random.randn(6, 2), index=index, columns=['data1', 'data2'])# 使用groupby和unstack对数据进行处理
grouped = df.groupby(level=0).mean()  # 计算每个主组的平均值
unstacked = df.unstack()  # 将多级索引数据结构转换为宽格式# 设置画布大小
plt.figure(figsize=(18, 6))# 第一个图表:主组的平均值
plt.subplot(1, 3, 1)  # 1行3列,第1个
grouped.plot(kind='bar', ax=plt.gca())
plt.title('Mean of data1 and data2 for each group')# 第二个图表:每个子组的data1数据
plt.subplot(1, 3, 2)  # 1行3列,第2个
unstacked['data1'].plot(kind='bar', ax=plt.gca())
plt.title('Data1 for each subgroup')# 第三个图表:每个子组的data2数据
plt.subplot(1, 3, 3)  # 1行3列,第3个
unstacked['data2'].plot(kind='bar', ax=plt.gca())
plt.title('Data2 for each subgroup')# 显示图表
plt.tight_layout()
plt.show()

高级索引

结论

通过本篇的学习,相信读者对Pandas的高级功能有了更深的了解和掌握。Pandas的高级数据处理和分析功能,使得处理复杂数据变得更加简单高效。无论是数据科学家、分析师还是Python开发者,掌握这些高级技巧都将大大提升工作效率和分析能力。

Pandas的高级功能不仅限于本文所述,它还有许多其他强大的功能等待探索。希望读者能够在实践中不断发掘Pandas的潜力,并将其应用于各自的数据分析任务中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/601662.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

30、共空间模式CSP与白化矩阵

CSP算法和PCA降维都涉及到了白化,那白化的目的和作用到底是啥呢? 矩阵白化目的: 对于任意一个矩阵X,对其求协方差,得到的协方差矩阵cov(X)并不一定是一个单位阵。 下面介绍几个线代矩阵的几个概念: 1、…

[蓝桥杯学习] 树状树组

lowbit操作 数字二进制表达中的最低位1以及后面所有的0,函数写法如下: int lowbit(int x){return x&-x;} 例如说,lowbit(0101100100) (100) lowbit(4) 4 lowbit(6) 2 时间复杂度o(1) 树状数组 应用 进行单点修改和区间查询…

Hadoop集群三节点搭建(二)

一、克隆三台主机(hadoop102 hadoop103 hadoop104) 以master为样板机克隆三台出来,克隆前先把master关机 按照上面的步骤克隆其他两个就可以了,记得修改ip和hostname 二、编写集群同步脚本 在/home/attest/ 创建bin目录&…

Conda所有的指令说明

基本指令: conda info:显示有关Conda环境的信息。conda list:列出当前环境中安装的包。conda install:安装一个或多个包到当前环境中。conda uninstall:卸载一个或多个包从当前环境中。conda update:更新一…

论文解读:A New CNN Building Block for Low-ResolutionImages and Small Objects

引言 之前通过stride和pooling这些下采样操作,但是这些操作都会或多或少丢失图像的信息,所以这不适用于具有低分辨率图像和小物体的更困难的任务上。像池化选择maxpooling或者是averagepooling、卷积的步长(太大的话会丢失信息)都是很头疼的问题&#x…

I.MX6ULL开发笔记(二)——硬件外设操作

0x01 点亮第一个RGB灯 在文章http://t.csdnimg.cn/EGWt9中有介绍Linux下文件目录,那么在Linux系统下,RGB灯也是一个设备,所以我们需要到/sys目录下去操作这个设备。 之后,我们进入到class目录,这里挂载着开发板上的外…

Qt qDebug基本的使用方法详解

目录 qDebug基本用法输出字符串输出变量值1输出变量值2支持流式输出输出十六进制去除双引号和空格调试输出级别 自定义类型输出自定义日志信息的输出格式示例占位符设置环境变量 关闭QDebug输出Qt工程VS工程 在VS工程中如何查看qDebug输出 DebugView下载 qDebug基本用法 qDebug…

大学生如何当一个程序员——第三篇:热门专业学习之路1

第三篇:热门专业学习之路1 1.JAVASE2.数据库3.网页设计和开发4.Servlet/ JSP和企业级项目开发5.SSM框架(Spring、Spring MVC、Mybatis)6.各种JAVA新技术和大型项目的整合7.微服务架构8.一定要做一个大项目! 各位小伙伴想要博客相关…

Python如何实现微信支付功能代码示例

微信支付是一种基于互联网的移动支付服务,由中国的即时通讯工具微信提供。用户可以通过微信支付在微信平台上进行在线支付、转账和收款。微信支付支持多种支付方式,包括银行卡支付、微信钱包余额支付、扫码支付等。用户可以用微信支付购买商品、支付账单…

SpringBoot Redis入门(一)——redis、Lettuce、Redisson使用

本章:将展示SpringBoot集成Redis三种客户端的配置要点和常见应用示例;下章:自行实现一个方法级的缓存注解,简化版的Cacheable,使初学者加深对Spring缓存框架的理解。 一、Lettuce客户端 Lettuce 是一种可扩展的、线程…

Ubuntun使用ISO镜像中的软件包作为本地镜像源

首先下载镜像: https://releases.ubuntu.com/jammy/ubuntu-22.04.3-desktop-amd64.iso 新建本地目录,挂载ISO文件到本地目录 sudo mkdir /media/cdrom sudo mount /mnt/e/iso/ubuntu-22.04.3-desktop-amd64.iso /media/cdrom # 备份镜像源 sudo mv…

Web前端篇——ElementUI的Backtop 不显示问题

在使用ElementUI的Backtop回到顶部组件时&#xff0c;单独复制这一行代码 <el-backtop :right"100" :bottom"100" /> 发现页面在向下滚动时&#xff0c;并未出现Backtop组件。 可从以下3个方向进行分析&#xff1a; 指定target属性&#xff0c;且…

Django文章标签推荐

当博客文章实现了标签后&#xff0c;可以用它们做很多有趣的事情。关于标签的更多内容&#xff0c;请看 Django集成第三方标签功能-CSDN博客 使用标签&#xff0c;我们可以很好地对博客文章进行分类。类似主题的帖子会有几个共同的标签。下一步将构建一个功能&#xff0c;以显…

pytest-yaml 测试平台-4.生成allure报告,报告反馈企业微信、钉钉、飞书通知

前言 定时任务执行完成后生成可视化allure报告&#xff0c;并把结果发到企业微信&#xff0c;钉钉&#xff0c;飞书通知群里。 生成allure报告 添加定时任务 执行完成后生成allure报告 查看报告详情 报告会显示详细的request 和 response 详细信息 也可以查看log日志 …

js中session、cookie、 localStorage和SessionStorage的区别和特点

在 JavaScript 中&#xff0c;session、cookie、localStorage 和 sessionStorage 是用于在客户端存储数据的不同机制。它们在以下几个方面有区别和特点&#xff1a; 1. 生命周期&#xff1a; - Session&#xff1a;session 存储在服务器端&#xff0c;通常使用会话标识符&a…

【胖虎的逆向之路】Android自制Https证书实现双向认证

Android自制Https证书实现双向认证 1.基本概念1.1 HTTP1.2 HTTPS1.3 加密方式1.3.1 对称加密1.3.2 非对称加密 1.4 SSL 功能1.4.1 客户对服务器的身份认证1.4.2 服务器对客户的身份认证1.4.3 建立服务器与客户之间安全的数据通道 1.5 CA 证书 2.证书生成2.1 生成根证书&#xf…

数据结构 模拟实现Queue队列(双链表模拟)

目录 一、队列的概念 二、队列的接口 三、队列的方法实现 &#xff08;1&#xff09;offer方法 &#xff08;2&#xff09;poll方法 &#xff08;3&#xff09;peek方法 &#xff08;4&#xff09;size方法 &#xff08;5&#xff09;isEmpty方法 四、最终代码 一、队…

域名转移:将腾讯云转移至阿里云

当时注册域名时&#xff0c;腾讯域云相对便宜&#xff0c;但目前阿里云在业界更加成熟&#xff0c;因此将自己申请的域名由阿里云转移至阿里云&#xff0c;并记录转移过程。 一、域名转出 进入腾讯云&#xff0c;登陆后选择控制台&#xff0c;选择我的资源–域名注册–全部域名…

快速入门学会tomcat!

快速入门学会tomcat&#xff01; 最新Tomcat下载安装详细教程Tomcat是什么&#xff1f;一、网络协议&#xff0f;网络协议包网络协议包&#xff1a; 二、Http网络协议包&#xff1a;三、Http网络协议包分类&#xff1a;1&#xff0e;Http请求协议包&#xff1a;2&#xff0e;Ht…

Android WiFi基础概览

Android WiFi 基础概览 1、WiFi协议2、Android WLAN 架构2.1 应用框架2.2 Wi-Fi 服务2.3 Wi-Fi HAL 3、相关编译 android13-release 1、WiFi协议 Wi-Fi&#xff08;无线通信技术&#xff09;_百度百科 2.4GHz 频段支持以下标准&#xff08;802.11b/g/n/ax&#xff09;&#xff…