Pandas 进阶 —— 数据转换、聚合与可视化

引言

在数据分析的旅程中,Pandas 库提供了从数据转换到聚合再到可视化的全面解决方案。上篇我们掌握了数据的导入和清洗,本篇我们将探索如何通过 Pandas 对数据进行更高级的处理,包括数据转换、聚合分析以及可视化展示。

数据转换

数据转换是数据分析中的重要环节,它涉及到数据结构的调整和变换,以适应不同的分析需求。

  • 数据重塑:通过 melt(), pivot(), pivot_table() 函数,我们可以将数据从宽格式转换为长格式,或者重新排列数据的行列,以便于分析。
  • 数据类型转换:使用 astype() 函数可以转换数据的类型,例如将字符串转换为数值类型,以便进行数值计算。
  • 数据排序sort_values() 函数可以用来根据某个或某些列的值进行排序,这对于数据的直观理解和后续分析至关重要。

代码示例:

# 将宽格式数据转换为长格式
df_long = df.melt(id_vars=['Name', 'Age'], value_vars=['Gender', 'Salary'], var_name='Attribute', value_name='Value')
print(df_long)# 转换数据类型
df['Age'] = df['Age'].astype(int)# 根据薪资进行排序
df_sorted = df.sort_values(by='Salary', ascending=False)
数据聚合

数据聚合是通过某种方式将数据汇总起来,以得出有意义的统计信息。

  • 分组和聚合groupby() 函数结合 agg() 可以对数据进行分组,并应用多种聚合函数,如求和、平均、最大值等。
  • 窗口函数rolling()expanding() 函数用于执行移动窗口计算,这在时间序列分析中尤其有用。

代码示例:

# 按性别分组并计算平均薪资
gender_salary_avg = df.groupby('Gender')['Salary'].mean()
print(gender_salary_avg)# 使用窗口函数计算薪资的移动平均值
salary_rolling_mean = df['Salary'].rolling(window=3).mean()
时间序列分析

时间序列分析是数据分析中的一个重要领域,特别是在处理具有时间戳的数据时。

  • 解析日期时间to_datetime() 函数用于将字符串转换为日期时间格式,这是进行时间序列分析的第一步。
  • 时间索引:使用 set_index() 可以将日期时间设置为 DataFrame 的索引,从而方便进行时间序列的切片和重采样。
  • 重采样resample() 函数用于更改时间序列的频率,进行上采样或下采样。

代码示例:

# 解析日期时间并设置为索引
df['Date'] = pd.to_datetime(df['Date'])
df.set_index('Date', inplace=True)# 按月重采样并计算平均薪资
monthly_avg_salary = df.resample('M').mean()['Salary']
数据可视化

数据可视化是数据分析的直观展示,Pandas 与 Matplotlib 等绘图库的结合使用,可以创建各种图表。

  • 基本绘图:使用 plot() 函数可以快速绘制折线图、柱状图、饼图等。
  • 高级图表:包括直方图、箱线图、散点图等,这些图表可以帮助我们发现数据的分布、异常值和相关性。

代码示例:

import matplotlib.pyplot as plt# 绘制薪资的直方图
df['Salary'].plot(kind='hist')
plt.title('Salary Distribution')
plt.xlabel('Salary')
plt.ylabel('Frequency')
plt.show()# 绘制薪资和年龄的散点图
df.plot(kind='scatter', x='Age', y='Salary')
plt.title('Salary vs Age')
plt.xlabel('Age')
plt.ylabel('Salary')
plt.show()
结语

通过本文的学习,我们不仅掌握了 Pandas 的数据转换、聚合和可视化技巧,而且通过具体的代码示例,能够将这些理论知识应用到实际的数据分析工作中。数据的探索和分析是一个不断深入的过程,Pandas 提供了强大的工具来帮助我们从不同角度理解和解释数据。希望你能将这些技能运用到自己的项目中,不断探索和发现数据的潜在价值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/44555.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CAS介绍

CAS是计算机科学中的一个概念,全称是Compare-And-Swap(比较并交换),它是一种原子操作,用于多线程环境下的同步机制。在Java中,你可以使用java.util.concurrent.atomic包下的类,如AtomicInteger来…

绝对值不等式运用(C++)

货仓选址 用数学公式表达题意,假设有位置a1~an,假设选址在x位置处,则有: 如何让这个最小,我们把两个式子整合一下,利用绝对值不等式: 我们知道: 如下图所示:到A,B两点&…

用python生成词频云图(python实例二十一)

目录 1.认识Python 2.环境与工具 2.1 python环境 2.2 Visual Studio Code编译 3.词频云图 3.1 代码构思 3.2 代码实例 3.3 运行结果 4.总结 1.认识Python Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。 Python 的设计具有很强的可读性&a…

云端美味:iCloud中食谱与餐饮计划的智能存储方案

云端美味:iCloud中食谱与餐饮计划的智能存储方案 在数字化生活管理中,我们的食谱和餐饮计划是日常饮食健康与乐趣的重要部分。iCloud提供了一个无缝的解决方案,让我们可以在所有设备上存储、同步和访问这些珍贵的信息。本文将详细介绍如何在…

[ICS] Inferno(地狱) ETH/IP未授权访问,远程控制工控设备利用工具

项目地址:https://github.com/MartinxMax/Inferno Inferno $ ./Install.sh $ python Inferno.py -h 模拟服务端 $ sudo python3 -m pip install --upgrade cpppo $ $ python -m cpppo.server.enip SCADAINT[1000] ADMININT[2] -v 创建一个EtherNet/IP设备 扫描设备 $ pyth…

QT--SQLite

配置类相关的表,所以我使用sqlite,且QT自带该组件; 1.安装 sqlite-tools-win-x64-3460000、SQLiteExpert5.4.31.575 使用SQLiteExpert建好数据库.db文件,和对应的表后把db文件放在指定目录 ./db/program.db; 2.选择sql组件 3.新…

YOLOv10改进 | Conv篇 | 全新的SOATA轻量化下采样操作ADown(参数量下降百分之二十,附手撕结构图)

一、本文介绍 本文给大家带来的改进机制是利用2024/02/21号最新发布的YOLOv9其中提出的ADown模块来改进我们的Conv模块,其中YOLOv9针对于这个模块并没有介绍,只是在其项目文件中用到了,我将其整理出来用于我们的YOLOv10的项目,经…

易备, 安全灵活的远程数据备份软件: 云备份、S3 备份、FTP 备份

面对勒索软件无处不在的威胁,企业都在寻求全方位的数据安全解决方案。其中,数据备份是这个方案的终极核心环节,因为勒索袭击的最终目标是数据,是袭击者用以勒索的筹码。 “不要把鸡蛋放在一个筐子里”,这个原则在备份…

【人工智能】-- 反向传播

个人主页:欢迎来到 Papicatch的博客 课设专栏 :学生成绩管理系统 专业知识专栏: 专业知识 文章目录 🍉引言 🍉反向传播 🍈定义 🍈反向传播的作用 🍍参数优化 🍍学…

Qt Creator仿Visual Studio黑色主题

转自本人博客:Qt Creator仿Visual Studio黑色主题 1.演示 配置文件和步骤在后面,先看成品,分别是QWidget和QML的代码编写界面: 2. 主题配置文件 下载链接:QtCreator _theme_VS_dark.xml 也可以自己新建一个xml文件&…

应对挑战:Transformer模型在不平衡数据集上的应用策略

应对挑战:Transformer模型在不平衡数据集上的应用策略 在机器学习领域,数据不平衡是一个常见问题,特别是在自然语言处理(NLP)任务中。Transformer模型,作为一种强大的序列处理模型,虽然在许多任…

C++常用排序拷贝替换算术生成集合运算算法总结

文章目录 1.常用排序算法1. sort2. random_shuffle3. merge4. reverse 2.常用拷贝和替换算法1. copy2. replace3. replace_if4. swap 3.常用算术生成算法1. accumulate2. fill 4.常用集合算法1. set_intersection2. set_union3. set_difference 1.常用排序算法 在C中&#xff…

【RHCE】转发服务器实验

1.在本地主机上操作 2.在客户端操作设置主机的IP地址为dns 3.测试,客户机是否能ping通

(pyqt5)弹窗-Token验证

前言 为了保护自己的工作成果,控制在合理的范围内使用,设计一个用于Token验证的弹窗. 代码 class TokenDialog(QDialog):def __init__(self, parentNone, login_userNone, mac_addrNone, funcNone):super(TokenDialog, self).__init__(parent)self.login_user login_userself…

手撸俄罗斯方块(五)——游戏主题

手撸俄罗斯方块(五)——游戏主题 当确定游戏载体(如控制台)后,界面将呈现出来。但是游戏的背景色、方块的颜色、方框颜色都应该支持扩展。 当前游戏也是如此,引入了 Theme 的概念,支持主题的扩…

Rust入门实战 编写Minecraft启动器#2建立资源模型

首发于Enaium的个人博客 我们需要声明几个结构体来存储游戏的资源信息,之后我们需要将json文件解析成这几个结构体,所以我们需要添加serde依赖。 serde { version "1.0", features ["derive"] }资源相关asset.rs use serde::De…

雨量监测站的重要性有哪些

在全球气候变化和极端天气事件频发的背景下,雨量监测站成为了我们理解降水模式、预测天气变化以及制定应对措施的重要工具。 雨量监测站是一种专门用于测量和记录降水量的设施。它们通过配备高精度的雨量传感器,能够实时监测降雨情况,并提供关…

【分布式系统】CephFS文件系统之MDS接口详解

目录 一.服务端操作 1.在管理节点创建 mds 服务 2.查看各个节点的 mds 服务(可选) 3.创建存储池,启用 ceph 文件系统 4.查看mds状态,一个up,其余两个待命,目前的工作的是node01上的mds服务 5.创建用户…

SuperCLUE最新测评发布,360智脑大模型稳居大模型第一梯队

7月9日,国内权威大模型评测机构SuperCLUE发布《中文大模型基准测评2024上半年报告》,360智脑大模型(360gpt2-pro)在SuperCLUE基准6月测评中,取得总分72分,超过GPT-3.5-Turbo-0125,位列国内大模型…

离线安装压缩工具xz指南

在Linux操作系统上离线安装压缩工具xz可能会遇到一些挑战,尤其是当官方下载地址无法访问时。本文将为你提供详细的指导,确保你能够顺利安装xz。 一、下载xz安装包 首先,你可以尝试从xz官方网站下载xz的安装包。以下是官方下载地址&#xff…