大数据(四):Pandas的基础应用详解

专栏介绍

结合自身经验和内部资料总结的Python教程,每天3-5章,最短1个月就能全方位的完成Python的学习并进行实战开发,学完了定能成为大佬!加油吧!卷起来!

全部文章请访问专栏:《Python全栈教程(0基础)》
再推荐一下最近热更的:《大厂测试高频面试题详解》 该专栏对近年高频测试相关面试题做详细解答,结合自己多年工作经验,以及同行大佬指导总结出来的。旨在帮助测试、python方面的同学,顺利通过面试,拿到自己满意的offer!


文章目录

    • 专栏介绍
    • Pandas的基础应用详解
      • Series的应用
        • 创建Series对象
          • 方法1:通过列表或数组创建Series对象
          • 方法2:通过字典创建Series对象。
        • 索引和切片
          • 使用整数索引
          • 使用自定义的标签索引
          • 切片操作
          • 花式索引
          • 布尔索引
          • 统计相关的方法
          • 数据处理的方法
          • 排序和取头部值的方法
        • 绘制图表


Pandas的基础应用详解

Pandas是Wes McKinney在2008年开发的一个强大的分析结构化数据的工具集。Pandas以NumPy为基础(数据表示和运算),提供了用于数据处理的函数和方法,对数据分析和数据挖掘提供了很好的支持;同时Pandas还可以跟数据可视化工具Matplotlib很好的整合在一起,非常轻松愉快的实现数据的可视化展示。

Pandas核心的数据类型是Series(数据系列)、DataFrame(数据表/数据框),分别用于处理一维和二维的数据,除此之外还有一个名为Index的类型及其子类型,它为SeriesDataFrame提供了索引功能。日常工作中以DataFrame使用最为广泛,因为二维的数据本质就是一个有行有列的表格(想一想Excel电子表格和关系型数据库中的二维表)。上述这些类型都提供了大量的处理数据的方法,数据分析师可以以此为基础实现对数据的各种常规处理。

Series的应用

Pandas库中的Series对象可以用来表示一维数据结构,跟数组非常类似,但是多了一些额外的功能。Series的内部结构包含了两个数组,其中一个用来保存数据,另一个用来保存数据的索引。

创建Series对象

提示:在执行下面的代码之前,请先导入pandas以及相关的库文件,具体的做法可以参考上一章。

方法1:通过列表或数组创建Series对象

代码:

# data参数表示数据,index参数表示数据的索引(标签)
# 如果没有指定index属性,默认使用数字索引
ser1 = pd.Series(data=[320, 180, 300, 405], index=['一季度', '二季度', '三季度', '四季度'])
ser1

输出:

一季度    320
二季度    180
三季度    300
四季度    405
dtype: int64
方法2:通过字典创建Series对象。

代码:

# 字典中的键就是数据的索引(标签),字典中的值就是数据
ser2 = pd.Series({'一季度': 320, '二季度': 180, '三季度': 300, '四季度': 405})
ser2

输出:

一季度    320
二季度    180
三季度    300
四季度    405
dtype: int64

索引和切片

跟数组一样,Series对象也可以进行索引和切片操作,不同的是Series对象因为内部维护了一个保存索引的数组,所以除了可以使用整数索引通过位置检索数据外,还可以通过自己设置的索引标签获取对应的数据。

使用整数索引

代码:

print(ser2[0], ser[1], ser[2], ser[3])
ser2[0], ser2[3] = 350, 360
print(ser2)

输出:

320 180 300 405
一季度    350
二季度    180
三季度    300
四季度    360
dtype: int64

提示:如果要使用负向索引,必须在创建Series对象时通过index属性指定非数值类型的标签。

使用自定义的标签索引

代码:

print(ser2['一季度'], ser2['三季度'])
ser2['一季度'] = 380
print(ser2)

输出:

350 300
一季度    380
二季度    180
三季度    300
四季度    360
dtype: int64
切片操作

代码:

print(ser2[1:3])
print(ser2['二季度':'四季度'])

输出:

二季度    180
三季度    300
dtype: int64
二季度    500
三季度    500
四季度    520
dtype: int64

代码:

ser2[1:3] = 400, 500
ser2

输出:

一季度    380
二季度    400
三季度    500
四季度    360
dtype: int64
花式索引

代码:

print(ser2[['二季度', '四季度']])
ser2[['二季度', '四季度']] = 500, 520
print(ser2)

输出:

二季度    400
四季度    360
dtype: int64
一季度    380
二季度    500
三季度    500
四季度    520
dtype: int64
布尔索引

代码:

ser2[ser2 >= 500]

输出:

二季度    500
三季度    500
四季度    520
dtype: int64

####属性和方法

Series对象的常用属性如下表所示。

属性说明
dtype / dtypes返回Series对象的数据类型
hasnans判断Series对象中有没有空值
at / iat通过索引访问Series对象中的单个值
loc / iloc通过一组索引访问Series对象中的一组值
index返回Series对象的索引
is_monotonic判断Series对象中的数据是否单调
is_monotonic_increasing判断Series对象中的数据是否单调递增
is_monotonic_decreasing判断Series对象中的数据是否单调递减
is_unique判断Series对象中的数据是否独一无二
size返回Series对象中元素的个数
valuesndarray的方式返回Series对象中的值

Series对象的方法很多,我们通过下面的代码为大家介绍一些常用的方法。

统计相关的方法

Series对象支持各种获取描述性统计信息的方法。

代码:

# 求和
print(ser2.sum())
# 求均值
print(ser2.mean())
# 求最大
print(ser2.max())
# 求最小
print(ser2.min())
# 计数
print(ser2.count())
# 求标准差
print(ser2.std())
# 求方差
print(ser2.var())
# 求中位数
print(ser2.median())

Series对象还有一个名为describe()的方法,可以获得上述所有的描述性统计信息,如下所示。

代码:

ser2.describe()

输出:

count      4.000000
mean     475.000000
std       64.031242
min      380.000000
25%      470.000000
50%      500.000000
75%      505.000000
max      520.000000
dtype: float64

提示:因为describe()返回的也是一个Series对象,所以也可以用ser2.describe()['mean']来获取平均值。

如果Series对象有重复的值,我们可以使用unique()方法获得去重之后的Series对象;可以使用nunique()方法统计不重复值的数量;如果想要统计每个值重复的次数,可以使用value_counts()方法,这个方法会返回一个Series对象,它的索引就是原来的Series对象中的值,而每个值出现的次数就是返回的Series对象中的数据,在默认情况下会按照出现次数做降序排列。

代码:

ser3 = pd.Series(data=['apple', 'banana', 'apple', 'pitaya', 'apple', 'pitaya', 'durian'])
ser3.value_counts()

输出:

apple     3
pitaya    2
durian    1
banana    1
dtype: int64

代码:

ser3.nunique()

输出:

4
数据处理的方法

Series对象的isnull()notnull()方法可以用于空值的判断,代码如下所示。

代码:

ser4 = pd.Series(data=[10, 20, np.NaN, 30, np.NaN])
ser4.isnull()

输出:

0    False
1    False
2     True
3    False
4     True
dtype: bool

代码:

ser4.notnull()

输出:

0     True
1     True
2    False
3     True
4    False
dtype: bool

Series对象的dropna()fillna()方法分别用来删除空值和填充空值,具体的用法如下所示。

代码:

ser4.dropna()

输出:

0    10.0
1    20.0
3    30.0
dtype: float64

代码:

# 将空值填充为40
ser4.fillna(value=40)

输出:

0    10.0
1    20.0
2    40.0
3    30.0
4    40.0
dtype: float64

代码:

# backfill或bfill表示用后一个元素的值填充空值
# ffill或pad表示用前一个元素的值填充空值
ser4.fillna(method='ffill')

输出:

0    10.0
1    20.0
2    20.0
3    30.0
4    30.0
dtype: float64

需要提醒大家注意的是,dropna()fillna()方法都有一个名为inplace的参数,它的默认值是False,表示删除空值或填充空值不会修改原来的Series对象,而是返回一个新的Series对象来表示删除或填充空值后的数据系列,如果将inplace参数的值修改为True,那么删除或填充空值会就地操作,直接修改原来的Series对象,那么方法的返回值是None。后面我们会接触到的很多方法,包括DataFrame对象的很多方法都会有这个参数,它们的意义跟这里是一样的。

Series对象的mask()where()方法可以将满足或不满足条件的值进行替换,如下所示。

代码:

ser5 = pd.Series(range(5))
ser5.where(ser5 > 0)

输出:

0    NaN
1    1.0
2    2.0
3    3.0
4    4.0
dtype: float64

代码:

ser5.where(ser5 > 1, 10)

输出:

0    10
1    10
2     2
3     3
4     4
dtype: int64

代码:

ser5.mask(ser5 > 1, 10)

输出:

0     0
1     1
2    10
3    10
4    10
dtype: int64

Series对象的duplicated()方法可以帮助我们找出重复的数据,而drop_duplicates()方法可以帮我们删除重复数据。

代码:

ser3.duplicated()

输出:

0    False
1    False
2     True
3    False
4     True
5     True
6    False
dtype: bool

代码:

ser3.drop_duplicates()

输出:

0     apple
1    banana
3    pitaya
6    durian
dtype: object

Series对象的apply()map()方法非常重要,它们可以用于数据处理,把数据映射或转换成我们期望的样子,这个操作在数据分析的数据准备阶段非常重要。

代码:

ser6 = pd.Series(['cat', 'dog', np.nan, 'rabbit'])
ser6

输出:

0       cat
1       dog
2       NaN
3    rabbit
dtype: object

代码:

ser6.map({'cat': 'kitten', 'dog': 'puppy'})

输出:

0    kitten
1     puppy
2       NaN
3       NaN
dtype: object

代码:

ser6.map('I am a {}'.format, na_action='ignore')

输出:

0       I am a cat
1       I am a dog
2              NaN
3    I am a rabbit
dtype: object

代码:

ser7 = pd.Series([20, 21, 12],  index=['London', 'New York', 'Helsinki'])
ser7

输出:

London      20
New York    21
Helsinki    12
dtype: int64

代码:

ser7.apply(np.square)

输出:

London      400
New York    441
Helsinki    144
dtype: int64

代码:

ser7.apply(lambda x, value: x - value, args=(5, ))

输出:

London      15
New York    16
Helsinki     7
dtype: int64
排序和取头部值的方法

Series对象的sort_index()sort_values()方法可以用于对索引和数据的排序,排序方法有一个名为ascending的布尔类型参数,该参数用于控制排序的结果是升序还是降序;而名为kind的参数则用来控制排序使用的算法,默认使用了quicksort,也可以选择mergesortheapsort;如果存在空值,那么可以用na_position参数空值放在最前还是最后,默认是last,代码如下所示。

代码:

ser8 = pd.Series(data=[35, 96, 12, 57, 25, 89], 
index=['grape', 'banana', 'pitaya', 'apple', 'peach', 'orange']
)
# 按值从小到大排序
ser8.sort_values()

输出:

pitaya    12
peach     25
grape     35
apple     57
orange    89
banana    96
dtype: int64

代码:

# 按索引从大到小排序
ser8.sort_index(ascending=False)

输出:

pitaya    12
peach     25
orange    89
grape     35
banana    96
apple     57
dtype: int64

如果要从Series对象中找出元素中最大或最小的“Top-N”,实际上是不需要对所有的值进行排序的,可以使用nlargest()nsmallest()方法来完成,如下所示。

代码:

# 值最大的3个
ser8.nlargest(3)

输出:

banana    96
orange    89
apple     57
dtype: int64

代码:

# 值最小的2个
ser8.nsmallest(2)

输出:

pitaya    12
peach     25
dtype: int64

绘制图表

Series对象有一个名为plot的方法可以用来生成图表,如果选择生成折线图、饼图、柱状图等,默认会使用Series对象的索引作为横坐标,使用Series对象的数据作为纵坐标。

首先导入matplotlibpyplot模块并进行必要的配置。

import matplotlib.pyplot as plt# 配置支持中文的非衬线字体(默认的字体无法显示中文)
plt.rcParams['font.sans-serif'] = ['SimHei', ]
# 使用指定的中文字体时需要下面的配置来避免负号无法显示
plt.rcParams['axes.unicode_minus'] = False

创建Series对象并绘制对应的柱状图。

ser9 = pd.Series({'一季度': 400, '二季度': 520, '三季度': 180, '四季度': 380})
# 通过Series对象的plot方法绘图(kind='bar'表示绘制柱状图)
ser9.plot(kind='bar', color=['r', 'g', 'b', 'y'])
# x轴的坐标旋转到0度(中文水平显示)
plt.xticks(rotation=0)
# 在柱状图的柱子上绘制数字
for i in range(4):plt.text(i, ser9[i] + 5, ser9[i], ha='center')
# 显示图像
plt.show()

绘制反映每个季度占比的饼图。

# autopct参数可以配置在饼图上显示每块饼的占比
ser9.plot(kind='pie', autopct='%.1f%%')
# 设置y轴的标签(显示在饼图左侧的文字)
plt.ylabel('各季度占比')
plt.show()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/50440.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Rancher证书更新

一、环境 主机名 IP地址 操作系统 rancher版本 K8s-Master 192.168.10.236 Centos 7 2.5.9 二、更新证书 1、查看当前证书到期时间 2、进行证书轮换 [rootK8s-Master ~]# docker ps |grep rancher/rancher d581da2b7c4e rancher/rancher:v2.5.9 …

CGAL 点云分类

文章目录 一、简介二、实现代码三、实现效果参考资料一、简介 点云分类一直是点云数据应用的永恒课题,它包含很多,如地面点分类、建筑物分类、植被分类等。CGAL中也为我们提供了一种点云分类的方式,其具体的计算过程如下所述: 首先,使用点云中所携带的一些几何特征来对数据…

小梦C嘎嘎——启航篇】C++STL 中 list日常使用的接口介绍

小梦C嘎嘎——启航篇】CSTL 中 list日常使用的接口介绍😎 前言🙌什么是list?常用的函数接口无参的构造函数接口拷贝构造接口赋值运算符重载 总结撒花💞 😎博客昵称:博客小梦 😊最喜欢的座右铭&a…

【OpenCV实战】2.OpenCV基本数据类型实战

OpenCV基本数据类型实战 〇、实战内容1 OpenCV helloworld1.1 文件结构类型1.2 CMakeList.txt1.3 Helloworld 2. Image的基本操作3. OpenCV 基本数据类型4. 读取图片的像素 & 遍历图片4.1 获取制定像素4.2 遍历图片 5. 图片反色5.1 方法1 :遍历5.2 方法2 &#…

云服务器(Centos7系统)配置JAVA+mysql+tomcat 环境

文章主要内容来源云服务器(Centos7系统)部署javaweb项目(二)配置JAVAmysqltomcat 环境_man_zuo的博客-CSDN博客 模仿途中遇到的问题 连接无效 有时连接无法下载,可能是过期了,将其更换为官网给的下载连接即…

WiFi天线和NB-IoT天线不通用

表面看起来完全一样。但是把WiFi天线插到NB-IoT设备后,信号弱了很多。还导致设备反复重启

代码随想录算法训练营之JAVA|第三十三天|738. 单调递增的数字

今天是第33天刷leetcode,立个flag,打卡60天,如果做不到,完成一件评论区点赞最高的挑战。 算法挑战链接 738. 单调递增的数字https://leetcode.cn/problems/monotone-increasing-digits/ 第一想法 题目理解:找到一个…

【Unity细节】Unity制作汽车时,为什么汽车会被弹飞?为什么汽车会一直抖动?

👨‍💻个人主页:元宇宙-秩沅 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 本文由 秩沅 原创 😶‍🌫️收录于专栏:unity细节和bug 😶‍🌫️优质专栏 ⭐【…

深入理解 SQL 注入攻击原理与防御措施

系列文章目录 文章目录 系列文章目录前言一、SQL 注入的原理二、防御 SQL 注入攻击的措施1. 使用参数化查询2.输入验证与过滤3.最小权限原则4.不要动态拼接 SQL5.ORM 框架6.转义特殊字符三、实例演示总结前言 SQL 注入是一种常见的网络攻击方式,攻击者通过在输入框等用户交互…

如何使用PHP中的函数

引言 当你发现自己复制和粘贴代码块,以便在程序的不同部分重用时,你就准备好编写函数了。如果你需要与变量的内容进行交互——改变大小写、查找长度、修剪或排序——可能有一个内置函数可以做到这一点。函数是自包含的、可重用的代码块,完成…

MYSQL 统计停车时长百分比

SELECTCOUNT(*) AS 数量,subquery.total_count AS 总数,COUNT(*) * 100 / subquery.total_count AS 百分比,CASEWHEN park_long < 900 THEN 15分钟以内WHEN park_long > 900 AND park_long < 3600 THEN 15-60分钟WHEN park_long > 3600 AND park_long < 10800 T…

css奇数偶数选择器

前端项目开发中&#xff0c;需要根据行数的奇数和偶数的不同&#xff0c;设置不同的颜色显示&#xff0c;以在视觉上给用户以良好的浏览体验&#xff0c;这里就需要使用css奇数偶数选择器。 主要用的&#xff1a;:nth-of-type或者:nth-child。 方式一:nth-child div:nth-chi…

只需五分钟,了解kafka的环境搭建

〇、前言 在Kafka系列的上一篇文章中&#xff0c;我们介绍了Kafka的体系结构&#xff0c;那么本篇文章呢&#xff0c;我们就着手来把Kafka的运行环境搭建起来。 此处 &#xff0c;我们采用线上环境普遍使用的ZooKeeper作为管理存储和管理kafka集群元数据&#xff0c;或者辅助…

clickhouse的分区

说明&#xff1a; clickhouse的分区和hive表有类似地方&#xff0c;但也有区别&#xff0c;比如clickhouse中支持对分区的卸载和装载&#xff0c;卸载的数据不受ck管控&#xff0c;数据一直在&#xff0c;还可以复制分区数据到另外一张表结构一样的分区一样的表中&#xff0c;他…

vue 中 axios 的安装及使用

vue 中 axios 的安装及使用 1. axios 安装2. axios使用 1. axios 安装 首先&#xff0c;打开当前的项目终端&#xff0c;输入 npm install axios --save-dev验证是否安装成功&#xff0c;检查项目根目录下的 package.json,其中的 devDependencies 里面会多出一个axios及其版本…

sql server 如何设置主键

开始之前 限制和局限 一个表只能包含一个 PRIMARY KEY 约束。 在 PRIMARY KEY 约束中定义的所有列都必须定义为 NOT NULL。 如果没有指定为 Null 性&#xff0c;则加入 PRIMARY KEY 约束的所有列的为 Null 性都将设置为 NOT NULL。 创建主键会自动创建相应的唯一群集索引、…

导入功能importExcel (现成直接用)

1. 实体类字段上加 Excel(name "xxx"), 表示要导入的字段 Excel(name "用户名称")private String nickName; 2. controller (post请求) /*** 导入用户数据** param file 文件* param updateSupport 是否更新支持&#xff0c;如果已存在&#xff0c;则进…

SpringBoot整合阿里云OSS,实现图片上传

在项目中&#xff0c;将图片等文件资源上传到阿里云的OSS&#xff0c;减少服务器压力。 项目中导入阿里云的SDK <dependency><groupId>com.aliyun.oss</groupId><artifactId>aliyun-sdk-oss</artifactId><version>3.10.2</version>…

ffmpeg合并mp4视频文件

下载ffmpeg Download FFmpeg 2配置环境 右键此电脑-》属性-》高级系统设置 环境变量-》path 解压上面ffmpeg压缩包&#xff0c;找到bin目录&#xff0c;复制完整路径&#xff0c;添加到path环境变量中 测试ffmpeg ffmpeg合并MP4文件 创建一个文本文件&#xff0c;例如inpu…

mybatis入门Idea搭建

一、概念 1、什么是mybatis&#xff1f; MyBatis是一个开源的Java持久层框架&#xff0c;它提供了一种简化数据库访问的方式。它的主要作用是将Java对象与数据库表之间进行映射&#xff0c;使开发者可以通过面向对象的方式操作数据库&#xff0c;而不需要编写大量的SQL语句。M…