pandas 基础操作3

数据删减

虽然我们可以通过数据选择方法从一个完整的数据集中拿到我们需要的数据,但有的时候直接删除不需要的数据更加简单直接。Pandas 中,以 .drop 开头的方法都与数据删减有关。

DataFrame.drop 可以直接去掉数据集中指定的列和行。一般在使用时,我们指定 labels 标签参数,然后再通过 axis 指定按列或按行删除即可。当然,你也可以通过索引参数删除数据,具体查看官方文档。

  • axis=0axis='index':删除行。这是默认设置。
  • axis=1axis='columns':删除列。
df.drop(labels=['Median Age', 'Total Males'], axis=1)

DataFrame.drop_duplicates 则通常用于数据去重,即剔除数据集中的重复值。使用方法非常简单,默认情况下,它会根据所有列删除重复的行。也可以使用 subset 指定要删除的特定列上的重复项,要删除重复项并保留最后一次出现,请使用 keep=‘last’。

一个删除列的例子

在 Pandas 中,删除 DataFrame 的列通常通过指定列的名称来完成。你不需要直接写列数(索引),而是使用列的名称。例如,如果你的 DataFrame 是这样的:

import pandas as pddata = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

现在假设你想删除列 'B',你可以这样做:

df = df.drop('B', axis=1)

这里 'B' 是列的名称,axis=1 指定了你想删除的是列,而不是行(行是 axis=0)。这种方法避免了直接使用列的数值索引,使代码更加清晰易懂。

[DataFrame.drop_duplicates] 则通常用于数据去重,即剔除数据集中的重复值。使用方法非常简单,默认情况下,它会根据所有列删除重复的行。也可以使用 subset 指定要删除的特定列上的重复项,要删除重复项并保留最后一次出现,请使用 keep=‘last’。

除此之外,另一个用于数据删减的方法 [DataFrame.dropna] 也十分常用,其主要的用途是删除缺少值,即数据集中空缺的数据列或行。

数据填充

既然提到了数据删减,反之则可能会遇到数据填充的情况。而对于一个给定的数据集而言,我们一般不会乱填数据,而更多的是对缺失值进行填充。

在真实的生产环境中,我们需要处理的数据文件往往没有想象中的那么美好。其中,很大几率会遇到的情况就是缺失值。缺失值主要是指数据丢失的现象,也就是数据集中的某一块数据不存在。除此之外、存在但明显不正确的数据也被归为缺失值一类。例如,在一个时间序列数据集中,某一段数据突然发生了时间流错乱,那么这一小块数据就是毫无意义的,可以被归为缺失值。

检测缺失值

Pandas 为了更方便地检测缺失值,将不同类型数据的缺失均采用 NaN 标记。这里的 NaN 代表 Not a Number,它仅仅是作为一个标记。例外是,在时间序列里,时间戳的丢失采用 NaT 标记。

Pandas 中用于检测缺失值主要用到两个方法,分别是:isna()notna(),故名思意就是「是缺失值」和「不是缺失值」。默认会返回布尔值用于判断。

接下来,我们人为生成一组包含缺失值的示例数据。

df = pd.DataFrame(np.random.rand(9, 5), columns=list('ABCDE'))
# 插入 T 列,并打上时间戳
df.insert(value=pd.Timestamp('2017-10-1'), loc=0, column='Time')
# 将 1, 3, 5 列的 2,4,6,8 行置为缺失值
df.iloc[[1, 3, 5, 7], [0, 2, 4]] = np.nan
# 将 2, 4, 6 列的 3,5,7,9 行置为缺失值
df.iloc[[2, 4, 6, 8], [1, 3, 5]] = np.nan
df
TimeABCDE
02017-10-010.6049150.2057690.2655890.1336210.348693
1NaT0.731832NaN0.110929NaN0.430827
22017-10-01NaN0.243280NaN0.927472NaN
3NaT0.514475NaN0.616544NaN0.314332
42017-10-01NaN0.951334NaN0.620587NaN
5NaT0.279080NaN0.298142NaN0.527567
62017-10-01NaN0.345831NaN0.023264NaN
7NaT0.522263NaN0.757472NaN0.072000
82017-10-01NaN0.928859NaN0.718561NaN

首先,我们可以用相同的标量值替换 NaN,比如用 0

df.fillna(0)

除了直接填充值,我们还可以通过参数,将缺失值前面或者后面的值填充给相应的缺失值。例如使用缺失值前面的值进行填充:

df.fillna(method='pad') #使用缺失值前面的数填补
df.fillna(method='bfill') #使用缺失值后面的数填补

上面的例子中,我们的缺失值是间隔存在的。那么,如果存在连续的缺失值是怎样的情况呢?试一试。首先,我们将数据集的第 2,4 ,6 列的第 3,5 行也置为缺失值。

df.iloc[[3, 5], [1, 3, 5]] = np.nan
df
TimeABCDE
02017-10-010.6049150.2057690.2655890.1336210.348693
1NaT0.731832NaN0.110929NaN0.430827
22017-10-01NaN0.243280NaN0.927472NaN
3NaTNaNNaNNaNNaNNaN
42017-10-01NaN0.951334NaN0.620587NaN
5NaTNaNNaNNaNNaNNaN
62017-10-01NaN0.345831NaN0.023264NaN
7NaT0.522263NaN0.757472NaN0.072000
82017-10-01NaN0.928859NaN0.718561NaN

下面的操作是基于上面的表格来的,不互相影响

可以看到,连续缺失值也是按照前序数值进行填充的,并且完全填充。这里,我们可以通过 limit= 参数设置连续填充的限制数量。

填充一项

df.fillna(method='pad', limit=1)  # 最多填充一项
TimeABCDE
02017-10-010.6049150.2057690.2655890.1336210.348693
12017-10-010.7318320.2057690.1109290.1336210.430827
22017-10-010.7318320.2432800.1109290.9274720.430827
32017-10-01NaN0.243280NaN0.927472NaN
42017-10-01NaN0.951334NaN0.620587NaN
52017-10-01NaN0.951334NaN0.620587NaN
62017-10-01NaN0.345831NaN0.023264NaN
72017-10-010.5222630.3458310.7574720.0232640.072000
82017-10-010.5222630.9288590.7574720.7185610.072000

正向填充多项:

df.fillna(method='pad')
TimeABCDE
02017-10-010.6049150.2057690.2655890.1336210.348693
12017-10-010.7318320.2057690.1109290.1336210.430827
22017-10-010.7318320.2432800.1109290.9274720.430827
32017-10-010.7318320.2432800.1109290.9274720.430827
42017-10-010.7318320.9513340.1109290.6205870.430827
52017-10-010.7318320.9513340.1109290.6205870.430827
62017-10-010.7318320.3458310.1109290.0232640.430827
72017-10-010.5222630.3458310.7574720.0232640.072000
82017-10-010.5222630.9288590.7574720.7185610.072000

除了上面的填充方式,还可以通过 Pandas 自带的求平均值方法等来填充特定列或行。举个例子:

df.fillna(df.mean()['C':'E'])

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/195995.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue:Vue-dev开发者工具国内下载地址

https://chrome.zzzmh.cn/info/nhdogjmejiglipccpnnnanhbledajbpd

U-Shape Transformer for Underwater Image Enhancement(用于水下图像增强的U型Transformer)总结

背景 现有的水下数据集或多或少存在图像数量少、水下场景少、甚至不是真实场景等缺点,限制了数据驱动的水下图像增强方法的性能。此外,水下图像在不同颜色通道和空间区域的衰减不一致也没有统一的框架。 贡献 1)提出了一种处理 UIE 任务的…

理解 JUnit, JaCoCo 到 SonarQube 的过程及 Maven 配置

Java 项目需要产生单元测试及代码覆盖率的话一直都是走的 JUnit 单元测试,JaCoCo 基于测试产生测试覆盖率,然后送到 SonarQube 去展示这条路子。当然 SonarQube 还可以帮我们进行代码的静态分析。但对其中的具体使用及过程知晓的并不深,基本就…

《洛谷深入浅出进阶篇》同余方程+中国剩余定理——洛谷P1495

这篇文章讲介绍:同余方程,中国剩余定理 什么是同余方程? xy (mod p)这样的,带同余号的式子就是同余方程。 什么是中国剩余定理? 中国剩余定理,顾名思义是出自中国,它…

mysql获取时间异常

1.查看系统时间 时区是上海,本地时间正常 [roottest etc]# timedatectlLocal time: 一 2023-12-04 17:00:35 CSTUniversal time: 一 2023-12-04 09:00:35 UTCRTC time: 一 2023-12-04 09:00:34Time zone: Asia/Shanghai (CST, 0800)NTP enabled: no NTP synchroni…

Nginx(缓冲区)

先来思考一个问题,接入Nginx的项目一般请求流程为:“客户端→Nginx→服务端”,在这个过程中存在两个连接:“客户端→Nginx、Nginx→服务端”,那么两个不同的连接速度不一致,就会影响用户的体验(…

CoSeR: Bridging Image and Language for Cognitive Super-Resolution

主页:CoSeR: Bridging Image and Language for Cognitive Super-Resolution (coser-main.github.io) 图像超分辨率技术旨在将低分辨率图像转换为高分辨率图像,从而提高图像的清晰度和细节真实性。这项技术在手机拍照等领域有着广泛的应用和需求。随着超…

Redis5新特性-stream

Stream队列 Redis5.0 最大的新特性就是多出了一个数据结构 Stream,它是一个新的强大的 支持多播的可持久化的消息队列,作者声明 Redis Stream 地借鉴了 Kafka 的设计。 生产者 xadd 追加消息 xdel 删除消息,这里的删除仅仅是设置了标志位&am…

vue.js el-table 动态单元格列合并

一、业务需求: 一个展示列表,表格中有一部分列是根据后端接口动态展示,对于不同类型的数据展示效果不一样。如果接口返回数据是’类型1‘的,则正常展示,如果是’类型2‘的数据,则合并当前数据的动态表格。…

RTSP流媒体播放器

rtsp主要还是运用ffmpeg来搭建node后端转发到前端,前端再播放这样的思路。 这里讲的到是用两种方式,一种是ffmpeg设置成全局来实现,一种是ffmpeg放在本地目录用相对路径来引用的方式。 ffmpeg下载地址:http://www.ffmpeg.org/do…

焊接专业个人简历(通用25篇)

如果大家想在焊接行业的求职中脱颖而出,轻松斩获心仪职位,参考这25篇通用的焊接专业个人简历案例,无论您是初学者还是资深焊工,都能从中找到适合自己的简历内容。参考这些简历,让您的求职之路更加顺畅。 焊接专业个人…

软件工程 课后题 选择 查缺补漏

在一张状态图中只能有一个初态,而终态则可以没有,也可以有多个 所有的对象可以成为各种对象类,每个对象类都定义了一组 方法 通过执行对象的操作可以改变对象的属性,但它必须经过 消息 的传递 UML应用于 基于对象的面向对象的方…

nn.AdaptiveAvgPool2d(output_size)输入和输出怎么回事?

前言 nn.AdaptiveAvgPool2d(output_size) 函数作用:自适应进行平均池化。不用管输入、stride、padding,函数参数只有输出大小,其他的这个函数帮你搞定。 问题就是,我想知道他是咋搞定的? 1 函数的使用 先把例子摆上…

React Native expo Android adb 调试出现 device not found 怎么办

背景 最近接了一个项目,app 壳子跳转 webview 内嵌 h5 页面,但是壳子是另外一个团队负责的,我们没有源代码,没法办法调试。沟通排查问题很麻烦,后来发现了 Expo 这个工具,可以快速用 React Native 在本地搭…

C++ String 详解

C 中的 string 类型是一个强大而灵活的字符串处理工具&#xff0c;为初学者提供了许多方便的方法来操作文本数据。 1. 引入头文件 在使用 string 之前&#xff0c;首先需要引入头文件 <string>。 #include <string> using namespace std; 2. 基本声明与初始化 …

年底了,项目预算怎么创建?9个步骤直接搞定

如果将项目比作一辆汽车&#xff0c;那么预算就是它的燃料。就像汽车需要汽油一样&#xff0c;项目也需要资金和资源来维持运转。而作为项目经理&#xff0c;应该尽量用最有效的方式规划和使用这些资源&#xff0c;使项目按时交付。 项目预算是一项计划&#xff0c;其中详细说…

Gorm框架入门

文章目录 安装连接数据库Gorm基本示例自动迁移创建数据行查询数据更新数据删除数据 Gorm Model主键表名列名 时间戳CreatedAtUpdatedAtDeletedAt GORM&#xff08;Go Object Relational Mapper&#xff09;是一个在Go语言中使用的对象关系映射&#xff08;ORM&#xff09;库。它…

C++基础 -37- 模板函数与普通函数调用规则

当模板函数比普通函数更好匹配形参的时候&#xff0c;会优先调用模板函数 #include "iostream"using namespace std;template <class T> void show(T a, T b) {cout << a << endl;cout << b << endl;cout << "temp show&…

华为认证 | HCIP和HCIE差别很大吗?

根据ICT从业者的学习和进阶需求&#xff0c;华为认证分为工程师级别、高级工程师级别和专家级别三个认证等级&#xff0c;分别就是HCIA、HCIP以及HCIE。 这三个级别中&#xff0c;HCIA作为一个比较入门级别的考试&#xff0c;选择的人比较少&#xff0c;大多数小伙伴可能会更关…

idea中如何使用git?

在 IntelliJ IDEA 中使用 Git 进行版本控制是一个常见且重要的操作。以下是使用 Git 的基本步骤&#xff0c;包括如何在 IDEA 中设置 Git&#xff0c;以及执行常用的 Git 操作。 1. 安装 Git 首先&#xff0c;确保您的计算机上已安装 Git。您可以从 Git 的官方网站 下载并安装…