python 如何修改字典的key值_如何使用python技术完成数据集缺失值多种应用场景的滤除或填充?...

f2d4c7a79ee642fe95d25835f8ab6b5a

前言

在数据处理的过程中,我们应该都有这样的体会,本质上数据处理与分析是相互协作,彼此成就的过程。比如,我们会用数据分析统计数据集中的缺失值、异常值,更直观的也会进阶到数据可视化的部分(到达该部分一般是成了文章类或汇报类的一部分),然后以统计结果为基础再对数据进行处理。这个过程往往不是一次性过程,是循环往复的。然后数据处理的结果是有质量的,对后期的数据挖掘、机器学习、深度学习以及其他更多的应用,提供了坚实的基础。接下来,我们就一起来梳理和总结一下,数据处理过程中,经常遇到的缺失值处理方法。

小编在本文中主要通过python技术来讲解不同数据需求背景下的数据缺失值处理方法。特别提示一下,我们在学习的过程中,需要有这样的思维,我们是为了处理数据而使用python,不是为了使用python而进行数据处理。我们需要从本质上掌握缺失值处理方法,然后才是python技术在这些场景上有什么样的函数或方法可以更便捷、更简单的解决问题。

缺失值的处理方法,通常分为两种,一是直接将其进行滤除;二是使用固定值或衍生值去填充缺失值,下面进行逐一介绍。

e0cc1db7828e4d12bbfe9a4ba4153430

回顾滤除缺失值方法

滤除缺失值数据有两种场景,一种是对Series结构的数据进行滤除,另外则是对DataFrame数据进行滤除。

1.Series结构数据缺失值滤除

关于python技术滤除缺失值的方法,小编在过往的分享中已经进行了介绍。在本文中,我们一起来简单回顾,大家可以加深一下印象。

首先,从numpy中导入缺失值方法,具体代码如下:

#书写方式如下

from numpy import nan as NA

其次,dropna使用方法,具体写法如下:

data.dropna()

另外一种同样能够达到此目的的方式是通过布尔型索引,具体写法如下:

Data[data.notnull()]

2.DataFrame结构数据缺失值滤除

接下来,我们具体来回顾一下,dropna方法是如何DataFrame结构数据的行、列和时间序列数据进行滤除的,不同场景下使用的方法如下所示:

(1)dropna默认丢弃任何含有缺失值的行

书写方式:data.dropna()

(2)传入how=’all’将只丢弃全为NA的那些行

书写方式:data.dropna(how=’all’)

(3)传入axis=1丢弃列

书写方式:data.dropna(how=’all’,axis=1)

(4)thresh参数过滤时间序列数据

书写方式:df.dropna(thresh=3)

上述的不同场景下滤除缺失值的方法,相对比较完整,大家可以在亲自进行尝试和体会。

如何使用固定值或衍生值填充缺失值?

在回顾了缺失值滤除方法后,我们重点来介绍如何使用固定值或衍生值填充缺失值。

在有少量缺失值,但相对完整的数据中,直接滤除缺失值是一种相对粗暴的解决方法。而实际的数据处理过程中,我们经常进行的是使用固定值或衍生值填充缺失值,然后再进行下一步的其他动作。我们使用dropna方法进行缺失值滤除,而缺失值填充使用的则是fillna这个工具。

小编在本文中主要介绍4种填充缺失值的场景及相应的示例,具体如下:

1.用平均值填充NA值

c5342ddbed7142078aa751923aab0ca5

2.对不同分组填充不同的值

假设需要对不同的分组填充不同的值。只需将数据分组,并使用apply和一个能够对各数据块调用fillna的函数即可。

38f686252cec40fba16c18cb84d80913
31e63c5e4d444ba7a6ad71b0e59fe4b5

3.用分组平均值去填充NA值

b4a973459ea54d8fba76e1b601cef088

4.在代码中预定义各组的填充值

由于分组具有一个name属性,所以可以用一下:

2786ba68115f4d70a45b324e66d6d00b

总结

综上所述,dropna和fillna两种python技术工具,实现了缺失值的滤除和填充。除此之外,本文介绍了9种缺失值处理的应用场景与方法,分别为:Series结构的缺失值滤除、DataFrame结构数据缺失值滤除(4种)、4种使用固定值或衍生值填充缺失值的场景与方法,基本涵盖了数据处理中经常使用的缺失值处理应用场景与方法。

python好书推荐:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/499012.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python graphics 清空 图_【手把手教你】使用Python玩转金融时间序列模型

01引言上一篇推文【Python量化基础】时间序列的自相关性与平稳性着重介绍了时间序列的一些基础概念,包括自相关性、偏自相关性、白噪声和平稳性,以及Python的简单实现。本文在此基础上,以沪深300指数收益率数据为例,探讨如何使用P…

postman linux_Postman使用

postman简介官网https://learning.getpostman.com/用户在开发或者调试网络程序或者是网页B/S模式的程序的时候是需要一些方法来跟踪网页请求的,用户可以使用一些网络的监视工具比如著名的Firebug等网页调试工具。今天给大家介绍的这款网页调试工具不仅可以调试简单的…

java与MySQL做购物系统_java Swing mysql实现简单的购物系统项目源码附带指导视频教程...

大家好,今天给大家演示一下由Java swing实现的一款简单的购物程序,数据库采用的是mysql,该项目非常简单,实现了管理员对商品类型和商品的管理及用户注册登录后浏览商品、加入购物车、购买商品等功能,旨在学习Java 图形…

mysql pdm_mysql 生成pdm

1.条件1.1 工具powerDesigner16.51.2 mysql数据库地址或脚本1.3 mysql-connector-odbc-5.3.4-winx64.msi2.操作步骤2.1 database > change DBMS 选择Mysql5.02.2 打开powerDesigner16.5工具, file > reverse Engineer > database确定,则生成对应的pdm.3.图形列表中展示…

java 调用htm中js函数_从 node.js Web应用中调用 WASM 函数 | WebAssembly 入门教程

文中所有的代码都可以在 https://github.com/second-state/wasm-learning/tree/master/nodejs/hello 中找到在之前的教程中,我们讨论了如何从 Web 浏览器中的 JavaScript 应用程序访问 WebAssembly 函数。WebAssembly 快问快答从 Rust 开始入门 WebAssembly | WebAs…

vba cad 读取宏的路径_openpyxl 第三篇 lt;工作表的读取和写入gt;

1、打开表格文件from openpyxl import load_workbook wb load_workbook(r"文件路径工作簿文件全名")2. 查看有哪些sheet页sheet_names wb.sheetnames print(sheet_names)3. 读取指定的sheet页sheet1 wb[指定工作表的名字]4.单元格的使用#写 sheet1.cell(row3,colu…

mysql 一致性读_MySQL半一致性读原理解析-从源码角度解析

1、什么是半一致性读A type of read operation used for UPDATE statements, that is a combination of read committed and consistent read. When an UPDATE statement examines a row that is already locked, InnoDB returns the latest committed version to MySQL so tha…

飞秋发送文件对方无法接收_微信新功能,发送高清图片和视频终于不会被压缩了...

今天,扎比从微博中刷到了腾讯微信团队的最新微博,称微信支持发送高清图片视频不被压缩,而且给好友发送的文件容量上限也变得更大了。发送教程一般情况下,我们使用微信给好友发视频和图片时都会被压缩。而今天扎比分享的是一个不会…

张仰彪第二排序法_C++之排序

常见的各种排序算法复杂度快速排序1.原理假设我们现在对“6 1 2 7 9 3 4 5 10 8”这个10个数进行排序。首先在这个序列中随便找一个数作为基准数。为了方便,就让第一个数6作为基准数吧。接下来,需要将这个序列中所有比基准数大的数放在6的右边&am…

mysql1440秒未活动_phpMyAdmin登陆超时1440秒未活动请重新登录

本文章总结了关于phpMyAdmin登陆超时1440秒未活动请重新登录解决方法,有需要的朋友可参考本文章。问题现象:现象一:phpmyadmin在使用过程中经常出现“登陆超时(1440秒未活动),请重新登录”;现象二:phpmyadm…

python3读取jpg_python3读取图像并可视化的方法(PIL/Pillow、opencv/cv2)

原图:使用TensorFlow做图像处理的时候,会对图像进行一些可视化的操作。下面,就来列举一些我知道的图像读取并可视化的方法。 1. Pillow模块 1.1 Pillow模块的前生 Pillow就是python2中的 PIL 模块。PIL模块(Python Imaging Librar…

mysql一对多增删改查_SpringBoot+MySql+ElementUI实现一对多的数据库的设计以及增删改查的实现...

场景业务中经常会用到一对多的数据库的设计与数据的增删改查的实现。比如要实现一个对手机应用配置允许访问的权限的业务。app与权限就是一对多的关系。即一个app可以拥有多个权限。注:实现首先设计数据库。要有一个app表、一个权限表、一个app与权限关联表。首先设…

python设置时间到后结束程序_Python设置程序等待时间

写代码时,特别是涉及到其他外部可执行文件调用时,通常会出现调用程序还未生成结果,后面的程序就自动执行的情况。而通常情况下,前一步调用的生成结果是下一步程序的输入文件,因此出现找不到该文件或打不开该文件的情况…

c++心形代码_情人节,用代码比个心

今日份的情人节,在家闲出p的你,是不是比往日更加寂寞?这无情的雨,这冰冷的雪,这朴实无华且枯燥的生活,你是否想做点什么?没有朱一旦的劳力士,也没有朱一龙的神仙颜值,那么…

上下相机贴合对位计算公式_展商速递 | 汇驰新材热可塑性光学透明膜优化升级全贴合工艺...

2020/11/19-21广州汇驰新材料有限公司(东莞欧伏电子)展位号:1R10展会时间:11月19-21日地点:深圳会展中心(福田区老展馆)欢迎相关企业莅临商谈!关于汇驰新材广州汇驰新材料有限公司(东莞欧伏电子)(展位号:1R10)主要从事…

datagrip替换字_DataGrip使用进阶-导航及搜索(一)

1、关键字导航:当在datagrip的文本编辑区域编写sql时,按住键盘Ctrl键不放,同时鼠标移动到sql关键字上,比如表名、字段名称、或者是函数名上,鼠标会变成手型,关键字会变蓝,并加了下划线&#xff…

js map获取_感知 Node.js 异步I/O 的魅力!

JS 在浏览器的网页中执行,浏览器给 JS 提供的能力是操作文字、图片,或实现一些简单效果。术语叫 DOM 操作。JS 在 Node.js 环境中执行, Node 给 JS 提供了诸如 文件操作, 网络操作 等功能模块。基于这些模块,JS 一下就牛气冲天了。在 Node.j…

k8s pod restartcount 改0_通过实例快速掌握k8s(Kubernetes)核心概念

点击上方蓝色“Go语言中文网”关注我们,设个星标,每天学习 Go 语言本文作者:倚天码农,原创授权发布原文链接:https://segmentfault.com/a/1190000020595811容器技术是微服务技术的核心技术之一,并随着微服务…

div垂直居中的方法_【CSS】8种常见的垂直水平居中方法

1.比较传统的方式 absolutemargin负值偏移特点:父容器要设置宽高,需要知道子容器宽高,偏移量是子容器宽高的一半且是负值,兼容性好/* absolutemargin负值偏移布局 */.layout.absolute {position: relative;}.layout.absolute art…

websocket 导致大量apache进程_Swoole 服务端主动向websocket推送消息

在之前的博文中,我们已经学完了如果使用swoole搭建websocket长连接,也学会了swoole的多进程数据共享操作。但在一个完整的websocket长连接日常操作链中,服务端往往会主动给在线的用户单独推送消息,会群发一些消息。在Swoole-webso…