python 如何修改字典的key值_如何使用python技术完成数据集缺失值多种应用场景的滤除或填充?...

f2d4c7a79ee642fe95d25835f8ab6b5a

前言

在数据处理的过程中,我们应该都有这样的体会,本质上数据处理与分析是相互协作,彼此成就的过程。比如,我们会用数据分析统计数据集中的缺失值、异常值,更直观的也会进阶到数据可视化的部分(到达该部分一般是成了文章类或汇报类的一部分),然后以统计结果为基础再对数据进行处理。这个过程往往不是一次性过程,是循环往复的。然后数据处理的结果是有质量的,对后期的数据挖掘、机器学习、深度学习以及其他更多的应用,提供了坚实的基础。接下来,我们就一起来梳理和总结一下,数据处理过程中,经常遇到的缺失值处理方法。

小编在本文中主要通过python技术来讲解不同数据需求背景下的数据缺失值处理方法。特别提示一下,我们在学习的过程中,需要有这样的思维,我们是为了处理数据而使用python,不是为了使用python而进行数据处理。我们需要从本质上掌握缺失值处理方法,然后才是python技术在这些场景上有什么样的函数或方法可以更便捷、更简单的解决问题。

缺失值的处理方法,通常分为两种,一是直接将其进行滤除;二是使用固定值或衍生值去填充缺失值,下面进行逐一介绍。

e0cc1db7828e4d12bbfe9a4ba4153430

回顾滤除缺失值方法

滤除缺失值数据有两种场景,一种是对Series结构的数据进行滤除,另外则是对DataFrame数据进行滤除。

1.Series结构数据缺失值滤除

关于python技术滤除缺失值的方法,小编在过往的分享中已经进行了介绍。在本文中,我们一起来简单回顾,大家可以加深一下印象。

首先,从numpy中导入缺失值方法,具体代码如下:

#书写方式如下

from numpy import nan as NA

其次,dropna使用方法,具体写法如下:

data.dropna()

另外一种同样能够达到此目的的方式是通过布尔型索引,具体写法如下:

Data[data.notnull()]

2.DataFrame结构数据缺失值滤除

接下来,我们具体来回顾一下,dropna方法是如何DataFrame结构数据的行、列和时间序列数据进行滤除的,不同场景下使用的方法如下所示:

(1)dropna默认丢弃任何含有缺失值的行

书写方式:data.dropna()

(2)传入how=’all’将只丢弃全为NA的那些行

书写方式:data.dropna(how=’all’)

(3)传入axis=1丢弃列

书写方式:data.dropna(how=’all’,axis=1)

(4)thresh参数过滤时间序列数据

书写方式:df.dropna(thresh=3)

上述的不同场景下滤除缺失值的方法,相对比较完整,大家可以在亲自进行尝试和体会。

如何使用固定值或衍生值填充缺失值?

在回顾了缺失值滤除方法后,我们重点来介绍如何使用固定值或衍生值填充缺失值。

在有少量缺失值,但相对完整的数据中,直接滤除缺失值是一种相对粗暴的解决方法。而实际的数据处理过程中,我们经常进行的是使用固定值或衍生值填充缺失值,然后再进行下一步的其他动作。我们使用dropna方法进行缺失值滤除,而缺失值填充使用的则是fillna这个工具。

小编在本文中主要介绍4种填充缺失值的场景及相应的示例,具体如下:

1.用平均值填充NA值

c5342ddbed7142078aa751923aab0ca5

2.对不同分组填充不同的值

假设需要对不同的分组填充不同的值。只需将数据分组,并使用apply和一个能够对各数据块调用fillna的函数即可。

38f686252cec40fba16c18cb84d80913
31e63c5e4d444ba7a6ad71b0e59fe4b5

3.用分组平均值去填充NA值

b4a973459ea54d8fba76e1b601cef088

4.在代码中预定义各组的填充值

由于分组具有一个name属性,所以可以用一下:

2786ba68115f4d70a45b324e66d6d00b

总结

综上所述,dropna和fillna两种python技术工具,实现了缺失值的滤除和填充。除此之外,本文介绍了9种缺失值处理的应用场景与方法,分别为:Series结构的缺失值滤除、DataFrame结构数据缺失值滤除(4种)、4种使用固定值或衍生值填充缺失值的场景与方法,基本涵盖了数据处理中经常使用的缺失值处理应用场景与方法。

python好书推荐:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/499012.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue 接口节流_vue防抖节流之v-debounce--throttle使用指南

最新封装了一个vue防抖节流自定义指令,发布到npm上,有用欢迎star,谢谢!使用比较简单,取消利用vue注册事件,采用指令来注册事件,防抖指令v-debounce,节流指令v-debounce,使用方式分为两种,传入对…

python graphics 清空 图_【手把手教你】使用Python玩转金融时间序列模型

01引言上一篇推文【Python量化基础】时间序列的自相关性与平稳性着重介绍了时间序列的一些基础概念,包括自相关性、偏自相关性、白噪声和平稳性,以及Python的简单实现。本文在此基础上,以沪深300指数收益率数据为例,探讨如何使用P…

mysql按字段同步_MySQL同步(一) 基础知识

6 MySQL 同步同步功能在MySQL 3.23.15就开始引进了,它可以把一个MySQL服务器上的数据复制到另一个服务器上去。本章描述了MySQL的各种复制特性。介绍了同步的概念,如何设置同步服务器,以及可用服务器的参照。还提供了一系列的常见问题及其答案…

postman linux_Postman使用

postman简介官网https://learning.getpostman.com/用户在开发或者调试网络程序或者是网页B/S模式的程序的时候是需要一些方法来跟踪网页请求的,用户可以使用一些网络的监视工具比如著名的Firebug等网页调试工具。今天给大家介绍的这款网页调试工具不仅可以调试简单的…

java与MySQL做购物系统_java Swing mysql实现简单的购物系统项目源码附带指导视频教程...

大家好,今天给大家演示一下由Java swing实现的一款简单的购物程序,数据库采用的是mysql,该项目非常简单,实现了管理员对商品类型和商品的管理及用户注册登录后浏览商品、加入购物车、购买商品等功能,旨在学习Java 图形…

mysql pdm_mysql 生成pdm

1.条件1.1 工具powerDesigner16.51.2 mysql数据库地址或脚本1.3 mysql-connector-odbc-5.3.4-winx64.msi2.操作步骤2.1 database > change DBMS 选择Mysql5.02.2 打开powerDesigner16.5工具, file > reverse Engineer > database确定,则生成对应的pdm.3.图形列表中展示…

python画图宽度_python – 在Matplotlib中设置绘图画布的大小

这是我对Matplotlib最大的挫折之一.我经常使用栅格数据,例如我想添加色彩图,图例和一些标题.来自matplotlib库的任何简单示例都会导致不同的分辨率,因此重新采样数据.特别是在进行图像分析时,您不需要任何(不需要的)重采样. 这是我通常做的,虽然我很想知道是否有更简单或更好的…

java 调用htm中js函数_从 node.js Web应用中调用 WASM 函数 | WebAssembly 入门教程

文中所有的代码都可以在 https://github.com/second-state/wasm-learning/tree/master/nodejs/hello 中找到在之前的教程中,我们讨论了如何从 Web 浏览器中的 JavaScript 应用程序访问 WebAssembly 函数。WebAssembly 快问快答从 Rust 开始入门 WebAssembly | WebAs…

python将数据存入mysql数据库中_python3 两种方法将数据存入mysql数据库

方法一:(数据量小的时候推荐使用这种)第一步:pip install mysqlclient这里我没有报错 也许你可能会报错Read timed out 此时不要慌,这是因为你的网络问题,你使用豆瓣源再次下载:pip install -i https://pypi.douban…

vba cad 读取宏的路径_openpyxl 第三篇 lt;工作表的读取和写入gt;

1、打开表格文件from openpyxl import load_workbook wb load_workbook(r"文件路径工作簿文件全名")2. 查看有哪些sheet页sheet_names wb.sheetnames print(sheet_names)3. 读取指定的sheet页sheet1 wb[指定工作表的名字]4.单元格的使用#写 sheet1.cell(row3,colu…

mysql 一致性读_MySQL半一致性读原理解析-从源码角度解析

1、什么是半一致性读A type of read operation used for UPDATE statements, that is a combination of read committed and consistent read. When an UPDATE statement examines a row that is already locked, InnoDB returns the latest committed version to MySQL so tha…

飞秋发送文件对方无法接收_微信新功能,发送高清图片和视频终于不会被压缩了...

今天,扎比从微博中刷到了腾讯微信团队的最新微博,称微信支持发送高清图片视频不被压缩,而且给好友发送的文件容量上限也变得更大了。发送教程一般情况下,我们使用微信给好友发视频和图片时都会被压缩。而今天扎比分享的是一个不会…

mysql改原始密码mac_MAC版修改MySQL初始密码的方法

问题描述:买了mac电脑,第一次装mysql,不知道初始密码,如何修改初始密码记录下。解决方式:http://dev.mysql.com/doc/refman/5.7/en/resetting-permissions.html亲测方法3,已成功重置密码。(感谢非常&#x…

张仰彪第二排序法_C++之排序

常见的各种排序算法复杂度快速排序1.原理假设我们现在对“6 1 2 7 9 3 4 5 10 8”这个10个数进行排序。首先在这个序列中随便找一个数作为基准数。为了方便,就让第一个数6作为基准数吧。接下来,需要将这个序列中所有比基准数大的数放在6的右边&am…

rpm mysql 忘记密码_mysql密码忘记该怎么办?

环境:linux;mysql5.7mysql密码忘记:[rootizwz9f40l0qo5cpnn8qwmpz ~]# mysql -u root -pEnter password:ERROR 1045 (28000): Access denied for user rootlocalhost (using password: NO)查看当前版本:# rpm -qa |grep mysqlmysql57-communi…

python有多少种变量_python数据类型和变量

1.python文件的后缀名为 *.py 2.两种执行方式: python解释器 py文件路径 python 进入解释器: 实时输入并获取到执行结果 3.在Linux下,文件名和文件内部与windows有所不同 文件名 ./*.py 文件内部: 开头得加上 #/usr/bin/env pytho…

mysql1440秒未活动_phpMyAdmin登陆超时1440秒未活动请重新登录

本文章总结了关于phpMyAdmin登陆超时1440秒未活动请重新登录解决方法,有需要的朋友可参考本文章。问题现象:现象一:phpmyadmin在使用过程中经常出现“登陆超时(1440秒未活动),请重新登录”;现象二:phpmyadm…

java连接mysql执行ddl_dljd_(007_009)_jdbc执行DQL/DML/DDL语句

packageedu.aeon.jdbc;importjava.sql.Connection;importjava.sql.Driver;importjava.sql.DriverManager;importjava.sql.ResultSet;importjava.sql.SQLException;importjava.sql.Statement;/*** [说明]:测试jdbc*authoraeon(qq:1584875179)**/public classTest {/*** jdbc执行…

python3读取jpg_python3读取图像并可视化的方法(PIL/Pillow、opencv/cv2)

原图:使用TensorFlow做图像处理的时候,会对图像进行一些可视化的操作。下面,就来列举一些我知道的图像读取并可视化的方法。 1. Pillow模块 1.1 Pillow模块的前生 Pillow就是python2中的 PIL 模块。PIL模块(Python Imaging Librar…

mysql一对多增删改查_SpringBoot+MySql+ElementUI实现一对多的数据库的设计以及增删改查的实现...

场景业务中经常会用到一对多的数据库的设计与数据的增删改查的实现。比如要实现一个对手机应用配置允许访问的权限的业务。app与权限就是一对多的关系。即一个app可以拥有多个权限。注:实现首先设计数据库。要有一个app表、一个权限表、一个app与权限关联表。首先设…