pandas用众数填充缺失值_python数据分析包|Pandas-02之缺失值(NA)处理

20f80afd33f9fb7bf0634ea4e6cb7795.png
本篇详解pandas中缺失值(Missing data handling)处理常用操作。
缺失值处理常用于数据分析数据清洗阶段;Pandas中将如下类型定义为缺失值
NaN: ‘’, ‘#N/A’, ‘#N/A N/A’, ‘#NA’, ‘-1.#IND’, ‘-1.#QNAN’,
‘-NaN’, ‘-nan’, ‘1.#IND’, ‘1.#QNAN’, ‘’, ‘N/A’, ‘NA’,
‘NULL’, ‘NaN’, ‘n/a’, ‘nan’, ‘null’,None

欢迎微信随缘关注@pythonic生物人

本文将学到什么?

1、pandas中缺失值注意事项
pandas和numpy中任意两个缺失值不相等(np.nan != np.nan)
pandas读取文件时那些值被视为缺失值2、pandas缺失值操作
pandas.DataFrame中判断那些值是缺失值:isna方法
pandas.DataFrame中删除包含缺失值的行:dropna(axis=0) 
pandas.DataFrame中删除包含缺失值的列:dropna(axis=1)
pandas.DataFrame中删除包含缺失值的列和行:dropna(how='any')
pandas.DataFrame中删除全是缺失值的行:dropna(axis=0,how='all')
pandas.DataFrame中删除全是缺失值的列:dropna(axis=1,how='all')
pandas.DataFrame中使用某个值填充缺失值:fillna(某个值)
pandas.DataFrame中使用前一列的值填充缺失值:fillna(axis=1,method='ffill')
pandas.DataFrame中使用前一行的值填充缺失值:fillna(axis=0,method='ffill')
pandas.DataFrame中使用字典传值填充指定列的缺失值  

更好的阅读体验请戳:Pandas处理缺失值(NA)


1、pandas中缺失值注意事项

pandas和numpy中任意两个缺失值不相等(np.nan != np.nan)

下图中两个NaN不相等:

9fb143211fda703f68df0922622c2ae1.png
In [224]: df1.iloc[3:,0].values#取出'one'列中的NaN
Out[224]: array([nan])In [225]: df1.iloc[2:3,1].values#取出'two'列中的NaN
Out[225]: array([nan])In [226]: df1.iloc[3:,0].values == df1.iloc[2:3,1].values#两个NaN值不相等
Out[226]: array([False])

pandas读取文件时那些值被视为缺失值

NaN: ‘’, ‘#N/A’, ‘#N/A N/A’, ‘#NA’, ‘-1.#IND’, ‘-1.#QNAN’,‘-NaN’, ‘-nan’, ‘1.#IND’, ‘1.#QNAN’, ‘<NA>’, ‘N/A’, ‘NA’,‘NULL’, ‘NaN’, ‘n/a’, ‘nan’, ‘null’,None

2、pandas缺失值操作

pandas.DataFrame中判断那些值是缺失值:isna方法

#定义一个实验DataFrame
In [47]: d = {'one': pd.Series([1., 2., 3.], index=['a', 'b', 'c']),'two': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}In [48]: df = pd.DataFrame(d)
In [49]: df
Out[49]:one  two
a  1.0  1.0
b  2.0  2.0
c  3.0  3.0
d  NaN  4.0In [120]: df.isna()#返回形状一样的bool值填充DataFrame
Out[120]:one    two
a  False  False
b  False  False
c  False  False
d   True  False

pandas.DataFrame中删除包含缺失值的行:dropna(axis=0)

In [67]: df
Out[67]:one  two
a  1.0  1.0
b  2.0  2.0
c  3.0  3.0
d  NaN  4.0In [68]: df.dropna()#默认axis=0
Out[68]:one  two
a  1.0  1.0
b  2.0  2.0
c  3.0  3.0

pandas.DataFrame中删除包含缺失值的列:dropna(axis=1)

In [72]: df.dropna(axis=1)
Out[72]:two
a  1.0
b  2.0
c  3.0
d  4.0

pandas.DataFrame中删除包含缺失值的列和行:dropna(how='any')

In [97]: df['three']=np.nan#新增一列全为NaN
In [98]: df
Out[98]:one  two  three
a  1.0  1.0    NaN
b  2.0  2.0    NaN
c  3.0  3.0    NaN
d  NaN  4.0    NaNIn [99]: df.dropna(how='any')
Out[99]:
Empty DataFrame#全删除了
Columns: [one, two, three]
Index: []

pandas.DataFrame中删除全是缺失值的行:dropna(axis=0,how='all')

In [101]: df.dropna(axis=0,how='all')
Out[101]:one  two  three
a  1.0  1.0    NaN
b  2.0  2.0    NaN
c  3.0  3.0    NaN
d  NaN  4.0    NaN

pandas.DataFrame中删除全是缺失值的列:dropna(axis=1,how='all')

In [102]: df.dropna(axis=1,how='all')
Out[102]:one  two
a  1.0  1.0
b  2.0  2.0
c  3.0  3.0
d  NaN  4.0

pandas.DataFrame中使用某个值填充缺失值:fillna(某个值)

In [103]: df.fillna(666)#使用666填充
Out[103]:one  two  three
a    1.0  1.0  666.0
b    2.0  2.0  666.0
c    3.0  3.0  666.0
d  666.0  4.0  666.0

pandas.DataFrame中使用前一列的值填充缺失值:fillna(axis=1,method='ffill')

#后一列填充为fillna(axis=1,method=bfill')
In [109]: df.fillna(axis=1,method='ffill')
Out[109]:one  two  three
a  1.0  1.0    1.0
b  2.0  2.0    2.0
c  3.0  3.0    3.0
d  NaN  4.0    4.0

pandas.DataFrame中使用前一行的值填充缺失值:fillna(axis=0,method='ffill')

#后一行填充为fillna(axis=1,method=bfill')
In [110]: df.fillna(method='ffill')
Out[110]:one  two  three
a  1.0  1.0    NaN
b  2.0  2.0    NaN
c  3.0  3.0    NaN
d  3.0  4.0    NaN

pandas.DataFrame中使用字典传值填充指定列的缺失值

In [112]: df.fillna({'one':666})#填充one列的NaN值
Out[112]:one  two  three
a    1.0  1.0    NaN
b    2.0  2.0    NaN
c    3.0  3.0    NaN
d  666.0  4.0    NaNIn [113]: df.fillna({'three':666})
Out[113]:one  two  three
a  1.0  1.0  666.0
b  2.0  2.0  666.0
c  3.0  3.0  666.0
d  NaN  4.0  666.0

3、参考资料

https://pandas.pydata.org/pandas-docs/stable/reference/frame.html?highlight=missing

欢迎微信随缘关注@pythonic生物人

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/461354.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

系统设计学习

2019独角兽企业重金招聘Python工程师标准>>> 这里原帖地址: http://www.mitbbs.com/article_t/JobHunting/32492515.html 以下为转载内容 我是分割线 稍微总结一下1. 入门级的news feedhttp://www.quora.com/What-are-best-practices-for-building-somethttp://w…

编码 括号_Java编码规范整理汇总

来源&#xff1a;博学谷 作者&#xff1a;照照在Java的入门过程中&#xff0c;我们首先要养成一个良好的编写代码习惯。那么&#xff0c;了解清楚Java的编码规范就显得尤为必要了。编码格式不仅仅是美不美观的问题。这里我们可以试想一下&#xff0c;如果在Java开发中编码不规范…

rabbitmq消息队列,消息发送失败,消息持久化,消费者处理失败相关

转&#xff1a;https://blog.csdn.net/u014373554/article/details/92686063 项目是使用springboot项目开发的&#xff0c;前是代码实现&#xff0c;后面有分析发送消息失败、消息持久化、消费者失败处理方法和发送消息解决方法及手动确认的模式 先引入pom.xml <!--rabbitmq…

基于nginx实现缓存功能及uptream模块详细使用方法

基于nginx实现缓存功能及uptream模块详细使用方法一般情况下&#xff0c;前端使用nginx做代理或7层负载并向后实现varish/squid做cache server的效果要好的多nginx与squid做缓存比较nginx比squid有着巨大的优势表现在&#xff1a;nginx是异步假如后端的web服务器&#xff0c;当…

linux中的信号1——进程如何处理信号?

以下内容源于朱有鹏嵌入式课程的学习与整理&#xff0c;如有侵权请告知删除。 一、信号概述 1、信号是内容受限的一种异步通信机制 &#xff08;1&#xff09;信号的目的&#xff1a;用来进程间通信&#xff08;IPC&#xff09;、进程和内核间的通信。 &#xff08;2&#xff…

单片机oled显示浮点数函数_问中文编程在单片机上实现一个电子时钟,总共有几步?...

首先介绍开发一下语言&#xff1a;mcuScript&#xff0c;他是一个支持同时支持中文编程和英文编程的弱数据类型的脚本语言。相关介绍可参考前面的两篇文章:彭贞&#xff1a;mcuScript一个洋名字的中文(汉语)编程语言&#xff0c;初体验​zhuanlan.zhihu.com彭贞&#xff1a;mcu…

RabbitMQ的消息确认机制

转&#xff1a;https://www.toutiao.com/a6583957771840913934/?tt_frommobile_qq&utm_campaignclient_share&timestamp1532999387&appnews_article&utm_sourcemobile_qq&iid39062783162&utm_mediumtoutiao_android 一&#xff1a;确认种类 RabbitMQ的…

javascript 文件的同步加载与异步加载

原文:[转载]javascript 文件的同步加载与异步加载HTML 4.01 的script属性 charset: 可选。指定src引入代码的字符集&#xff0c;大多数浏览器忽略该值。 defer: boolean, 可选。延迟脚本执行&#xff0c;相当于将script标签放入页面body标签的底部&#xff0c;js脚本会在docume…

linux中的信号2——alarm、pause函数

以下内容源于朱有鹏嵌入式课程的学习与整理&#xff0c;如有侵权请告知删除。 1、alarm函数 函数原型 函数说明 &#xff08;1&#xff09;内核以API形式提供的闹钟&#xff1b; &#xff08;2&#xff09;可以为当前进程定义闹钟&#xff0c;时间到了会发出SIGALRM信号。 &…

easyexcel 填充模板 格式变了_Qamp;A | 如何制作规范的电子合同模板?

表单中使用电子合同时&#xff0c;不仅需要进行功能设置&#xff0c;还需要制作一份PDF格式的模板&#xff0c;上传到“合同模板”中&#xff0c;才能生成有效的电子合同&#xff0c;接下来&#xff0c;我们一起了解模板的制作方法。制作方法 1. 准备PDF模板首先准备一份PDF格式…

edoc2中标电子文件管理标准ERMS制定项目

2019独角兽企业重金招聘Python工程师标准>>> 据悉&#xff0c;上海鸿翼数字计算机网络有限公司&#xff08;edoc2&#xff09;参加了电子文件管理标准ERMS制定项目的投标&#xff0c;经过精心准备和专业的答辩&#xff0c;凭借多年在电子文件管理领域长期的探索和研…

文件IO——如何实现非阻塞式IO?

以下内容源于朱有鹏嵌入式课程的学习与整理&#xff0c;如有侵权请告知删除。 一、阻塞式IO 1、阻塞式的概念 我们知道&#xff0c;有些函数在调用时&#xff08;比如网络编程中的recv函数&#xff09;&#xff0c;如果某些条件不满足&#xff0c;则会进入等待状态&#xff0c…

散点画三维曲面图_UG 复杂曲面合金零件的数控加工

随着柔性制造、机床数控技术的飞速发展&#xff0c;具有复杂、 精密、小批量、多品种的曲面零件越来越多&#xff0c;如何利用数控 加工技术高质量、高效率加工该类零部件是很有研究价值 的。 本研究利用 UG 软件对复杂曲面合金零件进行三维实 体建模、设计加工工艺过程&#x…

扫盲:php session缓存至memcached中的方法

memcached是一套分布式的快取系统&#xff0c;当初是Danga Interactive为了LiveJournal所发展的&#xff0c;但被许多软件&#xff08;如MediaWiki&#xff09;所使用。这是一套开放源代码软件&#xff0c;以BSD license授权协议发布。[1]memcached仅支持一些非常简单的命令 比…

使用juniversalchardet做字符编码识别

为什么80%的码农都做不了架构师&#xff1f;>>> 在抓取网站的页面的时候最烦人的一件事情之一就是识别原站点的编码&#xff0c;通常来说只有GBK&#xff08;GB2312&#xff09;和UTF8两种&#xff0c;不过依旧需要读取大量Http头信息来识别&#xff0c;有些网站则…

获取系统信息1——linux系统中的时间

以下内容源于朱有鹏嵌入式课程的学习与整理&#xff0c;如有侵权请告知删除。 一、关于时间的概念 1、GMT时间 GMT是格林尼治时间&#xff0c;即格林尼治地区的当地时间。用格林尼治的当地时间作为全球国际时间&#xff0c;用以描述全球性的事件的时间&#xff0c;方便大家记忆…

判断一个字符串是否为回文-链队(新建,进队,出队),链栈(新建,进栈,出栈)...

回文&#xff1a;字符对称排列的字符串&#xff0c;例如ABCBA 思路&#xff1a;根据队&#xff1a;先进先出和栈: 先进后出的原则&#xff0c;进行比较出队和出栈的字符是否相等。如果相等&#xff0c;则为回文。 创建控制台应用程序。 1 #region 字符节点类 2 …

句法依存分析_复旦大学邱锡鹏教授:词法、句法分析研究进展综述

本文为第十六届自然语言处理青年学者研讨会 YSSNLP2019 报告《词法、句法分析研究进展综述》的简要文字整理&#xff0c;本报告主要回顾词法、句法领域的最新研究进展。 关于报告人&#xff1a;邱锡鹏&#xff0c;复旦大学计算机科学技术学院副教授&#xff0c;博士生导师。于复…

获取系统信息3——proc文件系统介绍和使用

以下内容源于朱有鹏嵌入式课程的学习与整理&#xff0c;如有侵权请告知删除。 一、proc文件系统介绍 1、操作系统级别的调试一般很困难 简单的程序可以单步调试&#xff1b;复杂一点的程序可以printf、cout等打印信息调试&#xff08;即输出信息到控制台&#xff09;&#xff0…

阻止函数源码在控制台输出

这是一个很贱的技能&#xff0c;我在谷歌控制台源码里看到的。相信大家都知道&#xff0c;在控制台里只输入函数名&#xff0c;不输入 () 然后按回车&#xff0c;就可以输出源码。 都不会陌生吧&#xff0c;这也有助于我们调试&#xff0c;是个很棒的技巧。不过系统内置的就会输…