目录
前言
第一点:导入模块
第二点 :发现对象的缺失值
第二点:剔除缺少值
第三点:填补缺失值
总结
前言
在数据处理中,经常会遇到数据中存在缺失值的情况。处理缺失值是数据清洗的一个重要环节,能够确保数据的完整性和准确性。本文将介绍如何使用Pandas库中的方法来处理一维和二维对象中的缺失值,包括发现缺失值、剔除缺失值和填补缺失值等操作。
第一点:导入模块
import pandas as pd
第二点 :发现对象的缺失值
#定义一维对象
v=[53,None,72,82]
k=['1号','2号','3号','4号']
sr=pd.Series(v,index=k)
print(sr)
# 1号 53.0
# 2号 NaN
# 3号 72.0
# 4号 82.0
# dtype: float64# 发现对象的缺失值
print(sr.isnull())
# 1号 False
# 2号 True
# 3号 False
# 4号 False
# dtype: bool# 发现无缺少值的数据
print(~sr.isnull())
# 1号 True
# 2号 False
# 3号 True
# 4号 True
# dtype: bool
第二点:剔除缺少值
# 一维对象
v=[53,None,72,82]
k=['1号','2号','3号','4号']
sr=pd.Series(v,index=k)
print(sr)
#必须赋值给新对象
sr2=sr.dropna()
print(sr2)# 二维对象
v=[[None,None],[64,None],[72,3],[82,4]]
i=['1号','2号','3号','4号']
c=['年龄','牌照']
df=pd.DataFrame(v,index=i,columns=c)
print(df)
# 年龄 牌照
# 1号 NaN NaN
# 2号 64.0 NaN
# 3号 72.0 3.0
# 4号 82.0 4.0
print(df.dropna())
# 年龄 牌照
# 3号 72.0 3.0
# 4号 82.0 4.0#某些同学认为,只要某行含有一个NaN就剔除掉该个体太过残忍,我们可以设定一个参数,只有当该行全部是NaN,才会被剔除
print(df.dropna(how='all'))
# 年龄 牌照
# 2号 64.0 NaN
# 3号 72.0 3.0
# 4号 82.0 4.0
第三点:填补缺失值
#一维对象
v=[53,None,72,82]
k=['1号','2号','3号','4号']
sr=pd.Series(v,index=k)
print(sr)
# 1号 53.0
# 2号 NaN
# 3号 72.0
# 4号 82.0
# dtype: float64
print(sr.fillna(0))
# 1号 53.0
# 2号 0.0
# 3号 72.0
# 4号 82.0
# dtype: float64#二维对象
v=[[None,None],[64,None],[72,3],[82,4]]
i=['1号','2号','3号','4号']
c=['年龄','牌照']
df=pd.DataFrame(v,index=i,columns=c)
print(df)
# 年龄 牌照
# 1号 NaN NaN
# 2号 64.0 NaN
# 3号 72.0 3.0
# 4号 82.0 4.0
print(df.fillna(0))
# 年龄 牌照
# 1号 0.0 0.0
# 2号 64.0 0.0
# 3号 72.0 3.0
# 4号 82.0 4.0
总结
通过本文介绍的方法,我们学习了如何利用Pandas库来处理数据中的缺失值。我们探讨了如何发现缺失值、剔除包含缺失值的数据以及填补缺失值。这些技能对于数据清洗和准备阶段至关重要,能够帮助我们更好地分析数据、训练模型并做出准确的预测。希望本文分享的内容对您在数据处理和分析过程中有所帮助!