背景信息里面都给了相应的答案,但我们可以多了解一下代码的含义,而不是简单的复制粘贴
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats
import numpy as npdata = pd.read_csv("src/death.csv", index_col='Unnamed: 0')data = data.dropna(axis=1, thresh=data.shape[0] * 0.2)
data = data.dropna(axis=0, thresh=data.shape[1] * 0.2)a = pd.isna(data).sum()
cols = [x for i, x in enumerate(a.index) if a[i] > 0]mode_list = 'FIPS Admin2'
for i in cols:if mode_list.find(i) != -1:data[i] = data[i].fillna(data[i].mode().iloc[0])else:data[i] = data[i].fillna(data.mean()[i])cols = '2008/10/20,2008/11/20,2008/12/20'.split(',')
x = data[cols]########## Begin ##########
# 创建一个空的 pandas DataFrame 对象,用于后续存储异常值检测结果
a=pd.DataFrame()
for i in x.columns:
# 计算每个特征(列)的标准分数 (z-score),即 (观测值 - 平均值) / 标准差z=(x[i]-x[i].mean())/x[i].std()
# 判断差值的绝对值是否大于3,将判断结果赋值给 DataFrame a 的对应列
# 这里,大于3通常被视作可能的异常值a[i]=abs(z)>3# 统计各列异常值个数
print(a.sum())
# 删除异常值
# 使用布尔型 DataFrame a 来筛选数据子集 x,保留非异常值
# ~a 会对 DataFrame a 中的布尔值取反,使得 True 变为 False,False 变为 True
# 即保留原数据中那些在 a 中标记为非异常值的位置,x中异常值会被标记成NAN
# 然后调用 dropna() 方法删除包含缺失值(NAN)的行
x[~a].dropna()########## End ##########
df.dropna() #将所有含有NAN项的row删除
在这一关中去掉“.dropna()”也能过,上一关中结尾没加上“.dropna()”,也成功了,目前看来应该不影响,可能是系统自动处理了。