机器学习之数据预处理——数据清洗缺失值、异常值和重复值的处理
- 基础知识
- 技术点总结
- 数据列缺失的处理方法
- 1、丢弃(缺失值处理)
- 1、生成一份随机数据
- 2、查看哪些值缺失
- 3、获得含有NA的列
- 4、获取全部为NA的列
- 5、丢弃缺失值
- 2、补全(缺失值处理)
- 1、使用sklearn将缺失值替换为特定值
- 使用这一列的均值代替NaN
- 使用这一列的中位数代替NaN
- 使用这一列的众数代替NaN
- 2、使用Pandas将缺失值替换为特定值
- 用后面的值替换缺失值
- 用后面的值替换缺失值,限制每列只能替换一个缺失值
- 用前面的值替换缺失值
- 用0替换缺失值
- 用不同值替换不同列的