数据清理
缺失值
- 如果数据集含有分类属性,一种简单的填补缺失值的方法为,将属于同一类的对象的该属性值的均值赋此缺失值;对于离散属性或定性属性,用众数代替均值。
- 更复杂的方法,可以将其转换为分类问题或数值预测问题
噪声数据
- 识别出噪音将其去除 -- 比如孤立点的识别
- 利用其它非噪音数据降低噪音的影响,起到平滑(smoothing)的作用 -- 分箱(binning)方法可以用于平滑噪音。例如,将年收入的缺失值填补之后,将其取值利用分箱法平滑噪音。
数据集成
冗余和相关分析
标称数据的x^2相关检验
数值数据的协方差
数据归约
- 维归约:减少所考虑的随机变量或属性的个数
- 数量归约:用替代的、较小的数据表示形式替换原数据
- 数据压缩:使用变换,以便得到原数据的归约或“压缩”表示