一、关于数据
什么是数据?
数据是数据对象的集合及其属性
属性的类型
- 标称标度 nominal scale
标称属性的值是一些符号或实物的名称,每个值代表某种类别、编码或状态,所以标称属性又被看做是分类型的属性(categorical)。这些值不存在顺序关系,并且不是定量的。
如:血型、身份号码、邮政编码 - 类型标度 typological scale
- 序列标度 ordinal scale
在标称标度的基础上,加入了类别的顺序关系,当不能进行算术运算
如:成绩(优、良、及格)、印度种姓制度 - 间隔标度 interval scale
含有对各个类进行分隔的间隔规模信息,数字不仅表示顺序,还能进行加减算术运算,但不能进行乘除运算。
间隔标度可以看成一个一次函数。
如:日期、摄氏温度 - 比例标度 ratio scale
含有对各个类别进行分隔的比例规模信息
这种测量不仅保持了顺序、实体间的间隔规模,还能描述实体之间的比率,可以进行加减乘除等任何算术运算。
可以看成是一个比例函数。
如:开尔文温度、长度、时间 - 离散属性和连续属性
- 离散属性
只有一个有限集和可数无限集,如邮政编码、计数。通常为整数变量。 - 连续属性
实数作为属性值,如温度、高度。通常用浮点变量表示。
- 离散属性
二、为什么要预处理数据
现实中的数据是脏的:
- 不完全:缺少属性值,或仅包含聚类数据
- 噪音:包含错误和孤立点
- 不一致:编码或名字存在差异
- 数据类型
- 非平衡数据
三、数据清理
填充缺失值、识别/去除离散点、光滑噪音、纠正数据中的不一致
如何处理缺失数据?
- 忽略元组
- 手工填写缺失数据
- 自动填充:全局常量(如“unknown”)、属性均值、推理的方式
如何处理噪音数据
- 分箱:排序数据,分布到等频、等宽的箱中
- 聚类:检测和去除孤立点
局部离群因子LOF:LOF越接近于1,说明A的其领域点密度差不多,A可能和领域属于同一簇;如果这个比值约小于1,说明A的密度高于其领域点的密度,A为密集点;如果这个比值约大于1,说明A的密度小于其领域点,A越可能是异常点。 - 回归:回归函数拟合数据
四、数据集成
合并多个数据源中的数据
五、数据规约
获得数据的一个规约表示,规模比原来小、但接近原数据的完整性,使得得到几乎相同的分析结果。
- 数据立方体聚集
- 维度规约——去除不重要的属性
主成分分析PCA:将一组N维向量降为K维,其目标是选择K给单位正交基,使原始数据变换到这组基后,各字段两两协方差为0,而字段的方程则尽可能大。
步骤:- 设有m条n维数据,按列组成n行m列矩阵X
- 将X的每一行进行零均值化,即减去这一行的均值
- 求出协方差矩阵C=X(X^T)/m
- 求出协方差矩阵的特征值及对应特征向量
- 将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P
- Y=PX即为降维后的向量
- 数据压缩
- 数值规约
- 离散化和产生概念分层