数据质量
数据挖掘使用的数据一般是为其它用途收集或者收集的时候还没有明白目的。
因此数据经常不能在数据的源头控制质量。为了避免数据质量的问题,所以数据挖掘着眼于两个方面:数据质量问题的检測和纠正(数据清理);使用能够容忍低质量数据的算法。
測量和数据收集问题
完美的数据在实际中差点儿是不存在的,对于存在的数据质量问题,我们先定义測量误差和数据收集错误,然后考虑測量误差的各种问题:噪声,伪像。偏倚,精度和精确度。
接着讨论測量和数据收集的数据质量问题:离群点,遗漏和不一致的值,反复数据。
測量误差(measurements error)是指測量过程中导致的问题,如:记录的值与实际的值不同样。
数据收集错误(data collection error)是指诸如遗漏数据对象或属性值,或不当地包括了其它数据对象等错误。如:特定的物种研究可能混入相似物种的数据。測量和数据收集错误可能是系统的也可能是随机的。
噪声是測量误差的随即部分,如2-5显示被随机噪声干扰后的时间序列,假设噪声很的多,甚至会掩盖原有的数据。
图2-6显示的三组被加入噪声点前后的数据点集。
噪声通经常使用于包括时间或空间分量的数据,在这些情况下,能够使用图形或信号处理技术来降噪,但全然的消除是很困难的。所以数据挖掘都关注涉及鲁棒算法(robust algorithm),即在有噪声干扰下也能产生被接受的结果。数据错误也可能是更确定性现象的结果,如一组数据在同一个地方出现同样的错误。这样的确定性失真称作伪像(artifact)
精度(precision):反复測量值之间的接近程度
偏倚(bias):測量值与被測量值之间的系统的变差
假定我们有1克的标准砝码,想评估新天平的精度和偏倚,称重5次得到{1.015 , 0990 , 1.013 , 1.001,0.986}这些值的平均值是1.001,因此偏倚是0.001,。用标准差度量。精度是0.013.
准确率:被測量的測量值与实际值之间的接近度。
准确度依赖于精度和偏倚,还有一个重要的方面是有效数字(significant digit)的使用,其目的是仅使用数据准确度所能确定的数字位数表示測量或计算结果。
离群点(outlier)是在某种意义上具有不同与数据集 中其它 大部分 数据对象的特征 的数据对象。或是相对于该属性的典型值来说不平常的属性值。
称为异常(anomalous)对象或异常值。
须要注意的是差别噪声和离群点:离群点能够是合法的数据对象或值。因此不像噪声,离群点本身是人们感兴趣的对象。
遗漏值
一个对象遗漏一个或多个属性值的情况还是非常寻常的。有时甚至还会出现信息收集不全的情况。
但不管何种情况,在数据分析时都应当考虑遗漏值。
那怎么应对遗漏值:
- 删除数据对象或属性
- 预计遗漏值
- 分析时忽略遗漏值
不一致的值
数据可能包括不一致的值,如:帐号和password由于手误填写错误等。不管是什么原因导致不一致的值。重要是能检測出来,而且纠正。
反复数据
数据集可能包括反复的数据对象,对于反复的数据一般都进行检測和删除。但做这些步骤之前,得处理两个问题:假设两个对象实际代表同一个对象,则相应的属性值必定不同。必须解决这些不一致的值。
须要避免意外将两个相似但不反复的数据对象合并在一起;去反复(deduplication)通常表示这一过程。