首页 > 代码库 > 【数据挖掘导论】——数据质量

【数据挖掘导论】——数据质量

数据质量
数据挖掘使用的数据通常是为其他用途收集或者收集的时候还没有明确目的。因此数据常常不能在数据的源头控制质量。为了避免数据质量的问题,所以数据挖掘着眼于两个方面:数据质量问题的检测和纠正(数据清理);使用可以容忍低质量数据的算法。

测量和数据收集问题
完美的数据在实际中几乎是不存在的,对于存在的数据质量问题,我们先定义测量误差和数据收集错误,然后考虑测量误差的各种问题:噪声,伪像,偏倚,精度和准确度。接着讨论测量和数据收集的数据质量问题:离群点,遗漏和不一致的值,重复数据。

测量误差(measurements error)是指测量过程中导致的问题,如:记录的值与实际的值不相同。
数据收集错误(data collection error)是指诸如遗漏数据对象或属性值,或不当地包含了其他数据对象等错误,如:特定的物种研究可能混入相似物种的数据。测量和数据收集错误可能是系统的也可能是随机的。

噪声是测量误差的随即部分,如2-5显示被随机噪声干扰后的时间序列,如果噪声非常的多,甚至会掩盖原有的数据。

图2-6显示的三组被添加噪声点前后的数据点集。

噪声通常用于包含时间或空间分量的数据,在这些情况下,可以使用图形或信号处理技术来降噪,但完全的消除是非常困难的。所以数据挖掘都关注涉及鲁棒算法(robust algorithm),即在有噪声干扰下也能产生被接受的结果。数据错误也可能是更确定性现象的结果,如一组数据在同一个地方出现相同的错误。这种确定性失真称作伪像(artifact)

精度(precision):重复测量值之间的接近程度
偏倚(bias):测量值与被测量值之间的系统的变差
假定我们有1克的标准砝码,想评估新天平的精度和偏倚,称重5次得到{1.015 , 0990 , 1.013 , 1.001,0.986}这些值的平均值是1.001,因此偏倚是0.001,。用标准差度量,精度是0.013.

准确率:被测量的测量值与实际值之间的接近度。
准确度依赖于精度和偏倚,另一个重要的方面是有效数字(significant digit)的使用,其目的是仅使用数据精确度所能确定的数字位数表示测量或计算结果。

离群点(outlier)是在某种意义上具有不同与数据集 中其他 大部分 数据对象的特征 的数据对象,或是相对于该属性的典型值来说不寻常的属性值。称为异常(anomalous)对象或异常值。需要注意的是区别噪声和离群点:离群点可以是合法的数据对象或值。因此不像噪声,离群点本身是人们感兴趣的对象。

遗漏值
一个对象遗漏一个或多个属性值的情况还是很平常的,有时甚至还会出现信息收集不全的情况。但无论何种情况,在数据分析时都应当考虑遗漏值。那怎么应对遗漏值:
  • 删除数据对象或属性
  • 估计遗漏值
  • 分析时忽略遗漏值

不一致的值
数据可能包含不一致的值,如:帐号和密码因为手误填写错误等;无论是什么原因导致不一致的值,重要是能检测出来,并且纠正。

重复数据
数据集可能包含重复的数据对象,对于重复的数据一般都进行检测和删除。但做这些步骤之前,得处理两个问题:如果两个对象实际代表同一个对象,则对应的属性值必然不同,必须解决这些不一致的值。需要避免意外将两个相似但不重复的数据对象合并在一起;去重复(deduplication)通常表示这一过程。