【数据清洗】2007-数据清洗研究综述

2024-10-21 15:01:39 212人阅读

王曰芬　章成志　张蓓蓓　吴婷婷

定义：数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。与问卷审核不同，录入后的数据清理一般是由计算机而不是人工完成。
目的：数据清洗的目的是为信息系统提供准确而有效的数据。
基本原理：利用有关技术,如统计方法、数据挖掘方法、模式规则方法等将脏数据转换为满足数据质量要求的数据。数据清洗按照实现方式与范围,可分为以下4种：

Ⅰ 手工实现

Ⅱ 编写专门的应用程序

Ⅲ 解决某类特定应用域的问题

Ⅳ 与特定应用领域无关的数据清洗

Ⅲ、Ⅳ通用性较强

Ⅰ Trillium的模型(Trillium[7]是由Harte Hanks Data Technologies的Trillium Software Systems部门创建的企业范围的数据清洗软件。)

将数据清洗的过程分为5个步骤：

Ⅱ Bohn模型

将数据清洗分为以下4个主要部分：

Ⅲ AJAX模型

将数据清洗分为5个步骤：

技术分享

Ⅲ 其他工具

基于引擎的工具

数据分析工具

业务流程再设计工具

数据轮廓分析工具

数据挖掘工具

Ⅰ 可信度

精确性：描述数据是否与其对应的客观实体的特征相一致。

完整性：描述数据是否存在缺失记录或缺失字段

         一致性：描述同一实体的同一属性的值在不同的系统是否一致
                有效性：描述数据是否满足用户定义的条件或在一定的域值范围内。
                唯一性：描述数据是否存在重复记录。

Ⅱ 可用性

时间性：描述数据是当前数据还是历史数据

稳定性：描述数据是否是稳定的,是否在其有效期内

【数据清洗】2007-数据清洗研究综述

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们