首页 > 代码库 > 数据挖掘——数据预处理
数据挖掘——数据预处理
数据预处理(Data Preprocess):通过采用数据清理、数据集成与变换以及数据规约等方法对数据预先进行处理,处理后的数据用于数据挖掘。
在当前社会中,由于大数据、数据源不唯一等原因使得在真实数据库存放的数据存在噪声、缺失和不一致的问题。基于数据的信息挖掘在数据不能保证的情况下,挖掘得到的信息也很难具有说服力。(地基都没夯实就去建造高楼大厦谁敢住?)为了解决实际中遇到的这些问题,数据预处理技术顺势产生。常见的几种数据预处理的方式主要有:
1.数据清洗。主要用于去除噪声数据(包括错误数据和离群数据)以及解决数据不一致问题;
2.数据集成。通过数据整合可以将多个数据源的数据合并为一个统一数据集合。
3.数据变换。在数据变换中常用的操作例如标准化(normalization),可以提高数据挖掘的准确性。
4.数据规约。通过数据聚集、属性子集选择以及维度规约等方法对数据集合进行简化表示,但能够产生同样的(几乎同样的)分析结果。
有关数据预处理技术的内容将在接下来的章节逐渐展开。
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。