首页 > 代码库 > Data Mining 概念

Data Mining 概念

 

数据挖掘概念:

            数据挖掘是在大型数据库中、自动的发现有用信息的过程。

            然、

            这个有用只是一个感性的东西。比如我们从表中索引一行数据、这个算不上数据挖掘。因为它依赖的是数据的明显特征。

数据挖掘基本步骤:

                      

第一步:

        预处理、把没有加工的数据转换为合适的数据格式。

                 1、融合来自多个数据源的数据。

                 2、清洗数据以消除噪声和重复的观测值。

                 3、选择与当前任务相关的记录与特征。

                 由于数据收集与存储的方式多种多样、数据预处理可能是最费时的一步。

第二步:

         数据挖掘、

                    1、要解决可伸缩性(要求算法不只是适用于小数据量、也要适应海量的数据量)

                    2、高维性(要求算法适应高特征性-----如有几千个属性)

                    3、杂种数据与复杂数据(要求算法适应复杂的数据对象)

                    4、数据所有权与分布

                    5、非传统分析(不是通过假话演绎的方式)

 

第三步:

         后处理、

 

-------------------------------------------------------------------------------------------------------------------------------------------------------

数据挖掘利用了数学中的:

                               统计、抽样、估计、假验证。

数据挖掘利用了人工智能中的:

                                     模式识别、机器学习的搜索算法。

 

Data Mining 概念