首页 > 代码库 > 数据挖掘之定义

数据挖掘之定义

大数据是2012的时髦词汇,正受到越来越多人的关注和谈论。

大数据之所以受到人们的关注和谈论。是由于隐藏在大数据后面超千亿美元的市场机会。

  大数据时代,数据挖掘是最关键的工作。

下面内容供个人学习用,感兴趣的朋友能够看一下。

  智库百科是这样描写叙述数据挖掘的“数据挖掘又称数据库中的知识发现,是眼下人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平庸过程。

数据挖掘是一种决策支持过程。它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等。高度自己主动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略。降低风险。做出正确的决策。

  数据挖掘的定义

  技术上的定义及含义

  数据挖掘(Data Mining)就是从大量的、不全然的、有噪声的、模糊的、随机的实际应用数据中。提取隐含在当中的、人们事先不知道的、但又是潜在实用的信息和知识的过程。

这个定义包含好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。

  与数据挖掘相近的同义词有数据融合、人工智能、商务智能、模式识别、机器学习、知识发现、数据分析和决策支持等。

  ----何为知识从广义上理解。数据、信息也是知识的表现形式,可是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉。好像从矿石中採矿或淘金一样。

原始数据能够是结构化的。如关系数据库中的数据;也能够是半结构化的,如文本、图形和图像数据。甚至是分布在网络上的异构型数据。发现知识的方法能够是数学的。也能够是非数学的;能够是演绎的,也能够是归纳的。

发现的知识能够被用于信息管理,查询优化,决策支持和过程控制等,还能够用于数据自身的维护。

因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这样的需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和project技术人员,投身到数据挖掘这一新兴的研究领域。形成新的技术热点。

  这里所说的知识发现,不是要求发现放之四海而皆准的真理。也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。

实际上,全部发现的知识都是相对的。是有特定前提和约束条件,面向特定领域的,同一时候还要可以易于被用户理解。最好能用自然语言表达所发现的结果。

  商业角度的定义

  数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其它模型化处理,从中提取辅助商业决策的关键性数据。

  简而言之,数据挖掘事实上是一类深层次的数据分析方法。

数据分析本身已经有非常多年的历史。仅仅只是在过去数据收集和分析的目的是用于科学研究。另外,因为当时计算能力的限制,对大数据量进行分析的复杂数据分析方法受到非常大限制。如今,因为各行业业务自己主动化的实现,商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集的,而是因为纯机会的(Opportunistic)商业运作而产生。分析这些数据也不再是单纯为了研究的须要,更主要是为商业决策提供真正有价值的信息,进而

  获得利润。但全部企业面临的一个共同问题是:企业数据量非常大,而当中真正有价值的信息却非常少,因此从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也因此而得名。

  因此,数据挖掘能够描写叙述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。

数据挖掘之定义