首页 > 代码库 > 大数据

大数据

大数据是一个体量特别大,数据类别特别大的数据集。也就是说“大数据”本身并不是一种新的技术,也不是一种新的产品,
而是我们这个时代出现的一种现象。而这个“大”达到了一种什么样的程度呢?可以说他即将突破现有常规软件所能提供的能力极限。
综上所述,我们觉得使用麦肯锡的定义可能会更为简洁明了:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。

“大数据摩尔定律”:全球数据量大约每两年翻一番。

数据产生成本是符合反摩尔定律的,即数据产生成本大概每两年下降一半。

大数据将给我们带来什么样的难题?
    无限增长的数据与有限增长的IT人员之间的矛盾
    数据体量即将超越传统数据库的管理能力
    经典数据库技术并没有考虑数据的多类别
   
IDC对大数据技术的定义:大数据技术将被设计用于在成本可承受的条件下,通过非常快速的采集、发现和分析,从大量化、多类别的数据中提取价值,将是IT
领域新一代的技术与架构。

NoSQL,指的是非关系型数据库,是一个用来处理半结构化和非结构化信息的数据平台,你可以把他简单理解为下一大数据库技术。
Hadoop,是Apache软件基金会所研发的开放源代码并行运算编程工具和分散式档案系统,你可以把他简单理解为下一代搜索引擎。