首页 > 代码库 > 认识大数据

认识大数据

大数据是具有海量、高增长率和多样化的信息资产,它需要全新的处理模式来增强决策力、洞察发现力和流程优化能力。

从样本数据统计到全量数据统计就是大数据的一个例子。

面对超大规模的数据存储量,依靠单台数据库服务器显然是不够的,需要以分布式文件系统(例如 HDFS)作为基石。

大数据的特征:大、繁(即多样性)、快

在现实生活中很多用户行为数据属于非结构化数据,很难用关系型数据库存储。因此诸多No-SQL数据库(例如 HBase)成为了存储大数据的更好选择。

MapReduce可以简单的理解成一种分治方法:把庞大的任务分成若干小任务,交给多个节点进行并行处理,然后再把所有节点的处理结果合并起来,从而大大提升了数据处理效率。

大数据的应用:人工智能、商业分析、犯罪推测,哈哈 人类正从IT时代走向DT时代!

 

认识大数据