首页 > 代码库 > 蔡先生论道大数据之一 , 大数据由来

蔡先生论道大数据之一 , 大数据由来

    我记得早在2001年,Gartner公司的一份研究报告首次出现“大数据(Big Data)”概念的提法。但是到今天业内对“大数据”一词的定义说法不一,但越来越多的研究机构和网络媒体开始关注它。大数据正成为继云计算之后新的热词。同云计算一样,大数据虽然也看不见摸不到,却与今天的IT技术发展如影随形,已经深入到当前的信息生产、加工、交换过程之中,我们已经享受到的某些信息服务,如在社交网站看到的是自己想关注甚至是感兴趣的广告而看不到不想关注的广告,这其实是大数据技术的功劳。


背景

    移动互联网的带宽的增加和智能设备销售量的上升,互联网业迎来了“云计算”和“大数据”。世界经济论坛一份有关大数据的研究报告称,每天全球几十亿人使用计算机、GPS设备、电话和医疗设备,产生海量的数据信息。这些用户大部分来自发展中国家,他们的需求和习惯尚未被真正理解,如果能够借助大数据相关技术分析和挖掘数据背后的信息,将有助于认识需求、提供预测和防范危机。另有评述说,美国的汽车保有量是中国三倍,而其车祸死亡人数仅为中国的一半,这得益于信息社会的数据革命之功。

    毫无疑问,现在我们比历史上任何时候拥有的数据信息都要多得多。这些数据来源各式各样:收集气候变化的传感器,社交媒体上的消息,数字照片和视频,交易记录,移动电话的GPS信号等等。中国移动研究院在一份简报中称,随着全球信息化的进程加快,数据量的增加已经到达了前所未有的速度,2011年创造的信息数据达到180亿GB,而且每年以60%增加,到2020年全球一年产生的数字信息将达到35ZB,相当于350万亿GB。数据在持续地增多变大,多到现有数据技术无法分析处理,我们需要专门来解读这些海量数据的技术,这就是“大数据技术”。


概念

    如同Gartner公司的报告里提到的那样,业界普遍认同所谓“大数据”具有明显的“3V特征”:量级(Volume),速度(Velocity)和多样性(Variety)。大数据普遍具有量级大,要求处理速度快,数据本身具有丰富的多样性。在甲骨文公司和中国移动研究院的相关研究文档里,都追加了第四个V——Value,价值, 而IBM在其相关文档中给出的第四个“V”则是真实性(Veracity) 。

基于个人的观点,我给大数据技术的定义是:

在海量的规则或不规则数据集中,用新的数据处理手段,以很快的速度计算或分析出潜在规律性、根本性的判断、趋势或预见。也可以简单说是数据集太大以至于传统数据库软件无法处理,所以称为“大数据技术”。    

    从数据生成类型上区分,大数据可分为交易数据、交互数据和传感数据;从数据来源上分,大数据可分为社交媒体、银行/购物网站、移动电话和平板电脑、各种传感器/物联网等等;从数据格式可以分为文本日志、整型数据、图片、声音、视频等;还可从数据关系上区分为结构化数据(如交易流水帐)和非结构化数据(如图、表,地图等);从数据所有者可分为公司尤其巨型公司数据、政府数据、社会数据——网络数据。

    根据美国白宫的“大数据开发计划”中的说,大数据开发也可指“从庞大而复杂的数字数据中发

掘知识及现象后的本质(extract knowledge and insights from large and complex collections of digital data)”。同时也看到,现在所讨论的大数据并不仅仅是数据尺寸的变大,它还可以被视作一个机会,籍此可以在新的正在生成的数据和内容中找到本质的东西,从而使商业运作更敏捷,帮助回答一些此前无法预知的问题。


主要技术

    大数据的提出是为了解决现有数据技术无法满足快速增多、日益复杂化的数据集合,因此基于大数据的技术涉及层面较广,至少包括如下一些现有技术的综合运用。关联规则学习、分类、分组分析、众包技术、数据异构与同构、机器学习、自然语言处理、神经网络、模式识别、预测模型、情态分析、信号处理、时序分析和可视化处理等。

    上述每一项技术如果展开来说,需要写很多篇文章来讨论。如关联规则学习,是数据挖掘的一个重要课题,用于从大量数据中挖掘出有价值的数据项之间的相关关系,由此产生了对基于大数据的推荐系统的应用研究。再如机器学习,机器学习算法是从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的、行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。

    大数据的具体化、实例化的应用离不开Apache Hadoop项目,一种开源、可扩展、分布式的应用计算架构。它包括Common、Distributed File System、MapReduce三个组件部分。Hadoop 的 Map/Reduce 框架是一种主/从架构,机群中有单一的主服务器以及若干个从服务器,在每个节点都有一个从服务器,这些分布式的节点协同工作,共同完成一个整体的大数据处理任务。目前也出现了Spark框架,基于Hadoop技术之上的另一种未来很可能替代Map/Reduce框架,以后我们会详细讨论。



微信号:caimin_yyh


wKioL1OxSQaT3dwbAACYe_TcHA8788.jpg





本文出自 “论道大数据” 博客,请务必保留此出处http://bighadoop.blog.51cto.com/2942495/1432621