首页 > 代码库 > 《大数据日知录:架构与算法》试读

《大数据日知录:架构与算法》试读

时代背景

       

       记得CSDN之前有篇文章描述了大数据成功预测了美国大选,“大数据”并不真正关心谁来当选下一届美国总统。不过所有的数据都显示:政治科学家和其他人相关人士都认为奥巴马获得连任可能性比较大。本次的成功预言,展示了大数据强大的能量。

       众所周知,企业数据本身就蕴藏着价值,但是将有用的数据与没有价值的数据进行区分看起来可能是一个棘手的问题。
       显然,您所掌握的人员情况、工资表和客户记录对于企业的运转至关重要,但是其他数据也拥有转化为价值的力量。一段记录人们如何在您的商店浏览购物的视频、人们在购买您的服务前后的所作所为、如何通过社交网络联系您的客户、是什么吸引合作伙伴加盟、客户如何付款以及供应商喜欢的收款方式……所有这些场景都提供了很多指向,将它们抽丝剥茧,透过特殊的棱镜观察,将其与其他数据集对照,或者以与众不同的方式分析解剖,就能让您的行事方式发生天翻地覆的转变。
      但是屡见不鲜的是,很多公司仍然只是将信息简单堆在一起,仅将其当作为满足公司治理规则而必须要保存的信息加以处理,而不是将它们作为战略转变的工具。
毕竟,数据和人员是业务部门仅有的两笔无法被竞争对手复制的财富。在善用的人手中,好的数据是所有管理决策的基础,带来的是对客户的深入了解和竞争优势。数据是业务部门的生命线,必须让数据在决策和行动时无缝且安全地流到人们手中。
      所以,数据应该随时为决策提供依据。看看在政府公开道路和公共交通的使用信息这样看起来甚至有点晦涩的数据时会发生什么,这些数据来源为一些私营公司提供了巨大的价值,这些公司能够善用这些数据,创造满足潜在需求的新产品和服务。 

基本概念


      “大数据”这个术语最早期的引用可追溯到apache org的开源项目Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。随着谷歌MapReduce和Google File System (GFS)的发布,大数据不再仅用来描述大量的数据,还涵盖了处理数据的速度。


大数据日知录:架构与算法


     这本书从架构与算法角度全面梳理了大数据存储与处理的相关技术,试读章节主要是讲了图数据库,其架构与算法,这其中又分成了以下几个部分:


1、在线查询类图数据库


      讲述其三层结构,以及 TAO图数据库。


2、常见图挖掘问题


      讲述了PageRank 计算、单源最短路径(Single Source Shortest Path)以及二部图最大匹配。


3、离线挖掘数据分片


     分别介绍了切边法(Edge-Cut)和切点法(Vertex-Cut)


4、离线挖掘计算模型


     讲解了以节点为中心的编程模型、GAS 编程模型、同步执行模型和异步执行模型。


5、离线挖掘图数据库


     以结合实例的方式讲解了四个典型的离线挖掘图数据库:Pregel、Giraph、GraphChi和PowerGraph。


小结


     通过试读章节可以看出,《大数据日知录:架构与算法》这本书对于技术的讲解,从深度上和作者本身经验上都是相当不错的,对于关键部分的技术架构讲得很细很全面,并配以实例来加深和验证相关的理论知识,有助于读者对于大数据相关技术的理解。本书对于大数据技术所面临的各种问题给出了相应的解决思路,并给出了相应算法的源码或者伪码,光这一章就有多达14个之多,从这里也可以看出作者的努力与付出了。


《大数据日知录:架构与算法》试读