首页 > 代码库 > 大数据,只看这个就够了

大数据,只看这个就够了

    2016年5月25日上午,由贵州省政府举办的以"大数据开启智能时代"为主题的中国大数据产业峰会在贵阳开幕,国务院总理李克强发表主旨演讲。腾讯集团马化腾,高通公司总裁Derek Aberle,百度公司李彦宏,微软全球陆奇,京东集团刘强东,阿里巴巴王坚,滴滴出行程维,HTC王雪红,戴尔Michael Dell等重要嘉宾出席会议并发言。至此,大数据发展已经上升到国家战略层次,其热度可见一斑。如图一为李克强总理发表讲话:

 

技术分享

图一

 

  自2016年起,大数据与人工智能,虚拟现实相继重新进入了我们的视线,不论是贵阳的大数据产业峰会,还是BAT巨头对大数据作出的投资,可谓是屡放大招,频频吸引我们的眼球。那么大数据究竟是什么神奇的东西呢?让我们揭开大数据面纱感受它的改变世界的神奇吧!

那么究竟什么是大数据呢?

  大数据是具有海量、高增长率和多样化的信息资产,它需要全新的处理模式来增强决策力、洞察发现力和流程优化能力。其特点是数据量大,形式多样,读写速度快,如图二,三为大数据渲染图:

                                                                   技术分享                                      技术分享

图二                                                                                      图三

 

  在大数据里大概可以分为两个体系,数据分析师和Hadoop工程师,在数据分析体系下业务数据分析师和数据挖掘工程师,在Hadoop里可分为开发工程师,架构工程师,运维工程师。另外大数据可以提供的工作有大数据分析工程师、大数据咨询顾问、大数据统计工程师、大数据运营经理、大数据挖掘与处理专员、大数据存储工程师。详见图四:

 

技术分享

图四

 

  现如今,大数据业界内部有非常多就业机会,尤其是北京,上海,深圳,杭州急需大数据相关专业型人才。现收集大数据在北京的相关职位相关薪资如表一所示:

 

职位 Hadoop开发工程师 数据挖掘工程师 数据分析工程师 数据运维师
工作地 北京 北京 北京 北京
平均薪资 1.9万 2.1万 1.1万 1.0万
3-5年工作经验 1.5-3万 1.5-3万 0.5-3万 1.3-5万
 

表一:北京数据工程师薪资表

 

  从今年4月份北京市公布的数据来看,北京2016平均工资8717元,智联招聘统计了2016年下半年互联网/电子商务、网络游戏、计算机软件、计算机硬件、IT服务、电子技术/半导体/集成电路等6个细分行业的企业招聘职位信息。

在2016年6月前,大数据的平均薪水为6K,之后,行业薪资水平显著提高,平均水平在15K,最低工资涨幅不大,在北京平均工资水平为8717元,行业内平均工资水平已达到甚至超越北京市人均工资水平。如图五所示:

 

技术分享

图五

 

  1年内对498份Hadoop开发工程师进行样本数据分析,月平均工资为19050元,月收入在1W~3W的员工占绝大比重,达到81.3%,其中在月收入在1W~1.5W之间占比19.5%,1.5W~2W之间占比29.7%,2W~3W占比32.1%。另外,工作经验是决定薪资水平的一大因素,我们可以看出,拥有的工作经验越丰富,往往可以得到比较高的薪酬。 如图六,图七,图八所示:

 

 

                                                                  技术分享                                                技术分享

图六 工资收入                                                                                 图七 按工作经验分

  

技术分享

图八 历年平均薪资

 

  数据挖掘工程师在北京的薪资待遇如图九,图十,图十一所示:

 

                                                                 技术分享                                                  技术分享

图九 工资收入                                                                                图十 按工作经验分

 

技术分享

图十一 历年平均薪资

 

  数据分析工程师在北京的薪资待遇如图十二,图十三,图十四所示:

 

                                                                 技术分享                                              技术分享

图十二 工资收入                                                                          图十三 按工作经验分

 

技术分享

图十四 历年平均薪资

 

  数据运维师在北京的薪资待遇如图十五,图十六,图十七所示:

 

                                                                 技术分享                                               技术分享

图十五 工资收入                                                                           图十六 按工作经验分

 

技术分享

图十七 历年平均薪资

 

  大数据工资竟然这么高,看得我蠢蠢欲动呢,那么大数据里都包含哪些理论呢?大数据的知识体系暂时分为5个部分:

  第一部分:java语言基础与Linux系统基础,包括java语言的面向对象编程,网络编程,Linux系统的基本命令操作和系统下shell脚本的使用。Linux系统对于编程而言,拥有开源,免费,稳定,安全,高效的优点。Java Web 大数据同系连枝,这造成了java语言成为和大数据平台交互的主流语言。

  第二部分:数据平台(Hadoop),数据存储,资源调度与监控集群资源。在Hadoop平台下,分布式文件系统HDFS来存储海量数据,分布式资源管理框架YARN管理集群资源和MapReduce、Spark应用的资源实现资源的调度监控。

  第三部分:数据处理,Spark框架。kafka(分布式高吞吐的轻量级消息系统,Storm(实时的、分布式以及具备高容错的计算系统)实时数据处理,Redis(高性能key-value)数据库,Spark(数据平台)的应用,内存计算框架Spark以及Impala查询。

  第四部分:数据挖掘、数据分析与机器学习。应用Python语言来实现常出库,网络爬虫,Solr集群,机器学习,Mahout技术学习

  第五部分:大数据运维,云计算平台管理。运维基础zookeeper框架,Docker引擎以及OpenStack云计算平台。

  这么多公司都在大量招收大数据专业人才,那么都有哪些成功的案例值得参考呢? 

  电子商务:淘宝网平台用户/商户行为分析。利用大数据技术,建立人群分布,尤其是以性别,年龄,工作,地域为主的成交量数据分布模型;建立类品分布,尤其是以食品,服饰,书籍,药品,数码,母婴,家居为主的成交量数据分布模型;通过海量数据进行分析计算资源整合,从而,及时有效调整公司战略方针,有效调整商业结构,做到对在不同城市,年龄段,工作的客户有针对性的区别对待,来进一步扩大平台的利润。如图十八,图十九所示:

 

                                                                 技术分享                               技术分享

图十八                                                                                 图十九

  

  零售业:沃尔玛连锁百货数据分析。在美国,沃尔玛通过数据关联规则发现一种类似草莓的水果在台风发生前后销售量相差7倍,通过数据挖掘确定了该水果在台风的影响下的销量关系,从而在之后的台风发生前期将所有该水果全部签出,有效的降低商场存货,提高商场的经济效益。如图二十所示:

 

技术分享

图二十 消费变化数据示意图

 

  航空:Farecast靠大数据预测机票价格。2003年,Oren Etzioni将要乘坐从西雅图到洛杉矶的飞机,他认为机票越早买越便宜,在飞机上,他好奇地问邻座的乘客花了多少钱购买机票。事实却是那个人的机票比他买得更晚,但是票价却比他便宜得多,于是,他又询问了另外几个乘客,结果发现大家买的票居然都比他的便宜,他非常气愤,他想要开发一款可以预测机票价格走势的软件,最终由此成立公司运营该软件。基于深度学习及数据挖掘技术,预测航班未来可能出现的低价,提前给出报价销售给消费者。2008年微软公司找上了他并以1.1亿美元的价格收购了Farecast公司。而后,这个系统被并入必应搜索引擎。被称为"一张机票成就了Farecast"。

  警务:利用大数据分析犯罪高发地点。洛杉矶警察局曾经借助一套原本用于预测地震后余震的大数据模型,把过去80年内的130万个犯罪记录数据输入进去,结果发现其预测出的犯罪高发地点与现实惊人的吻合。后来该预测算法经过改进,已经成为了当地警局重要的参考依据,大大降低了当地的犯罪率。如图二十一所示:

 

技术分享

图二十一

  

  不禁有人就有疑问了,既然大数据这么火爆,就像当年的O2O一样,所有人都想到里面分一杯羹,可是市场就这么大,到底有多少是炒作,大数据又能火多久呢?

  最近凯捷咨询和Informatica共同进行了一项和大数据相关的商业调查,调查人群包括在美国和欧洲的大型企业和其高管。分析结果发现:少于三分之一的大数据项目被认为是盈利的;剩下的45% 是持平12%是亏损,12%很难确定他们的大数据项目是盈利还是亏损(如图二十二)

 

技术分享

图二十二

 

 

  其实这些数据并不是那么让人惊讶, 凯捷全球大数据副总史蒂夫说"许多的大数据项目是为了解决技术学习曲线的目标(比如如果建立大数据集群)而进行,这些项目甚至于并没有考虑投资回报ROI"。也就是说一些大型企业目前在实施的大数据项目的目的是提高数据专家对大数据的理解,而不是提高投资回报ROI。

  虽说大数据上升到了国家战略层次,但回想到同为国家战略层次的互联网+下的O2O商业模式,还是要擦亮双眼慎重考虑。数据科学在多年前就被提上日程,早些年由于技术手段有限,面对庞大的数据,数据的价值不容易被挖掘出来,近些年技术和数据的双重积累极大地促进了大数据领域的发展。

  由此看来,大数据虽然火爆,但也是风险与机遇并存,小伙伴们,你们懂大数据了吗?

大数据,只看这个就够了