首页 > 代码库 > 大数据平台--没有数据的平台

大数据平台--没有数据的平台

  在某大型公司做大数据四年多,一直在大数据门口转悠,感觉自己从未迈进去过这个大门。

  数据清洗,降低二次开发成本,将传输的速度达到极致,同时做到不丢数据。说起来简单,但是放在四年前,从0做到1还是很不简单的。java、javascipt,tomcat,SSH,Hadoop,Mapreduce,spark,hive。。。。这些不断出现的工具,构建了一个能将各处的杂乱数据,最终汇总到一起的工具。

  曾经有个人看到我们的配置、调度、运行监控界面时,问了我一句:你们这个界面化配置和运维挺不错的,比Hadoop的强多了;我自己是不是弄几个开源软件组合一下,也可以玩出来?我将我知道的几个不错的开源都告诉他了,他完全可以自己去试试,花钱和不花钱的差距。

  但是,毕竟已经做了四年。虽然我们可以不断用新的底层引擎,虽然我们可以把界面不断的互联网化,虽然我们可以浏览器化。但是,为什么其他厂商不愿意做?因为投入产出比不高。而且,随着时间的推移,底层的开源软件,已经越来越简单。比如spark在小数据量的上的处理速度,以及提供的很多原生的数据转换接口等等,完全可以让其它团队来弯道超车。

  这一年,我要好好考虑下,放下那些学会的流程,那些熟悉的代码。重新学习一些新的框架,来看看自己这四年来,真正沉淀了哪些。

大数据平台--没有数据的平台