首页 > 代码库 > 大数据之我见
大数据之我见
现在大数据是个热词(buzzword),我也凑个热闹。现在前面不加个“大”字都不好意思说数据,大确实是大数据的特点之一。以前也有数据,为什么最近变大了呢?信息技术的发展,硬件的发展,网络技术的发展使海量数据的获取、存储、处理变得容易,所以数据变大了。”大“只是现在数据的一个特点,有mapreduce, hadoop, spark等工具来应对数据的大。 言必称hadoop等工具的人不见得真的懂数据分析,毕竟大数据之前我们也做数据分析,当时我们用采样的方法(Sample)。
数据分析需要三个方面的知识,IT技能、数学和领域知识。 IT技能包括前面提到的hadoop,mapreduce等新工具的使用,还包括数据库、SQL等旧工具的使用,相对来说我认为不是最关键的技术。数学方面知识包括概率论数理统计、线性代数等数学分支,这些反而是我认为相对更重要的,一个数据科学家可以不会用hadoop,mapreduce等工具,但这些数学知识必知必会。做数据分析,数据不是最重要的,我们想由数据回答什么问题更重要。领域知识是用来提这些问题的。分析电子商务的商品数据,分析生物信息学的蛋白质和基因,分析行为经济学,需要不同的领域知识。所以说大数据分析团队需要具备这三个方面能力的成员。
数据分析有描述(Descriptive Statistics),推论(Statistics Inference),应用等几个层面。描述相对简单,推论、预测和应用起来就难了。所以说宣称自己是大数据专家的人,还要看他处于哪个层面。
我觉得下面三句话对从事数据分析的人会很有用。
(1)相关不代表因果。
(2)洞察力比工具重要。
(3)问题比数据重要。
我看了微信公众号CSDN大数据、数据客、亲密数(qinmishu.org)上的几篇文章,还有霍普金斯大学关于数据科学的一门介绍性的公开课,归纳出上面的观点,自己对数据分析还是门外汉,目的是给自己绘个大的蓝图,而不是一开始就纠结到具体的工具上去。
大数据之我见