首页 > 代码库 > 大数据三特点的理解
大数据三特点的理解
写这篇文章始于对维克托前辈《大数据时代》的理解与思考,大数据的浪潮已经一波一波地拍打在中国的土地上,各行各业都在积极的探索与这一技术的接轨 和发展的机遇,所以能够见证并亲历这一个变革技术的时代我们这一代是幸运的。之所以说大数据时代是一次变革,不光是其技术进步所带来的,其伴随的思维冲击 与变革也是前所未有的。这些对于大数据时代到来的赞美之词,在追捧大数据的人群中可以说是声音此起彼伏,溢于言表。但是根据我身临其境的观察发现人群中的 声音有不乏少数的嘈杂与偏颇,所以想写一篇文章来表述自己的理解以及和网友前辈们进行相关的交流。
维克托前辈在《大数据时代》中提出了大数据所具有的三个特点:
- 数据更多:不是随机样本,而是全体数据。
- 数据更杂:不是精确性,而是混杂性。
- 数据关系:不是因果关系,而是相关关系。
以下分别简述我对其的理解。
一、数据要全体不是样本
大数据的大是指所研究的数据集是数据的全体,而非随机采样得到的样本。可是大部分人会惯性地认为大数据的大就是比现有的数据更多更大的一个绝对量, 而不会有数据全体的概念,也就是说如果我们研究的数据全体只有MB的数量级,那么我们的研究也是大数据范畴。这一惯性的认为始于以前小数据时代的采样统计 学分析的延续,彼时的统计学家们证明出:采样分析的精确性随着采样随机性的增加而大幅度提高。但与样本数量的增加关系不大,也就是当样本的数量达到某个值 之后,从新个体身上得到的信息会越来越少。这一特性弥补了我们当时无法获取和处理更多数据的缺陷,但是在我们的心底,对于获得更多更精确数据的愿望是不曾 黯淡过的。
历史不足一百年的统计抽样分析被习惯看作是文明得以建立的基石之一,就像几何学定理和万有引力定律一样。但是这无法掩盖它因时代技术落后无法采集、 存储、处理、分析总体数据,而采取以小见大这种捷径所造成的固有缺陷:1、由于随机性无法真正做到,对于问题的子类别情况的考察就很困难;2、无法发现采 样过程中所缺失掉部分的信息。
大数据的这一特性所告诉我们的就是要关注全体数据,我们不能满足于正态分布一般中庸平凡的现象,生活中真正经常隐匿在细节之中,而采样分析法却无法捕捉到这些细节。
二、接受混杂的数据
当我们的视野从样本扩大到总体的时候,所涉及的数据必然或多或少的加入一些在原来的标准看来是错误的数据。对于这一点我想说明的是,错误的存在像任 何事物一样必然有其存在的理由,极度地追求精确性无异于对真理的刻意逃避。这个理由对于大数据来说应该包含两点:数据的广泛性和采样的高频性。对于数据的 广泛性,开尔文说过“测量就是认知”,认知就是从不懂到懂的过程,这个过程应当是连续的而非跳跃。约束的条件越多越细越好理解,但随着认知的加深,我们会 去除或修改一些约束条件,使得问题所包含的可能性更加广泛,不可避免会出现一些相背于之前约束的现象存在,也就是混在。对于采样的高频特性,其会弥补之前 间隙性少量数据所丢失的某些未知信息。概括一句话就是:大道不分好坏,存在皆有理由。
大数据基础上的简单算法比小数据基础上的复杂算法更加有效
三、相关关系超越因果关系
- 以往难于通过因果关系去推断的许多事情,都可以通过去寻找相关性来进行预测。
- 但是追求确切因果性的行为不会消失,大数据的预测会作为这种行为的指路灯来看待,因为对待问题的因果思路所建立的假设会容易因偏见而产生错误,如果通过相关关系建立的因果命题却可以作为实证主义的探究方向。这或许会成为一种社会科技进步的模式,两种关系两相补充相互促进。
- 据此也会产生一些困惑,相关关系对因果关系是有帮助,但在科技发展速度如此之快的今天,我们知道了“是什么”后,“为什么”还很重要么?这所引起的时代过渡会不会造成一个理论的断层,进而使得人们抛弃理论的重要性?
- 我觉得第三点提出的疑问是否定的,因为对研究结果的解读需要使用理论的支持。
总结:对于大数据这三个特点的捕捉我觉得维克托前辈是很准确的,但这篇文章所提的一些解读都是我的一些愚见,希望得到大家的批评、指正和交流。