首页 > 代码库 > 谈谈企业的数据工作!——企业的数据分析能力金字塔

谈谈企业的数据工作!——企业的数据分析能力金字塔

写在前面笔者写这篇文章的初衷源于两个故事:
故事一:一位在互联网行业做数据库架构多年的同事一起吃饭,问起我现在在说什么,我说自己在做医疗方面数据分析,同事笑,说:你有很多资源啊,只要你能拿到电子病例的数据,就能分析很多东西了……我脸上的微笑表情瞬间僵化!
故事二:当时为内蒙一个企业做上游原材料供应商的数据管理项目,当时我们拿到的只是该企业小部分供应商的数据,下一阶段计划拿到其全国供应商的相关数据给该企业进行管理支持。有一天,我们的项目负责人很兴奋,高兴地对我说:后面我们拿到所有供应商的数据后,我们做的就是“真正的大数据”了,你要考虑一下后面的大数据分析如何做啊……我脸上的微笑再一次僵化!
大家觉得以上两个故事如何?我当时内心是有一万头羊驼奔腾而过的~~写这篇文章的目的很简单,就是希望向不了解数据分析体系建设的朋友们解释一下:数据分析到底都包括些什么?从完成数据采集到做出数据产品,到底有多远的路程要走?笔者在工作的过程中碰到过很多企业老板、客户以及领导,他们对数据分析的理解之浅薄,让我觉得难以置信。和他们交流之后的感触,促使我写了这篇文章。1. 数据分析本身是一个过程数据分析是企业的一种能力;数据分析本身是一个过程;数据分析的本质是一种思想。数据分析是一个过程——企业利用这一过程将数据中的信息提取出来,进行处理、识别、加工、呈现,最后成为指导企业经营管理的知识和智慧。因而,企业利用这一过程的成熟程度,决定了企业使用数据的有效程度。影响这一过程的因素有四个:(如果有不同意见,还请大家补充)1、 技术和方法:我们的信息采集技术、数据库架构、数据处理技术、算法、可视化等都会在很大程度上对这一过程产生根本性的限制或改变,这就是为什么分布式存储、运算等技术成熟后,大数据这一概念被热捧的一个原因;2、 数据的应用:更准确的说数据应用在一个企业、一个行业甚至全社会中被理解的程度有多深、使用范围有多广,决定了你的数据影响力能够达到的程度;3、 商务模式:这是一个当数据能力在市场中体现时才会发挥作用的因素,好的商务模式可以为行业内、跨行业的数据应用、数据产品提供好的商业环境,帮助其成长;而坏的商务模式也可能毁掉一个好的数据产品;4、 制度和规则:制度和规则既有国家层面的,例如数据安全保障方面的法规;也有行规、企业内部制度等。这些制度和规则保障了数据能够被人们用在需要且正确的地方,而不是被滥用(某种程度上,制度和规则的缺失也是造成数据安全问题、行业数据标准混乱的主要原因)。

技术分享

在我看来,从拿到数据到将数据中的知识提炼成人类的智慧,这是一个很长的过程,有可能一年甚至几年(但是很多人把这个过程想得太短了)。首先,想要分析数据你要获取数据。获取数据这个过程如果是线上还相对容易,如果是线下就非常复杂,这也是为什么现在实体行业推进“互联网+”如此缓慢的一个原因。其次,得到数据之后,如何整理才能让数据变成信息,也是个“技术活”。这里涉及到数据的清洗、整理、关联等等问题,最麻烦的还不是做这些工作,而是随着我们对数据认识的加深,这些工作总是不定时地就要返工修缮一遍——这也是没有办法的事情!再次,数据整理得到的信息是海量的,需要经过加工、提取、抽象等操作,提炼成为各项知识被人脑理解、吸收。这个过程就涉及到各种分析方法的使用,而且这也是个随着对业务认识的加深而逐渐复杂的过程,金融领域的风控模型、宏观经济领域的福利模型等等,都是发展多年并逐步演进的例子。最后,人们在各个业务领域通过数据得到知识,在很多情况下可以重复应用在不同的领域,并与其他领域的知识相融合,形成新的生产生活方式。每个领域的知识内容如何相互融合,也是一个需要长期实践和探索的过程,“产品”这一概念从诞生到现在的发展过程,就是一个很好的例子。我把上述过程做了一个简单的比喻帮助大家理解:采集到的原始数据就像是一个一个的沙砾,在没有任何整合的情况下都是“一堆一堆的”;数据处理的过程就是把沙堆中的杂质去掉,把每种颜色的沙砾区分开,再通过不同的工艺使其成为不同的砖块;每个砖块在建造数据大厦的过程中都有不同的用处,我们会按照图纸(就是数据分析体系)将不同的砖块用在适当的建筑位置上;数据大厦构建完成后,每个房间里面要完成的工作都各不相同,到底如何运用,就要看大厦使用者的安排了~~那么,我们就来看看企业到底要做些什么,才能完成从数据采集到智慧积累的这一过程。2. 企业的数据能力层级个人认为,企业的数据分析能力层级大概可以分为七级(这里列出七个能力层级是强调底层基础数据采集的意思):基础IT系统的搭建、数据集中与标准化处理、数据报表及可视化的实现、日常产品和运营分析、精细化运营管理的实现、数据产品的输出和变现、数据战略的形成。个人水平有限,最后的数据战略从没接触过,所以这里不做阐述。

技术分享

可能有同行会对这个金字塔的层级不认同,而且大部分专家也认为这几个部分是平级关系,不存在高低关系……我这里这样列出来只是为了说明“要做到每个层级的水平,该层级以下的内容都是支撑这些层级的必要条件”而已,实际中的确是存在诸如“数据产品已经完成上线,但是数据可视化还停留在需要人工完成报表的阶段”这样的情况。(在互联网行业中,往往数据产品是最先出现的,而后才产生数据采集及后续内容,因为有了产品之后才会有业务流程;但是在实体行业中,线下业务流程是已有的,不需要等数据产品产生后才有业务流程,所以二者的数据分析构建过程完全不同。我这里对互联网产品领域不做考虑。)下面我们就来详细说说每个层级的具体内容。2.1. 基础IT系统最底层的”基础IT系统”是一切数据分析的基础,因为它最重要的作用就是完成“数据采集”。“基础IT系统”,这里主要指的就是我们各个企业在实际生产中使用的软件系统及其配套的硬件设备,如:网络世界中的一串串抓取代码,真实世界中的诸如医院里的医学影像设备和其他传感器、探测器,财务使用的财务管理软件等等,这些系统解决了我们口中的“数据采集”问题,正是因为有了这些基础的IT系统(包括软件和硬件),我们才能将生活中的所有一切数字化、可度量~~

解决了最基本的“数据采集”问题之后,是不是意味这我们就有数据了呢?NO!从数据采集系统中拿到的信息有这样几个特点:割裂的、碎片化的、无序的,它们必须经过处理之后才能用于使用,因而我们需要进入到下一个阶段“数据集中与标准化”。2.2. 数据集中与标准化在“数据集中与标准化”这一层级中,我们要实现的是数据的集中管理与相互融合,打破数据壁垒,让数据能够正常地在企业内流动。如果把数据比作企业运营的血液,那么我们要做的就是打通所有的血管,让血液自由地流动。因而,这一阶段的工作并不只是“数据集中”和“数据标准化”两件事情,需要做的内容大概包括:(如有缺少的部分还请大家补充)1、 数据清理:这个步骤解决的问题是将系统采集到的内容转化为人类能够理解的数据内容,主要有两个方面:一是清理原始数据,使之完整、干净无杂质;二是将采集到的一些编码信息转化为人能看懂的文字、数字等数据。2、 数据逻辑和数据结构的搭建:每个系统中的数据描述的都只是企业业务流程中的一部分,因此梳理业务流程,按照业务流程找到各个系统之间数据的衔接点,从而实现多领域数据的关联。第一步,根据业务逻辑,需要将数据分别划分为多少类?每一类的字段、纬度、统计周期等都是什么样的?每一类数据需要多少层汇总?……这些问题首先将数据从采集的清单分离出来,成为一个个数据体系;第二步,在考虑数据关联逻辑方面,需要考虑三个方面:1) 关联使用的“主键”需要在各个系统中实现统一,即在各个相关的系统中,对于同一内容的同一主键是相同的,例如:在电信系统中,用户ID是个在所有相关系统中可以唯一标识用户的主键,而非手机号码;2) 各个系统中数据的时间颗粒度统一才能保证主键关联的有效使用,例如表格A是每日最新数据,表格B是每日数据,则使用时就要在时间上进行限制:表格A中的日期=表格B中最大日期,而且这种情况下,要想查询A表中的历史数据就无法查到;3) 各类数据在业务上存在相互制约、相互影响的关系,这种关系也要在多系统的数据关联中体现出来,例如营销活动中的活动商品数量受到库存商品数量的限制,在营销活动执行过程中,每增加一单活动商品销售量,库存商品数就要进行相应的减少,若不做相应的触发变更,多系统数据融合也会意义大减。

技术分享

这里我要特别强调一下数据关联的意义。在行业内,我们经常把每一个包含了大量数据、却又与其他系统无任何连通的数据系统称之为“数据孤岛”。在多数实体行业中,一个企业内部也不同程度地存在数据孤岛问题。有些数据孤岛本身因为包含的数据内容较多,足以支撑一定的数据分析应用的建设;但是有些数据孤岛中的数据若想发挥价值,就必须实现与其他系统数据的有效融合使用,即数据关联。2.3. 数据报表与可视化解决了数据关联和标准化的问题之后,我们下一步要解决的问题是:如何能让大家看到数据?最简单直接的方法是“数据报表”。对,就是按照日常业务使用习惯,构建各种表格,在表格中填写大量的数据。有的企业是手工制作报表,有的企业使用IT工具制作报表,有的企业则进入到了数据可视化的阶段,什么方式实现的不重要,重要的是将数据报表做出来呈现给用户进行使用。数据可视化是随着数据图形化展现技术发展起来的,它的功能不仅仅是展示数据,它还将很多数据分析的方法、维度、样式与基础数据相结合,以更加形象和贴近业务应用场景的方式向用户展示数据要表达的内容或问题。要实现数据可视化,不是只有可视化工具就可以了,这背后也要求使用者对需要数据展示的业务逻辑、图形效果等内容有深入的理解。

技术分享

从“基础IT系统”到“数据报表及可视化”,前三个层级从某些方面而言,都是完成数据分析和数据应用工作的基础。对于一个企业来说,完成这三个层级的方式可以是手工形式的,也可以是本地系统化的,更可以是云端化的,但是无论如何只有在一定程度上具备了上述三个层级的能力,才能说企业具有了使用数据指导运营、决策、管理等进行数据应用的基础。2.4. 产品与运营分析在我的理解中,所有的分析都是从日常的产品和运营分析开始的。这一层级的主要作用有三个:1、解决日常运营和监控需求;2、深入分析用户、市场、产品;3、以分析结果指导产品和运营工作。下面我们分别解释:产品和运营分析,首先要满足的就是日常数据的监控:高了?低了?为什么高?为什么低?数据的变动能否说明我们的产品和运营在往好的方向变化?如果变化是好的,我们如何继续保持?如果是不好的,那是什么原因造成的?如何改正?——这些是日常数据监控过程中,业务人员最常问的一些问题,解决这些问题是日常分析报告最主要的工作。其次,当日常分析已经成为例行工作的一部分之后,企业的产品和业务人员就会发现简单的日常分析无法解释很多复杂的现象和问题,这就需要对用户、产品、渠道、市场、需求等等方面进行深入的分析和研究。在这个过程中,很多针对具体业务情况的分析专题和数据模型应运而生,这些专题和模型帮助企业更好地认识我们的市场,扑捉客户和潜在的商机。这其中最具代表性的例子就是“用户画像”(有关用户画像的内容网络上有很多文章,这里不再细说)。最后,根据日常分析和各种深入分析的结论,我们能知道诸如:这个营业厅发展的用户质量很差,需要核实这些用户行为的真实性;在XX环节中,耗费的人工工时较长,需要看看是改进该环节的人员配置还是存在其他问题……如此种种从数据中反映的问题,最后都会归结为各种管理、运营、营销等方面的问题。如何应用数据结论去解决问题,则需要依靠业务人员的经验了。

技术分享

2.5. 精细化运营在“产品和运营分析”层级中积累的分析思路和分析方法,大多是分散的、点状的。在“精细化运营”这一层级,所有的分析不再相互孤立,而是更多地以一个实际业务场景为基础,在该业务场景下从“如何感知识别”,到“如何筛选用户”,再到“如何营销配合”,从而实现该场景下全部过程的统筹管理。在这个过程中,数据分析不再只是分析报告、数据图表,它成为人们构建这个流程的一种贯穿始终的思想,流程中的每个环节都会有数据分析甚至数据挖掘的内容存在,以数据的结果驱动产品、渠道、投入资源等等内容的配合,共同构成该业务场景下的完整业务流程。当然,这一流程不能是靠手工来完成,一定是自动化的,人只是这一流程中起决策作用的节点而已。更有甚者,将多个业务场景下的数据驱动过程进行组合,就形成了诸如“用户生命周期管理”、“会员运营体系”这样的数据应用集合(我这里暂且把它们成为数据应用集合,其实这些内容每个都可以形成一个单独的数据应用产品)。如果企业中每个领域都能建设起来多个数据应用集合,那么这些集合就基本能够支撑其企业的主要运行管理工作。

技术分享

2.6. 数据产品数据产品在我看来不是企业数据能力建设最终要实现的目标,它只是企业将内部数据价值变现的众多方式中的一种。实体行业的数据产品很多时候是因为企业内部的数据能力成长到一定阶段,企业某些内部数据及分析方法已经具备了独立变现的条件,因而被企业单独拿出来作为一类产品提供到市场,从而形成我们所理解的数据产品。当然实体行业中出现的数据产品实例并不多(此观点仅是我的理解,如有异议欢迎大家沟通讨论)。

技术分享

按照我的理解,企业内部某一数据应用足够成熟的时候,便具备了与其纵向上下游产业链之间及横向市场中其他企业数据相互融合使用的可能。这种纵向、横向的合作可以有很多形式,诸如:以具体数据内容为形式的数据交易,以体系化的分析方法为形式的分析工具,以产业内数据共享为形式的数据联盟等等,甚至当企业数据逐渐得到行业和市场的认可后,跨行业的数据产品交易和数据合作也是可以预见的。
个人认为,无论哪种产品形式,都必然离不开适当的商务模式,而必要的商务模式也是保证数据市场安全、高效运转的必备条件。
写在最后
笔者接触的很多实体行业中的企业,有些可能刚刚完成数据采集和数据中心的建设工作,有些则连数据采集问题都没有解决,层次各有不同。但是在接触这些公司的企业负责人时,每个人都雄心勃勃地说自己的企业要在未来的一两年内做出数据产品,完成数据价值的变现~~而当问到:您知不知道从贵公司现在的数据情况做到数据产品,需要走过多少阶段从而支撑您做成数据产品吗?对方的回答也出奇地相似:所以我们需要找一个懂这方面的人来啊……!
这就是我写这篇文章的初衷~~

本文摘自博客园:http://www.cnblogs.com/lindsshun/p/6836765.html


谈谈企业的数据工作!——企业的数据分析能力金字塔