首页 > 代码库 > 阿里怎么“玩”大数据?
阿里怎么“玩”大数据?
当大数据开启一个时代时,拥有海量交易数据的阿里巴巴,已经认识到这是一座富矿,并开始摸着石头过河。
500多年前哥伦布做环球航行时,最想得到的就是航海地图,要不然他不会把美洲大陆当成印度。
当大数据开启一个时代时,阿里巴巴集团(下称阿里)从海量交易数据中挖掘有价值的数据,犹如在大海中航行,马云的鸿鹄之志也是那张航海地图。只是哥伦布的目的地是印度,马云的目标是大数据。
马云宣称平台、金融和数据是阿里未来的三大战略方向。其实,“阿里未来本质上是一个数据公司”,电商越来越离不开数据,金融的核心也是数据。阿里设立首席数据官,并把首席数据官陆兆禧升任CEO,传闻将收购移动APP数据公司友盟等,这些都显示马云的大数据战略萌动生芽。
在几乎全球所有公司都还徘徊在大数据门前时,马云纵然有大数据的宏韬伟略,在具体操作层面也只能摸着石头过河。
完成25个事业部战略调整后,阿里巴巴成立了数据委员会,由淘宝网商业智能部负责人车品觉出任首任会长。这位曾经在微软、ebay出任产品经理,在支付宝、淘宝主管数据业务的香港人,大半生都痴迷于数据迷宫。
“我之所以来淘宝就是喜欢它的数据,就希望好好梳理下数据。”车品觉谈到数据时异常兴奋,在接受《中国经济和信息化》记者3个小时采访后,他还要给同事做有关大数据的培训。此时,已经是晚上10点多。
车品觉是马云大数据战略棋局中已经过了河的卒子,他肩负着为阿里寻找开启大数据之门钥匙的重任。马云给了他异常宽松的工作环境,甚至没有具体的KPI考核。在接受《中国经济和信息化》记者采访时,他对所谓大数据赢利模式之类的问题并不看重:“阿里跟别人不一样的地方就是愿意尝试不同的产品,连领导都不能控制手下人到底玩什么。一帮很爱数据的人玩一堆产品出来,偶尔能出现如阿里金融这样的产品就很好,允许他们玩就是允许差异化,做数据如果急于现在赚钱就会失去机会。”
“玩数据”其实并没有这么简单,特别是车品觉出任阿里数据委员会的安全责任人之后,他每时每刻都处在忐忑不安中。他认为,今后一段时间,数据质量、数据安全以及数据化运营将是阿里必须翻越的三座“大山”。
从“淘数据”起步
2003年的淘宝还是个“小朋友”,一个不起眼的购物平台,远不如当时的易趣(eBay)名气大,甚至还有人预言淘宝会在18个月内夭折。
18个月后,淘宝让预言夭折了,淘宝交易量几乎呈指数增长,在2006年上半年注册用户数超过了易趣。从某种程度上看,易趣的存在是淘宝数据业务起步的外部动力。为了与易趣的销售额对比,淘宝开始搜集每天的成交额、用户访问数等数据,从起步就增强了对数据的粘性。
淘宝严格意义上的第一个数据产品是“淘数据”,说白了这就是一个经营数据报表。“每个公司都需要了解经营业务状况,淘宝业务大了也需要看经营状况做未来决策,‘淘数据’就是为内部报表服务的一个工具,大约是淘宝成立两年后的2005年开发的。”淘宝商业智能部一名元老级数据分析师告诉《中国经济和信息化》记者。
这一年,淘宝迎来第一个数据分析师。半年后,淘宝建立第一批数据分析师队伍,并成立第一个数据部门——商业智能部(BI)。他们每天的工作就是把日成交额、访问用户数等数据统计之后放入报表,让淘宝决策层能够清楚了解业务状况。
此时的淘宝不再是一个卖家挂货、买家购物的购物平台,开始关注数据产生出来的意想不到的价值。当然,马云当时还不至于把数据提升到公司战略高度,但他敏锐地发现,“数据非常重要,未来的世界是数据的世界”。
外界广为流传这样一个故事:2008年,中国众多企业受国际金融危机重创,而阿里根据买家询盘数急剧下滑,及时向中小制造商提供预警信息,为应对国际金融危机做好准备。虽然车品觉把这次经济预警归结为偶然事件,但阿里确实在数据分析中尝到了甜头。
随着数据越来越多,原来的处理方式已不能进一步扩展,淘宝在用传统数据库方法处理数据问题时遇到了麻烦。
“我们早上9点上班要看数据,但传统数据处理技术很难在9点之前让所有人看到结果,数据处理的时间成本非常高。再这样发展下去,就扛不住了。”前述分析师告诉《中国经济和信息化》记者。
这一问题触发了淘宝第一次技术层面的架构变迁,把以Oracle为主的传统数据库迁到了大数据技术Hadoop数据库上,正式开启阿里的大数据实践应用。
两条腿走路
淘宝的数据视野并没有停留在公司内部决策上,2009年数据应用与开发开始走向外部,让淘宝商户分享数据。
在这一背景下,淘宝商业智能部的一部分人“被赶了出来”,开发淘宝商户能分享的数据产品。这是淘宝的一次大胆尝试,进行技术架构调整后,为挖掘更多有价值的数据腾挪出了空间,让数据变成产品为公司挣钱。当然,此时淘宝并不是从挣钱的角度开发数据产品,而是想整合数据为商户提供优质服务。
2010年3月,淘宝“数据魔方”产品正式对外发布。麦包包箱包在线商城是首先接触并尝到“数据魔方”甜头的商家。麦包包运营总监毕志鹏称:“在‘数据魔方’提供的数据支撑下,麦包包能及时准确把握市场动态,销售业绩迅速提升。”随着淘宝数据正式对外开放,越来越多商家、企业能分享淘宝的海量数据,并获得有价值的数据支撑。
几乎同时,淘宝内部对数据的渴求也日益强烈。商业智能部留下的团队继续为公司内部提供数据支撑。此时“淘数据”开始从单纯的报表系统扩展为内部数据产品的统称。2009年4月和12月,商业智能部团队又开发出可以预警的“KPI系统”和提供给业务部门使用的“数据门户”。一年后,为了配合淘宝的大促销活动,便于及时查看实时数据,这个团队又开发了“活动直播间”。为了让卖家更好地运营,2011年2月,“卖家云图”出世。2个月后,“页面点击”诞生,它可以监控每个页面的每个位置,用不同的数字和颜色标注出页面点击情况。
此时的车品觉在阿里已经拥有良好口碑,“要数据找品觉”成为惯例,很多管理层都习惯了车品觉提供的数据。
时任阿里首席人力资源官的彭蕾找到车品觉说:“马云觉得该考虑一下如何从数据运营转到运营数据了,你回去好好想想这个事情。”
“黄金策”是车品觉较为得意的一个能称得上运营的数据产品。车品觉带领团队处理了1亿多活跃的消费者数据后,拿出500个变量,只要2秒钟就能计算出结果。“黄金策”最早在支付宝成型,现在在与淘宝数据对接。
“支付宝发展大数据的目的,跟淘宝系有点偏差。支付宝更多是为内部服务,淘宝和天猫更多强调商业化。”车品觉如是说。2012年年中,车品觉来到了淘宝。时任淘宝网CEO的姜鹏邀请车品觉同时兼任淘宝商业智能部负责人,之后车品觉又成了阿里巴巴集团层面数据委员会的首任会长。
车品觉很看重淘宝的数据,因为淘宝数据更丰富,不仅有业务数据(交易行为数据),还有过程数据(如一个买家在某个页面上停留了多久等)。在他看来,淘宝的这些数据就是SNS关系数据,这种数据脉络看起来很像社会关系,并非一般B2C模式可以比较,这对他特别有吸引力,套用马云的话这叫做生态链。
来到淘宝后,车品觉相继开发了两款产品——“无量神针”和“类目360”。通过“无量神针”,淘宝的管理者可以辨别萌芽状态的可疑行为,迅速做出决策。而“类目360”则把淘宝的类目做得非常细,如果销售增长了10%,可以知道是哪一个类目,哪一部分用户对营收增长贡献大,能评估集团内部哪些人工作有效率,哪些部门不给力,让管理层2秒钟就知道如何决策。
之后,淘宝有了自己的“黄金策”,锁定用户群后,可以立即对这些用户进行针对性营销,营销后的效果又会回到“黄金策”上,形成一个闭环。
比车品觉团队开发“黄金策”稍晚,淘宝对外团队研发了“淘宝指数”,这是一款中国消费者行为数据的研究平台。无论是淘宝卖家还是媒体从业者、市场研究人员,都可以利用“淘宝指数”了解淘宝搜索热点、查询成交走势、定位消费人群、研究细分市场。
在这段时期,阿里一直在用两条腿走路,对外团队为外部服务,商业智能部服务于内部。
2012年阿里又推出了“聚石塔”产品,这是阿里首次联合全集团大数据力量打造的一款大数据商用产品,可提供数据存储、数据计算两类服务。
“聚石塔”平台没有辜负马云的期望。据天猫CEO张勇透露,“双11”狂欢节大促销当天,“聚石塔”处理的订单超过天猫总量的20%,比平时增长20倍。
“聚石塔”上的客户不仅包括淘宝上的商家,也包括淘宝外的电子商务企业。在淘宝和天猫平台上,有ERP系统(企业资源计划系统)的商家可以直接找天猫对接“聚石塔”,没有ERP系统的商家,可以找提供第三方软件服务的电子商务服务企业,通过他们的ERP服务接入“聚石塔”服务。
数据平台战略
大数据部门该放在运营团队还是技术团队?这是车品觉经常被其他公司询问的一句话。听到这个问题时,车品觉就觉得“这些人没戏了”,因为其实他们并不重视大数据战略。
在车品觉看来,一个企业如果真想做好大数据,大数据必须成为CEO直接领导的一级战略部门。如果数据部门想要在结构庞杂的企业内部提高地位,数据产品一定要刺激决策部门和业务部门,直至促使他们对前端的业务环节做出调整。
2013年1月,阿里调整为25个事业部,CEO陆兆禧分管的数据平台事业部团队正是“数据魔方”衍生出来的团队。而在数据平台事业部很得力的员工空无(淘宝员工的化名)就是当年做“数据魔方”走出来的人。
在数据战略架构上,阿里早在3年前就开始布局。2010年阿里推出一淘网,目标是做一家全网购物搜索引擎。2011年淘宝收购CNZZ网络技术服务公司,第二年CNZZ推出“云推荐”内容推荐引擎。淘宝联盟在今年重启“阿里妈妈”品牌名,从以服务淘宝系商家为主转为面向全网所有广告主。阿里与新浪微博仍在进一步谈判,近期传闻阿里将收购移动开发者服务平台友盟等。
早在阿里酝酿设立首席数据官岗位(CDO)前,马云就意识到数据产品要建在一个平台上才有更大的价值。2012年7月,阿里委任陆兆禧为首席数据官职务,负责全面推进阿里“数据分享平台”战略。
事实上,马云希望建立囊括所有与消费相关的数据平台,包括实体类商品消费数据、服务类商品消费数据、金融相关数据等,再以自己的数据平台为中心建立数据交易中心。也就是说,谁想获得数据,上这个平台来,要么用货币来换,要么用数据来换。
阿里金融是大数据衍生产品开发的一个范例,通过分析淘宝、天猫、支付宝、B2B上商家的各种数据,阿里打造了一个信贷工厂,为平台上的卖家提供小额信贷服务。
马云这步棋下得很准,小微企业的资金困境影响着企业的发展。目前,中国有近4200万家小微企业,在影响企业发展壮大的因素中,资金占96%,银行考虑到风险太大,很少向小微企业贷款。那么,阿里金融如何通过大数据规避风险呢?
除了容易标准化的交易数据外,非结构性数据也一并被录入到数据库中,类似卖家和买家的聊天记录、评价、店铺信用等。然后,阿里金融通过数学模型,对上述数据分析处理,就能自动确定贷款申请人的贷款限额。发放贷款以后,阿里通过实时监测贷款商家的交易、退货、评分等经营情况,能方便了解客户还款能力,一旦客户交易情况下滑,系统会自动发出预警。
这就是阿里金融打造的一个纯粹基于互联网信用小额信贷的平台。截至2012年底,阿里金融累计服务小微企业已经超过20万家。同年11月初,阿里金融的坏账率仅为0.9%,低于很多银行。
让爱数据的人玩起来
“今年你给我的绩效是什么?”
“你开心就好。”
这是阿里数据委员会成立后,车品觉和姜鹏的一次对话。不过,车品觉想开心并不容易。他的担心更多于开心。
车品觉的担心是有理由的。阿里数据委员会是一个虚拟的组织,虚拟如何管理实体?“有点打太极,四两拨千斤的感觉。”车品觉苦笑称。
2013年在香港特区过新年的时候,车品觉想方设法让自己尽量休息。他知道今年数据委员会的工作肯定会千头万绪,他要筹建数据挖掘工程师、分析师等协会,为大数据业务培养足够的人才。他告诉记者:“数据人才是最大的竞争力。我今天看大数据的时候,是如何让他们玩出来,而不是把人管理起来。”
在阿里的大数据团队中,有这样几批人:决策分析师、业务分析师、数据挖掘工程师、数据科学家、数据产品经理、数据开发师、基于数据的前端开发工程师、数据底层平台搭建师。车品觉的想法是让爱数据的人玩起来:“我们相信只要这样走下去,会有一帮懂数据的人玩出来。我们要找到出路,但是不一定现在就能明确看到出路。这也是为什么我们邀请数据科学家来,很多事情不能说今天就要效益,偶尔能产生阿里金融这样的产品就很好。”
车品觉对数据分析师的考核有自己的标准。每个月的最后一周,数据分析师都有一场考试。如果分析师的观点能在月度经营分析报告里出现,就说明这个分析师的分析有价值。如果在报告提交给管理层讨论的时候,某个分析师的观点能改变业务部门领导的看法,那就得到3.75分。更进一步,如果分析师的观点能让公司领导接受,并最终促进相关业务的调整,那就是4分。4分几乎是一般数据分析师能得到的最高分。
“数据的数据”
一次大数据会议讨论中,车品觉向姜鹏提了这样一个问题:做数据的人,为什么没有数据的数据呢?正是这次提问,淘宝开始着手建立“数据的数据”,即数据地图。“每一个数据都由很多个数据产生,数据的数据是让我们看见今天数据做得怎么样,建立数据地图,以追溯到数据的源头,提高数据的质量和价值。”车品觉说。
保障数据质量要在大数据源头获取方式上下功夫,从源头上保证数据的准确度。“就好比去挖掘一个信用卡持有人的消费记录,必须清楚这些消费行为是不是都来自持卡人,有没有可能部分是持卡人老婆去消费的?”车品觉表示,要尽可能保证数据的精确度,不然会导致数据质量失准。
大数据跟个人最为密切的关系是对隐私的可能侵入,数据安全是阿里大数据面前的第二座大山,也是第二大核心。“有些人不知道数据的危险性,但我们做数据的人深知其中的利害。数据安全得不到保障,早晚会出事。”车品觉说,为了数据安全,他在支付宝里可能得罪了不少人,“但个人隐私绝对不能泄露,这是底线”。
目前在阿里内部,淘宝系的淘宝、天猫和一淘,在数据上是共享的,B2B的数据则是独立的。支付宝有金融牌照,法律要求数据必须独立,如果集团某个部门需要一些数据,查看数据必须提出权限申请。
事实上,车品觉刚开始做安全的时候也失败过。那时候,他第一次建支付宝的安全架构,直接套用了银行的一套物联网安全架构,“我想定义所有数据的层,做完就进行不下去了。”在支付宝第二次做安全的时候,他采用case by case(案例法)这种方法,然后成功了。现在在淘宝,他也使用了案例法,慢慢积累安全经验。在他看来,安全是开放的前提,如果国家未来想到管理数据,现在阿里的经验将很有参考价值。
为了保证数据安全,车品觉的团队在研究用户行为时,框定的最低数据量是1000人用户群的购物行为,不能再少于这个人数,针对某个具体用户的数据分析是不允许的。车品觉说:“阿里对数据的挖掘处理有一套自律准则,包括后台数据的查看,一些明细是看不到的,这样封闭的目的在于维护用户的隐私,同时也防止数据滥用。”
阿里内部还专门成立了小组,数据的公开与否主要由他们进行判断。评判小组没有一个具体统一的标准,数据该不该公开、公开到什么程度,都以每个案例本身为依据。
到今天为止,数据委员会里的安全小组跟数据质量小组已经成立,相比年初时,车品觉的心沉下来一点了。“数据开放现在太早了,度很难把握。”车品觉说,在某种程度上,数据开放考验的是数据人的良心和经验。
阿里还在路上。车品觉和同事现在所走的路是一条很新的路,可参照的东西不多,从国外公司来看,拥有阿里这个数据量级的公司并不多。在大数据的路上,阿里需要做的还有很多。
阿里怎么“玩”大数据?