首页 > 代码库 > 阳宇宸:大数据分析及挖掘
阳宇宸:大数据分析及挖掘
大数据引领我们走向数据智能化时代
[WHAT]大数据
定义
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据时代的背景
20世纪90年代,数据仓库之父的Bill Inmon就经常提及Big Data。
2011年5月,在“云计算相遇大数据”为主题的EMC World 2011 会议中,EMC 抛出了Big Data概念。
半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。
全球每秒钟发送 290万封电子邮件,一分钟读一篇的话, 足够一个人昼夜不息的读5.5 年…
每天会有 2.88 万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3 年…
推特上每天发布5000万条消息,假设10 秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16 年…
每天亚马逊上将产生 630万笔订单…
每个月网民在Facebook 上要花费7000亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB…
Google 上每天需要处理24PB的数据…
这些由我们创造的信息背后产生的数据,早已经远远超越了目前人力所能处理的范畴,大数据时代正在来临…
大数据的6V1C特征(概述)
体量Volume
l 非结构化数据的超大规模和增长
l 占总数据量的80~90%
l 比结构化数据增长快10倍到50倍
l 是传统数据仓库的10倍到50倍
多样性Variety
l 大数据的异构和多样性
l 很多不同形式(文本、图像、视频、机器数据)
l 无模式或者模式不明显
l 不连贯的语法或句义
价值密度Value
l 大量的不相关信息
l 对未来趋势与模式的可预测分析
l 深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)
速度Velocity
l 实时分析而非批量式分析
l 数据输入、处理与丢弃
l 立竿见影而非事后见效
可变性Variability
l 妨碍了处理和有效地管理数据的过程
真实性Veracity
l 数据的质量
复杂性Complexity
l 数据量巨大,来源多渠道
大数据的6V1C特征(详述)
体量Volume
PB是大数据層次的临界点
KB->MB->GB->TB->PB->EB->ZB->YB->NB->DB
指数型增长的海量数据
所有研究都表明,未来数年数据量会呈现指数增长。根据麦肯锡全球研究院(MGI)估计,全球企业2010年在硬盘上存储了超过7EB(1EB等于10亿GB)的新数据,而消费者在PC和笔记本等设备上存储了超过6EB新数据。1EB数据相当于美国国会图书馆中存储的数据的4000多倍。事实上,我们如今产生如此多的数据,以至于根本不可能全部存储下来。例如,医疗卫生提供商会处理掉他们所产生的90%的数据(比如手术过程中产生的几乎所有实时视频图像)。
复杂性Complexity
大数据不仅仅是“大”
比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值
多大?PB级
价值密度Value
挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息
价值密度低,是大数据的一个典型特征
2010年海地地震,海地人散落在全国各地,援助人员为弄清该去哪里援助手忙脚乱。传统上,他们只能通过飞往灾区上空来查找需要援助的人群。一些研究人员采取了一种不同的做法:他们开始跟踪海地人所持手机内部的SIM卡,由此判断出手机持有人所处的位置和行动方向。正如一份联合国(UN)报告所述,此举帮助他们准确地分析出了逾60万名海地人逃离太子港之后的目的地。后来,当海地爆发霍乱疫情时,研究人员再次通过追踪SIM卡把药品投放到正确的地点,阻止了疫情的蔓延。
多样性Variety
企业内部的经营交易信息、物联网世界中商品、物流信息、互联网世界中人与人交互信息、位置信息等是大数据的主要来源。文本/图片/视频等非结构化/半结构化数据能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一。语义分析技术、图文转换技术、模式识别技术、地理信息技术等,都会在大数据分析时获得应用。相对于结构化数据而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。
速度Velocity
1s 是临界点
对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的。实时处理的要求,是区别大数据引用和传统数据仓库技术,BI(商业智能)技术的关键差别之一。
[WHAT]大数据
大数据的构成
大数据包括交易数据和交互数据集在内的所有数据集
大数据 = 海量数据 + 复杂类型的数据
海量交易数据
企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。
海量交互数据
源于各种网络和社交媒体。它包括了呼叫详细记录、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输协议传送的海量图像文件、Web文本和点击流数据、评价数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。
[WHY]大数据分析及挖掘
未来已来
大数据作为时下最火热的IT词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等围绕大数据商业价值的利用逐渐成为行业人士争相追捧的利润焦点。随着大数据时代的来临,大数据分析也应运而生。
数据的资源化
大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。因而,企业必须要提前制定大数据营销战略计划,抢占市场先机。
与云计算的深度结合
大数据离不开云处理,云处理为大数据提供弹性可拓展的基础设备,是产生大数据的平台之一。物联网、移动互联网等新兴计算形态,也将一齐助力大数据革命,让大数据营销发挥出更大的影响力。
科学理论的突破
大数据的快速发展,随之兴起的数据挖掘、机器学习和人工智能等相关技术,将会改变数据世界里的很多算法和基础理论,实现科学技术上的突破。
数据科学和数据联盟的成立
基于数据这个基础平台,也将建立起跨领域的数据共享平台,数据共享将扩展到企业层面,并且成为未来产业的核心一环。
数据泄露泛滥
未来几年数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。在财富500强企业中,超过50%将会设置首席信息安全官。企业需要从新的角度来确保自身以及客户数据,所有数据在创建之初便需要获得安全保障。
数据管理成为核心竞争力
将数据管理作为企业核心竞争力,持续发展,战略性规划与运用数据资产,成为企业数据管理的核心。数据资产管理效率与主营业务收入增长率、销售收入增长率显著正相关。
数据质量是BI(商业智能)成功的关键
采用自助式商业智能工具进行大数据处理的企业将会脱颖而出。其中,很多数据源会带来大量低质量数据。企业需要理解原始数据与数据分析之间的差距,从而消除低质量数据并通过BI获得更佳决策。
数据生态系统复合化程度加强
系统内部角色的细分导致市场细分,系统机制调整(商业模式创新), 系统结构调整(竞争环境调整),使得数据生态系统复合化程度逐渐增强。
价值所在
阿里巴巴创办人马云来台演讲中就提到,“未来的时代将不是IT时代,而是DT的时代,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。”大数据赋予我们洞察未来的能力--马云成功预测2008 年经济危机。2008 年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货,出去以后再获得数据;我们提前半年时间从询盘上推断出世界贸易发生变化了。”通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值,综合各个维度的数据可建立用户行为模型。数据样本巨大,保证了用户行为模型的准确性。人类从依靠自身判断做决定到依靠数据做决定的转变,也是大数据作出的最大贡献之一。——《大数据时代》
对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。大数据的价值体现在以下几个方面:
对大量消费者提供产品或服务的企业,可以利用大数据进行精准营销
做小而美模式的中小微企业,可以利用大数据做服务转型
面临互联网压力之下必须转型的传统企业,需要与时俱进,充分利用好大数据的价值
企业组织利用相关数据和分析可以帮助它们降低成本、提高效率、开发新产品、做出更明智的业务决策等等。通过结合大数据和高性能的分析,下面这些对企业有益的情况都可能会发生:
及时解析故障、问题和缺陷的根源,每年可能为企业节省数十亿美元。
为成千上万的快递车辆规划实时交通路线,躲避拥堵。
分析所有库存量信息,以利润最大化为目标来定价和清理库存。
根据客户的购买习惯,为其推送他可能感兴趣的优惠信息。
从大量客户中快速识别出金牌客户。
使用点击流分析和数据挖掘来规避欺诈行为。
面临挑战
诸多领域的问题亟待解决,最重要的是每个人的信息都被互联网所记录和保留了下来,并且进行加工和利用,为人所用,而这正是我们所担忧的信息安全隐患!更多的隐私、安全性问题:我们的隐私被二次利用了。
多少密码和账号是因为“社交网络”流出去的?
2011年4月索尼的系统漏洞导致7700万用户资料失窃
2011年4月,iOS被发现会按照时间顺序记录用户的位置坐标信息
2011年CSDN密码泄露事件
[HOW]大数据分析及挖掘
执行策略
大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:企业中80%的数据都是非结构化数据, 这些数据每年都按指数增长60%。要系统的认知大数据,必须要全面细致的分解:
第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。
第二层面是技术,技术是大数据价值体现的手段和前进的基石。从云计算、分布式处理技术、存储技术和感知技术发展来说明大数据从采集、处理、存储到形成结果的整个过程。
第三层面是实践,实践是大数据的最终价值体现。
常规方法(商用数据分析工具)
国外的有Style Intelligence、RapidMiner Radoop、Cognos, BO, Microsoft Power BI, Oracle,Microstrategy,QlikView、 Tableau 。
国内的有BDP,国云数据(大数据魔镜),思迈特,FineBI等。
大数据分析与挖掘有机结合,才能获取真正有价值的数据财富!数据分析是一门复杂的科学,更是是一门艺术。同样的数据会有不同解读,优秀和平庸的差异,有时候差在一种灵感。所有的分析要从结果出发,没有结论的数字罗列并不是分析。对结果负责,发现问题后立即解决问题。
营运规划
绩效分析与管理
投资与决策分析
营运规划
寻找未来企业的“成长引擎”
确定企业发展的阻力
为长期规划和短期规划制定“growing map - 发展线路图”
好的决策以数据为本,而不是靠拍脑袋和闭门造车!从数据中了解和发现客户:他们的类型,需求,行踪,习惯,趋势等等,为开发有价值的产品和服务提供源泉。让数据来衡量产品和运营的效果,找到改进和完善的方案数据分析为战略决策提供支持和建议。
绩效分析与管理
量化的KPI
报表管理和设计
单一的KPI管理 vs 全面的KPI 管理 (BSC)
静态的 vs 动态的
只考虑成果的 vs 综合考虑成果和成本的
无计划/预测/控制的管理和有计划/预测/控制的管理
无预警机制的管理和有预警机制的管理
递进的过程
投资与决策分析
Marketing:新产品,新生产线的盈利预测,广告的成本-效益的分析,盈亏平衡点的分析
Operation:提高劳动生产率的敏感度分析
其他:买还是租
Step1: 问有效的问题
检验1- 复杂性检验,问题是否直接并相关
检验2- 有用性检验,这个问题的答案是否对分析有帮助
检验3- 可行性性检验,你收集的数据是否真 的能帮助你解答问题
Step2: 建立一些假设
复杂的问题通常有很多潜在的答案
没有强有力的假设,你会浪费很多时间并没有证明任何东西
正确的假设决定你收集怎样的数据并如何看待他们
Step3: 取得有效的数据
一致性
例如:阿里中供免费会员曝光数据只有从08年7月开始有,无法分析08年4月产品默认搜索实现后对中供、ITP及免费会员曝光资源分配影响
精确度
数据不能准确量化:例如销售人员的销售技巧数据的取得很困难:例如客户的数据如成交
时效性
例如:联合国关于各国经济和中小企业数据基本是2年前的清楚各项数据的最合适来源,明白各项数据的局限性和可能潜在的错误。
Step4: 分解原因
为何要分解原因
一个问题往往有潜在的多个答案,如果不将多种因素分解, 单独分析,无法了解哪个才是真正的直接相关因素。
分解的原则--直接不交集
直接因素:因素和结果之间没有其他可能的间接关系
例如:最近的周末都下雨,最近的雨天我们的PV 就下降,所以雨天是PV 下降的原因。失败的原因:雨天和PV 之间有周末这个因素,周末是PV 下降的原因。
如何分析被分解的原因 (KISS原则)
问一问:每个原因是否已经互不相交?
问一问:每个原因是否是直接的,是否是其他原因的衍生产物?
孤立一个因素,将有无此因素的两个结果进行比较
例如:将某段到期中供中,按其是否在该段期间内有无购买广告分群,再按这两群人体的续签率进行对比,可了解广告对中供续签率的影响。
Step5: KISS 原则
“开关” 工具
影响前 vs 影响后
有影响 vs 无影响
“XY” 工具
X – 影响因素
Y – 产生结果
“开关”工具 – 案例
问题: 哪些是影响续签率的重要因素?
假设: 订阅Trade Alert能增加买家机会,从而可能会影响效果和续签率
简单的分析方法:“有/无”订阅、群体的续签率是否存在差
N 无订阅
Y 有订阅
新签合同续签率
续签合同续签率
“XY”工具 – 案例
问题: 哪些是影响中供获得曝光机会的主要原因?
假设: 产品覆盖面广应该是影响曝光的重要因素
简单的分析方法: 带来曝光的买家搜过关键词数(代表产品覆盖面)与产品曝光次数的“XY”分析
Step 6: 验证假设和结果的关系
分析结果在逻辑上是否合理?
是否有明显的逻辑错误?
征询前线同事的直接感受是否与分析结果相符?
一些违反直觉的结果往往代表一定有什么东西你没有考虑到。
什么东西是你的老板肯定会问的?
假设他的问题,准备好你的答案
特殊方法
基本数据的分析及挖掘
比较分析
对比参照数据,追踪差异原因;预测,去年同期,上期都可以是参照数据。
趋势分析(最常用的报表手段)
因素分析
企业营销数据反馈数与哪些因素相关? 自身活跃度? 排名?广告?产品数量? 某些工具:相关系数等。
比率分析
常用的财务上的比率分析有:资产负债率;人力资源管理上经常用的是:人员周转率,离职率等
组成分析法
将某一数据拆分,研究其组成,如:国家组成分析、行业组成分析
内部数据和外部数据的比较分析
企业与竞争对手付费产品性价比分析
层层筛选法
适用于选择目标市场和目标群体
对多种影响因素按其重要程度进行一定组合,先按第一组合选择出较大范围目标 对象,再按第二组合对第一组合筛选出来的对象进一步缩小范围,以此类推,得 出最终目标对象
复杂数据的分析及挖掘
数据挖掘方法(Data Mining)
定义:从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
优势:可处理海量数据、可分析N种影响因素对结果的影响程度、可根据历史来预测未来。
1. 模型Clementine流截图
数据挖掘神经网络分析法
2. 神经网络关键字段
数据挖掘神经网络分析法
实操演示
百度站长平台入口: http://zhanzhang.baidu.com/
百度网站统计入口: http://tongji.baidu.com/web/welcome/login
百度移动统计入口: http://mtj.baidu.com/web/welcome/login
百度风云榜入口: http://top.baidu.com/
百度指数入口: http://index.baidu.com/
百度舆情入口: http://sinan.baidu.com/web/welcome/login
微信指数入口:微信移动端搜索关键字“微信指数”
没有对业务的熟悉和理解,无法做出优秀的数据分析!
阳宇宸:大数据分析及挖掘