首页 > 代码库 > 基于大数据的线上线下电商用户数据挖掘研究
基于大数据的线上线下电商用户数据挖掘研究
From:http://www.thebigdata.cn/JieJueFangAn/11932p2.html
Online-to-Offline( 简称 O2O)电子商务模式,是一个连接线上用户和线下商家的多边平台商业模式。 O2O 商业模式将实体经济与线上资源融合在一起,使网络成为实体经济延伸到虚拟世界的渠道; 线下商业可以到线上挖掘和吸引客源,而消费者可以在线上筛选商品和服务并完成支付,再到实体店完成余下消费。 它最先由 TrialPay 创始人 AlexRampell提出,在 2006 年沃尔玛公司的 B2C 战略中予以应用,随后以网络团购形式为大家所熟知。 目前 O2O电子商务与社交网络和移动终端紧密结合,除网络团购之外,还出现了移动优惠、签到、个性推荐等基于位置的增值服务等商业形态; 从事 O2O 电商的企业更是数以万计,除了 Foursquare、大众点评网、拉手网等后起之秀外,还不乏 FaceBook、Twitter、腾讯和百度等业界巨鳄也在迅猛跟进; O2O 电商交易额也迅速放大,2011 年大众点评网营业额已破 10 亿元; 与交易猛增随之而来的是爆发式增长的 O2O 电商数据,大众点评网目前每天的活跃数据量已经超过10TB,共有 240 万商家信息和 5500 万活跃用户在上面活动,每天发表点评超过 80 万条,每日点评浏览量超过 4700 万人次。
用户数据的暴增与数据的社会化在很大程度上模糊了 O2O 电商企业数据的边界,这些由用户创造的海量数据远远超越了目前人力所能处理的范畴。庞大的数据量使得数据过载、数据冗余、数据捕获成本快速增长、数据价值不易获得成为O2O电子商务面临的新问题。 根据相关统计显示,如今世界已经进入到大数据时代,电子商务中用户数据每年增长约 60%,企业平均捕获其中的 25% ~ 30%,但数据的利用一般不足其 5%,用户数据作为O2O电商核心资源的商业价值远未被挖掘。 基于此,本文对“大数据”环境下 O2O 用户数据挖掘以及应用进行了分析。
1大数据环境下O2O电子商务用户数据特征分析相比传统的电子商务数据,O2O 用户数据并不仅仅局限于平台数据,即用户在 O2O 的交易数据,还包括了社交网络、用户移动终端的地理位置等数据。 也就是说,O2O电子商务用户数据为在 O2O 电商日常经营中产生和积累的与用户相关的交易、互动、观测数据。 O2O 用户数据具有大数据的特征。
( 1) 体量大。不少的O2O电商企业每日所产生的用户数据已经达到TB级。 在融入了社交网络和移动互联网的O2O电子商务中,O2O 用户数据已不仅仅是用户交易数据,它拥有更加广泛的数据源,其数据规模会从TB级跃升到PB甚至是EB级。未来企业会将更多的TB级数据应用于商务智能和商务分析。
( 2) 类型多。 O2O 用户数据类型复杂。 它并不仅限于 O2O 用户基本资料、用户消费记录、电商企业内部业务信息等海量的结构化和半结构化数据,还包括用户评论等反馈数据、用户 O2O 平台行为记录、移动终端数据和社交媒体等非结构数据。
( 3) 速率快。 O2O 模式对用户数据实时处理有着极高的要求: 用户数据伴随用户行为产生,这些数据往往是高速实时数据流,例如用户在线下商家的消费情况、用户的地理位置和移动方向等,而且O2O 业务周期短,这需要实时的分析用户数据并根据分析结果对用户进行个性化服务,通过传统的数据库查询方式得到的“当前结果”很可能已经没有价值。
( 4) 价值高。 O2O 用户数据有着巨大的商业价值。用户是 O2O 业务的核心,对用户进行预测分析与深度复杂分析,对 O2O 电商企业无疑有着重大的价值,但庞大而繁杂的不相关用户数据,这也决定了其价值密度低的特性。
2大数据环境下 O2O 电商用户数据挖掘流程与方法2.1 O2O 电商用户数据挖掘框架由于 O2O 电商用户数据的 4V大数据特征,电商企业并不能运用传统数据分析技术对其进行很好的利用。 传统数据分析与大数据挖掘都是从数据中提取有用信息、发现知识,是对数据进行深入分析和增值开发利用的过程,但是它们之间有着本质区别,主要体现在:
1) 两者分析的数据规模不同,传统数据分析处理的通常是存储在数据库或者文件中的数据,数据规模一般是 GB 级以下,而大数据挖掘中的数据规模一般是 PB 级甚至更大量级;
2) 两者分析的数据类型不同,传统数据分析主要针对静态的、结构化的数据,而大数据挖掘的对象不仅仅是结构化数据,还包括半结构化、非结构化数据,很多时候是以实时数据为主;
3) 两者的分析手段与方法也有差别,传统数据分析的主要算法以统计学为基础,分类和预测是两种常见的数据分析形式,主要包括探索性数据分析( EDA) 和验证性数据分析( CDA) ,而大数据挖掘不仅仅需要统计学方法,还大大使用了机器学习、人工智能的算法。应用于传统数据分析的统计学方法主要有:数学运算、快速傅里叶变换、平滑和滤波、基线和峰值分析。 然而这些方法在大数据环境下是很难有效使用的,一方面传统数据分析需要假设检验,即需要在明确的假设前提下分析数据,因而严重依赖于数据分析师及分析过程,若数据分析员不熟悉业务情景或无法准确理解分析目标,传统数据分析工具就难以承担 O2O 电商客户数据挖掘重任; 另一方面传统数据分析只适合结构化数据,难以集成和分析地理数据、视频数据、文本数据等非结构化数据。 另外,传统数据分析实时性差,很难以合理的成本获得可接受的响应时间,直接导致在传统分析过程中投入较高的成本,却不能及时获得管理人员所需要的分析结果。在传统数据分析失效时,如何从大数据量、类型复杂的O2O电商用户数据中及时洞察其中价值,将是 O2O 电商企业竞争的利器。大数据挖掘成为O2O电商用户数据转化为具有价值知识的重要手段,是通过分析海量数据,从数据海洋中寻找其规律的技术。
针对O2O电商用户数据特点,数据挖掘为O2O电商提供更有用的知识,更精确的信息以及更及时的响应。基于此,我们提出了一种O2O电商用户数据挖掘框架,如图 1 所示。
图1.O2O电商用户数据挖掘框架
O2O 电商用户数据挖掘框架包括数据来源层、数据收集层、数据组织层、数据存储层、数据分析层、数据应用层。 其中数据收集、数据组织、数据存储层属于数据挖掘中数据预处理过程( 数据准备、数据转化、数据抽取) ,数据分析层为应用数据挖掘模型来分析数据。 数据应用层采用面向对象方式的数据应用,包括面向 O2O 平台应用、面向 O2O 用户应用和面向O2O 商家的应用。2.2 O2O 电商用户数据挖掘流程从分析流程来讲,传统数据分析相对简单,数据通常以文件或数据库中元数据的形式组织,然后对其进行抽样选择,并利用分类算法和预测算法来预测数据对象的离散类别和连续取值。不同于传统数据分析,大数据挖掘是一个知识自动发现的过程,在无明确的目标下从不同数据源获取数据,对数据进行预处理,并大量使用机器学习与人工智能算法对庞大的观测数据进行挖掘分析。O2O 电商用户数据挖掘着重解决这样一个问题: 在大数据中,分析各用户群体的特点,进而分析用户个人特点,获得有价值的知识,从而获取商业价值。 如图 2所示,数据挖掘流程包括: 数据收集、数据准备、数据转化、数据抽取、数据挖掘、挖掘应用。
图2.O2O电商数据挖掘流程
(1) 数据收集。
O2O 用户数据源包括 O2O 平台的用户数据等。 用户数据以“流”的形式创造,由于3个数据源之间有交互,且其数据内容往往交叉,所以按照交易、互动及观测数据进行分类,然后通过Needlebase 等工具在用户消费的过程或其它行为中收集。
(2) 数据预处理。
数据预处理包括了数据准备、数据转化及数据抽取。 数据预处理决定了挖掘结果的质量,从某种程度上来看,数据预处理往往左右着数据挖掘的成败。由于原始数据中有噪声数据、冗余数据及缺失值等,数据准备过程中对数据进行解析、清洗、重构,并填补缺失值以提高待挖掘数据的质量。 然后对通过数据准备的非结构化、半结构化的数据处理成机器语言或索引,如自然语言 用户评论、日志资料等 转换成加权逻辑或是模糊逻辑,并且不同的词语映射到标准的值; 将结构化数据进行数据过滤,提炼出有意义数据,剔除无效数据以提高分析效率。最后进行数据抽取,即检测数据的相关性和关联性:关联的数据表现出更多的特定用户活动特征,关联的数据本身也可以用于个性化服务,例如从用户购买数据和时间数据的关联性中,可能会发现购买特定商品的频率; 数据融合是将相关联的数据连接在一起形成一个新的商业应用。
(3) 数据挖掘及其应用。
在数据挖掘过程中,根据不同的应用需求选择不同的挖掘模型,对数据进行深度挖掘。 其中主要模型有: 关联规则分析、分类分析、聚类分析等,当前数据挖掘也存在一些用户模型,这些用户模型将人以性别、种族、年龄和兴趣等分类。 得到数据挖掘结果后,对其进行解释应用,一般挖掘应用包括排名与个性化推荐、异常检测、Web 挖掘与搜索、大数据的可视化计算与分析等。2.3 O2O 电商用户数据挖掘方法数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。
利用数据挖掘进行数据分析常用的方法主要有分类、聚类、关联规则等,它们分别从不同的角度对数据进行挖掘。O2O 电商用户数据挖掘的方法主要有关联规则分析、分类与聚类分析、社会网络分析、变化与偏差分析。
(1) 关联规则分析。 关联可分为简单关联、时序关联、因果关联。在 O2O 模式中,通过对用户数据进行挖掘,可以从大量的记录中发现其关联关系,找出影响用户行为的关键因素,为用户需求、用户细分、风险评估和诈骗预测等决策支持提供参考依据。
(2) 分类与聚类分析。 分类是找出数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据项映射到某个给定的类别。它可以应用到 O2O 用户的分类、用户属性和特征分析、用户满意度分析、用户购买趋势预测等。在 O2O 用户数据挖掘中,聚类分析是细分市场的有效工具,被用来发现不同的客户群,研究消费者行为,并且通过购买模式刻画不同的客户群体特征。 它可以应用到 O2O 用户个体归类、用户背景与兴趣分析、用户购买趋势预测等。
(3) 社会网络分析。 主要分析不同社会单位( 个体、群体或社会) 所构成的关系结构及其属性。 它关注 O2O 用户之间的关系而非用户的属性,通过研究用户之间的关系借以描述和测量通过这些关系流动的各种有形或无形的东西,如信息、资源等。
(4) 变化和偏差分析。 变化和偏差分析包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。 它可以应用到 O2O用户异常信息的发现、分析、识别、评价和用户流失预警等方面。
3.1 面向 O2O 平台的数据挖掘应用
3.1.1 实施精准营销对
O2O 平台来说,用户数据挖掘代表着更细化的市场、更精准的用户行为预测、更精确的用户需求。 通过收集、加工和处理涉及用户消费行为的大量信息,确定特定用户群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应用户群体或个体下一步的消费行为,然后以此为基础,对所识别出来的用户群体进行特定内容的定向营销,这与传统的不区分用户对象特征的大规模营销手段相比,节省了营销成本,提高了营销效果,提升了平台的价值和锁住大量高粘度的消费者,进而能争取到更多的商家资源。 此外借助数据挖掘,O2O 平台还可以有效的、低成本的识别高价值用户,将这些用户与其它普通用户区分出来,针对他们的特点进行特别服务以获得更高的收益。
3.1.2 优化 O2O 平台网站O2O 平台网站的内容设置直接影响用户访问O2O 电商平台的转化率。 在用户登陆平台的操作数据中挖掘用户访问页面的统计信息,发现用户访问的模式,可为优化 O2O 平台提供决策借鉴。 O2O 平台网站可以根据挖掘出的访问者特征与下单规律来设计和修改网站结构和外观,O2O 平台可以把具有一定支持度和信任度的关联产品与服务摆放在一起以助销售。 此外通过挖掘 O2O 平台的用户浏览数据,可以发现用户访问页面的相关性与用户的期望位置,O2O 平台可以分别在密切相关的网页之间增加链接以及为主要的期望网页位置建立导航链接,并合理的安排服务器网页预取和缓存策略,减少服务器响应延迟时间,提高用户浏览的满意度。
3.1.3 稳定客户关系通过对用户 O2O 数据进行挖掘来分析用户行为,O2O 平台可以发现、锁定、留住用户。 这些分析包括客户群体划分、背景与兴趣分析、交叉销售以及客户流失分析。 通过对用户行为分析,可以发现潜在的消费者,并且针对其行为特征锁定用户群体以提供个性化服务,获得高粘度的 O2O 用户。 来自社会网络的用户数据在预测客户流失和推荐销售方面十分有效,比如用户如果知道其关注的铁杆好友已购买某 O2O 服务并高度点评后,他自己就很有可能也关注该 O2O 平台及其服务,这就有助于 O2O 平台发现并进一步锁定潜在客户。
3.1.4 O2O 增值服务O2O 平台对拥有的海量用户数据挖掘后,可以整合用户行为数据,建立较为完备的用户行为数据库,为 O2O 商家提供用户行为数据产品,以此创造数据服务收入来源,阿里巴巴聚石塔及淘宝数据魔方是其典型应用。 另外 O2O 电商平台还可以开展其他企业因缺乏数据而难以涉足的新业务,如消费信贷、企业或商家的小额贷款等,阿里集团面向其平台商家提供的日息千分之零点五的小额信贷服务就是基于海量客户数据挖掘的增值应用。
3.1.5 欺诈分析与防范O2O 平台可以利用数据挖掘技术对一些有欺诈行为的商家样本分析并采用神经网络算法进行建模,然后对用户评论数据、用户交易数据进行分析,评估商家的欺诈倾向,或采用数据挖掘孤立点分析技术,在对商家进行分析时找到那些与其他的商家不同的商家群来进行防范,帮助 O2O 平台进行风险与欺诈管理。 若欺诈行为很少,为了防止出错,还可以对前面判断出来的欺诈行为进行再次判断,进一步提高判断的准确性。
3.2 面向 O2O 用户的数据挖掘应用---
个性化推荐客户数据挖掘结果可以作为服务由 O2O 平台提供给用户,支持其消费决策。 这有助于形成 O2O平台利用数据与用户沟通的新模式,使客户更关注O2O 平台,这也能带来用户忠诚度和客户关系的极大改善。 对用户而言,O2O 平台提供丰富、全面、及时的商家信息,并能针对相似用户的兴趣与需求,快捷筛选并推荐适宜的商品,为用户消费决策提供支持。作为 O2O 模式中对用户实现个性化服务的关键,个性化推荐根据用户的兴趣特点和购买行为向用户推荐其感兴趣的信息和商品。 通过用户数据挖掘,实时分析用户的当前场景及历史记录,创建可能的用户模型,迎合用户的需求并为用户实时提供个性化服务,对用户请求进行分流。 例如根据个人地理位置及用户现时状态,实时地为不同用户提供餐饮、购物、电影等情景化推荐服务。 用户数据挖掘得到的知识可以为用户提供基于用户关联的个性化推荐、基于内容特质的个性化推荐和基于协同过滤的个性化推荐,如图 3 所示。
图1.基于用户数据挖掘的个性化推荐
3.3 面向 O2O 商家的数据挖掘应用
3.3.1 广告精准投放通过对用户 O2O 平台操作数据的挖掘了解用户在不同消费行为中的关键节点,可以为商家的网络广告策略提供借鉴,然后针对性的投放广告,实现线下商家渴望的个性化市场营销。 在客户数据基础上,运用数据挖掘建立的概率知识库和模糊知识库,对实时获取的在线信息进行概率分析,通过对广告访问者潜在的信息特征进行精准划分,决定哪些是商家的真正顾客; 分析顾客对某种广告的反应程度,决定下次广告的投放渠道与时点; 通过聚类分析,对某类客户群提供定向广告等等。 当数据积累到一定规模时,通过数据挖掘可以精确计算出广告中的每一个关键字为商家带来的回报,并以此对广告内容进行优化。
3.3.2 产品与服务管理一方面用户数据挖掘为商家提供精准营销实施的最佳方案,及时响应客户需求,促使订单的生成;另一方面用户数据挖掘可以帮助商家优化决策流程,使商家库存和价格自动微调,以实时响应 O2O平台上的销售情况,增加其产品或服务流转。 商家洞察,就是由表及里、由浅入深,发现用户深层需求的过程。而掌握大数据、并拥有分析能力的商家将获取此种洞察能力,以发掘商业隐形知识和识别潜在商业机会,比如有关用户喜好和潜在需求方面的重要信息,从而为商家的产品或服务创新提供参考。
3.3.3 行业垂直整合商家关注的焦点集中在如何吸引用户扩大销售,而不是与哪一家 O2O 平台合作。 所以本地消费中,往往是靠近最终 O2O 用户的商家在产业链中拥有最大的发言权。 对商家而言,用户数据挖掘让其掌控了巨大的、最为直接的用户资产,通过与自身的用户匹配,商家可以选择与其有着相同用户群体的O2O 平台进行战略合作。 甚至当本地消费发展到一定程度时,线下商家可以考虑建设自己的 O2O 电商平台,进行行业垂直整合,为本地用户提供个性化电商服务。4 结束语随着云计算与数据挖掘等技术的发展,电子商务数据,尤其是用户数据中所蕴含的价值会越来越容易被挖掘出来。 O2O电子商务正经历着从用户数为王,到销量为王,再到现在的数据为王的迅猛迁。电子商务企业已经意识到,最准确的商务决策来自于事实,即数据支持。大数据技术的应用必将成为O2O电子商务深入发展的重中之重,也将为其带来巨大的商业价值。
基于大数据的线上线下电商用户数据挖掘研究