首页 > 代码库 > 用户画像的构建与使用1
用户画像的构建与使用1
百分点是一个推荐服务的提供商,但是已经转型为大数据解决方案的提供商。
首先看一下大数据与应用画像的关系,现在大数据是炙手可热的,大数据的4个V都比较了解,大数据应该说是信息技术的自然延伸,意味的无所不在的数据。我们先看下数据地位发生转变的历史,在传统的IT时代,it系统围绕这业务服务,在这个服务的过程中沉淀了许多的数据,在数据的基础上做一些分析。但是到了DT时代就不一样了。数据是现实世界的虚拟化展现,数据本身构建了一个虚拟世界,it系统构建在虚拟世界,变的更加智能,dt战略在很多公司慢慢开始应用,越来越多的公司管理层开始考虑这方面了。
大数据无处不在体现在,第一我们社会信息化的建设越来越发达了,第二是随着可穿戴设备的发展,人产生了越来越多的数据,接入网络中,同时人与人的沟通的方式也不仅仅是面对面,因此我们需要重比特流中去认识人类,因此构建用户画像这件事就变得更加重要而且现在机器也变得很智能了,所以我们还要教会机器来认识人类,这样才能在画像的基础上构建应用,比如个性化推荐,精准广告,金融政信等。
用户画像,标签,360度用户视图等等,这些概念理解上可能大多数人都似是而非。
用户画像感性认识
现实生活中的用户画像,如上描述的人,大家都会想到诸葛亮,图片中的会想起希特勒。身份证,想起奥巴马。这些都是生活中的画像,都是为了描述一个人,但是他们的描述方式和角度都步一样。
但是从我们这些描述中可以看到一些共性,主要体现在这几个方面:第一个是目标,目标都是描述人,理解人,这是用户画像最大的目标。第二个是我们描述的方式,可以分2种:第一种是非形式化的手段,语音,文本,都是非形式化的,另一种的形式化的,比如刚才的身份证,你可以把身份证放在读卡器上,就可以把对应的信息读出来。第三就是组织,就是结构化和非结构化,我们面前的球员是结构华的数据。第四个就是用户画像标准,这个很重要,这是我们一会要说的,为什么?比如说,我们在描述用户的过程中要有一些共识,举个列子,我说某个人特别2次元,这个词对方可能听不同,是因为双方对2次元这个次没有达到共识,所以必须有一套达成共识的知识体系,不然用户画像这件事是没有办法达成。最后一个是验证,我们做完画像后,一定要去验证。举个例子,我说这个人特别不靠谱,相当于是打了一个标签,你一定会反问我为什么步靠谱,你的依据是什么,就是我们给用户生产画像之后,我们一定要给出依据和推理的过程,告诉你这个结果是怎么得到的,不然就没有可信力。
前面说了那么多,到底什么是用户画像呢,用户是对现实世界中用户的数学建模,它包括两个方面:一方面是描述用户,没有说人,是说明它跟业务关系紧密,他是从业务中抽象出来的,因此来源现实,高于现实,第二个是用户画像它是一种模型,是通过分析挖掘用户近可能多的数据信息得到的,它是从数据中来的,但是对数据做了抽象,比数据高,后面所有用户画像的内容都是基于这个展开的。比如月光族,这个肯定是挖掘分析出来的,不是说原来的数据中包含月光族这个标签,所以说这是它的两层含义。
然后就是刚刚说的,用户画像是现实生活中的数据建模,但是我们如何描述这样一个模型,核心是要有一套标准的知识体系,描述用户画像。另外一个方面,就是要有一套数据化,符号化,形式化的方式去描述这套知识体系。而且机器要能够理解这套知识体系,如果只有人理解,这个东西是没办法使用的。
69,70年代已经存在了,做语义分析的朋友可能听过这个本体论,在90年代的时候,本体和语义非常流行,这个东西是比较复杂的,它帮组机器u理解知识体系,由于非常复杂,我就简单说一下,类似与UML这种语言,包括实体,联系,推理等等。就是说通过这套方法论,可以理解知识,甚至教会它怎么去推理。这就是说的本体论,非常复杂。
我这里有一套非常朴素的方法,大家可以看一下这张图,我们在实现世界,我们在现实世界中怎么表述知识。我们最开始学习语文的时候用的是什么,是新华字典不是,字典中大家看到的组织形式是什么,首先是词,词作为它的表现符号另外是什么,它的后面跟着比较长的解释文本,就对于一个概念,那么就是说,这里的符号与概念是相对应。用我们现实生活中的一个列子来说,你比如那够这个列子来说,狗这个词是一个符号,但是对应我们脑子中的概念是什么,‘四条腿’,‘一个能看家的,一个会汪汪叫的动物’。对于的实体就是我们现实生活中的各种品种的够,是么。我希望大家可以记住这张图。
上面这张图中的模型就对于前面途中的所指的概念,标签就对应这张图上的符号,要和大家强调的两点是标签它更业务密切相关,第二点,在这张图中,标签是一个符号要去表达模型对不对。举一个列子,比如我这个产品,想卖给白领这个群体,白领这个词就是一个符号,可以表示一个用户群,比如“收入高,做办公室”,所以标签就把它做了一个比较好的定义。
刚刚说了用户画像的定义,标签的定义,那么我们平时经常说的标签和画像。他们之间是一个什么样的关系呢?其实是一个整体和局部的关系,用户画像是整体,标签是局部,整体和局部的关系通过标签体系体现。整体和局部包含两个方面的关系:化整为零,整体如何反映在局部;化零为整,局部如何组成整体:对每个人都应该观察到一双眼睛和一个鼻子,化零为整:只有位置合适的一双眼睛和鼻子我们才能人为他是一个人。
这里还有标签体系,要重点说的是,我们在给实际企业客户构建用户画像的过程中,需要和他们业务部门,产品部门去构建标签体系,因为标签是和业务密切相关的,他们的标签体系是要搜集所有的业务方的需求,制定出来标签体系以后,给出每一个标签标准的定义,然后经行标签的开发。
最后说的是用户画像的验证,就是说我们在给客户提供方案的时候,他们经常会问一个问题,构建的用户画像的结果怎么去验证?在我们看来,用户画像作为用户在现实生活中的建模,对模型的验证可以分为两个方面:一个是准确率的验证,你的标签打得准不准,就是我们经常说的准确率,第二个是标签打的全不全,但是对于这两个方面来说,你是没办法同时满足。现实业务中无法追求完美因为你步可能做出一个100%玩呗的标签体系。
因此我们验证更多谈的是准确性,可以分为两种,一种是有事实标准的,比如生理性别,可以用标准的数据集验证模型的准确性,另一种是无事实标准的,比如用户的忠诚度,我们只能验证过程,具体的效果需要通过线上业务A/B Test进行验证。
前面介绍了用户画像的理论:用户画像是对现实用户的数学建模,标签是一个符号,标签与业务关联在一起才有意义,用户画像和标签是整体和局部的关系。接下来介绍用户画像的实践。
上面这张图是用户画像生产和应用的逻辑架构,包括5层:数据采集层是收集用户的各种数据,就拿一个公司来说,它得数据源分布在各地,有crm系统,有分散在各个部门的,构建DMP(数据管理平台)的一个难点就是把各个数据都搜集起来,甚至要老板去推动。数据管理层对这些数据进行清洗,拉通,整合以及分析建模,构建用户画像,数据接口层和应用层基于用户画像,提供各种分析,服务类以及营销类的应用,服务与金融,制造,航空等各个行业。
要紧准的构建用户画像,面临这许多技术难题,接下来重点介绍用户多渠道信息打通,多渠道产品信息打通以及用户数据挖掘机建模,3方面来展开。
首先接扫用户多渠道信息打通,用户与企业的出点非常多,比如手机,邮箱,cookie等等,我们要将同一个用户的这些多个出点进行打通,需要站在上帝的视角,我们可以把用户id视为图中的定点,如果用户的两个触点在同一个场景,比如邮箱登陆,那么我们会在用的邮箱和cookie用一条边经行连接,从而构建一张图。
图中连通的id可以视为同一个用户,从而实现用户拉通,而且连通的可信度由业务的密度决定,密度越高,对可信度的要求越高,比如推荐是低密度业务,即使识别错误,影响比较小,但是对于电商的短信通知服务,如果识别错误,体验就会非常差。
刚刚讲到的是用户打通,现在来要讲的是如何将不同渠道的产品拉通,比如我们的电商客户第一方的标签体系都是有差别的,所以标签体系拉通就是建立一套标准的分类标签体系,一般都是一个分类树,任何一个商品都能划分到这个分类树的叶子节点。根据我们的时间经验,手工映射成本高,难以大规模开诊,我们实际是采用机器学习模型+少量的人工规则来实现。
具体的模型实现见上面这张图,要实现自动分类,其中的难点步在于模型,而在于获得训练数据,featrure,engineering以及分类树层级节点之间的依赖问问题,在这里就步具体展开了(就需要你展开的,我晕),目前对于我们电商渠道的商品的分类准确率在95%以上。
在用户画像建模方面,我们把标签建模分为4层:第一层是事实类标签,比如用户购买了什么类品,第二层是机器学习模型的预测标签,比如当下需求,潜在需求等,第三次是营销模型类标签,比如用户价值,活跃度,忠诚度等等,第四层是业务类的标签,比如高奢侈一组,有房一组等他是有底层标签组合生产的,通常有业务人员定义,前面介绍了用户画像的理论和时间,接下来介绍基于用户 画像的应用。
用户画像的构建与使用1