2.4 用户画像的建立方法和流程
既然用户画像对用户运营有如此实用的价值,那么我们该如何建立用户画像呢?前面提到过,一般情况下,数据部门会有专业的技术团队进行用户画像建模,但在实际应用中,用户画像的建立方法和流程完全可以简化,以缩短建模周期,为用户运营指明方向。
用户画像的建立由数据源的收集与模型建立两部分组成。接下来我会从用户的数据源类型和用户数据建模两方面介绍用户画像的建立方法。
2.4.1 用户数据源类型
1. 用户画像的数据源
用户画像的数据源主要分为两种:一种是用户属性,另一种是用户行为。用户属性主要有两个来源:设备自有的客观被动信息(如设备型号、应用版本、地理位置等),以及用户主动登记的信息(如产品交互中提示用户选择的个人登记信息)。而用户行为类数据多为用户运营提需求,研发人员埋点(标记用户交互行为),在用户发生交互行为后统计点击或其他交互数据得到的。
了解了收集方式,下面来看数据源的具体类型(见图2-9)。
图2-9 用户画像的数据源
从前面举的例子中可以看到,在大数据技术出现之前,无论是小区保安还是亲戚,其信息库的建立基本依靠口口相传或者人工记录。不过,即便是通过这种原始的数据记录方式所得到的有限数据源都能有一套自己的模型,可见对数据源的整理和关联具有非常重要的作用。
和原始的数据记录方式相比,如今的互联网产品收集数据要容易得多,产品经理和运营人员都不会太担心数据的来源问题。用户使用一款产品,从注册到登录再到点击,我们就已经能够收集到非常多的用户数据了。哪怕产品依托于其他的大平台,平台也会提供已有的海量数据,在此基础上,我们还可以依据自身产品的特点进一步进行用户数据的收集。以常用的平台产品微信公众号为例,它的后台提供了多维度的用户数据和简单的分析(见图2-10)。
图2-10 微信公众号后台用户分析模块
2. 用户属性
数据源有客观数据和主观数据之分,用户属性属于客观数据,自然属性、商业属性、垂直属性、标签属性这些也都属于客观数据,而用户行为和行为关联则属于主观数据。将用户属性和用户行为这些零散的数据输出为可用、可视的数据模型,用户画像就建立了。
(1)自然属性
我们常说的80后、90后、00后是根据年龄划分的部分人群,在这些称谓的后面一般会紧跟这些人群的一些特征。这就属于依据自然属性来对人群进行划分的分类方式。
一般来讲,自然属性指的是一个自然人的基本属性。图2-11列出了依据自然属性划分时常用的参数。性别属性是使用较为广泛的标签,不同性别的人群对于不同内容的喜好会有明显不同。而通过年龄、地域、学历、职业、婚姻状况、子女状况等自然属性标签,比较容易分析出一个产品用户群体的基本占比情况。不同产品所关注的点在这些自然属性里基本都有迹可循。比如目标用户是年轻人群体的,可以通过年龄属性看到自己产品目前的年龄层占比情况;而目标用户是妈妈群体的,可以通过婚姻状况和子女状况来判断这部分用户的占比情况是否符合预期。
图2-11 依据自然属性划分的基本参数
(2)商业属性
商业属性也是一个比较重要的属性类别,依据商业属性划分的基本参数如图2-12所示。
图2-12 依据商业属性划分的基本参数
自然属性可以帮助我们确定是什么样的人在用产品,而商业属性则能帮助我们判断有多少用户可能在产品上消费,以及他们的消费意向、消费周期、消费频次。产品良性的商业化是其长线发展中不可或缺的因素,因此单独分析产品用户的商业属性是用户画像中十分重要的组成部分。
(3)垂直属性
自然属性、商业属性都是比较通用的属性,无论何种类型的产品都有分析这类用户属性的需求。而不同类型的产品还有一类专属于产品自身的垂直属性。在相对垂直的产品里,除了通用的用户属性,还有哪些值得关注的用户垂直属性?图2-13以旅游产品为例,列出了依据垂直属性划分的示例参数。
图2-13 依据垂直属性划分的示例参数
旅游产品的最终目的是向用户推荐更多的旅游类内容或服务,促使用户消费,而知道用户在旅游方面有哪些属性有助于用户运营采用有针对性的运营手段。其中的属性数据可以通过用户的航班信息、不同类型的行程等信息得到。
(4)标签属性
除了用户固有的客观属性,还有一种属性是运营本身赋予用户的——标签属性(见图2-14)。在一个用户开始使用产品、产生了第一条数据后,用户运营就可以赋予其第一个标签——新人。之后随着产品用户的累积,逐渐可以分出低频用户、活跃用户、高频用户。如果是有增值服务的产品,还可以根据用户购买增值服务的情况分出VIP用户。
图2-14 依据标签属性划分的示例参数
用户属性是在产品初期用户行为数据还不够丰富时分析用户的关键数据。需要针对不同的用户类型给出不同的运营策略。从以上4种用户属性可以看出,它们并不是单一维度的数据,而是由多种属性整合得到的用户数据集合。这个数据集合产生关于用户属性的画像,指导着产品经理和用户运营。
3. 用户行为
相比用户属性,用户行为的数据更为个性化。用户行为的参数主要分为两种:一种是行为类型,另一种是行为来源。图2-15中分别列举了与用户行为类型和用户行为来源相关的参数。
图2-15 用户行为参数
(1)行为类型
行为类型可以帮助我们定位产品中最受用户关注的内容和服务。我们在使用一款产品时会自然地做出一些行为,比如浏览、搜索、点击、收藏,在使用体验较好时,还会进一步做出互动行为,比如点赞、评论和分享等。在建立用户画像模型的时候,可以为以上行为设置不一样的权重值。将这些权重值汇总起来就可以定义一个群体的用户特征。
举个例子,先将用户设定为2个基本属性和2种用户行为。属性A属于浅度用户,属性C属于深度用户,属性B为轻行为,属性D为重行为。再将用户在产品中的具体行为与用户行为类型的定义进行关联计算。例如:在上述行为中,浏览、搜索、点击都属于基础用户行为,可将每一个行为的权重值设置为1;点赞、收藏则属于较深层次的用户行为,可将每一个行为的权重值设置为2;评论、分享属于更深的行为,可将每一个行为的权重值设置为3。
那么,结合用户属性我们可以得到用户属性与用户行为的关联。属性A(浅度用户)的用户在用户行为上的权重值是B(轻行为),而属性C(深度用户)的用户在用户行为上的权重值是D(重行为),由此可以组成一套模型,来针对不同属性的用户进行个性化运营,目标是将更多A类用户转化成C类用户。
(2)行为来源
行为来源可以帮助用户运营分析从不同渠道来的用户是否有共同特征或特殊偏好。一个产品往往有多种用户渠道,那么用户是从哪里过来的?是产品首页、活动页、公众号、推荐、邀请链接还是广告?行为来源提供了重要信息,对每一个行为来源做好标注,在拿到来源数据后进行进一步的行为关联,就可以得到一个完整的用户画像。
(3)行为关联
用户属性与用户行为的关联是建立模型的基础。以用户ID为核心,从来源到属性再到行为进行关联,并根据自身产品的情况设定不同的权重(见图2-16)。通常将用户在产品中最核心的交互点的权重值设置得最高,通过筛选可以迅速找到最活跃的核心用户群体,并将次活跃的群体向活跃群体转化。
图2-16 用户行为关联
2.4.2 用户数据建模
1. 数据清洗
与数据相关的工作听起来是偏技术的工作。确实,对于海量数据,人工整理效率很低。然而前面提到,运营人员要进行高频的用户分析,但通用的建模时间长,流程长,比较难个性化。可以从数据平台中进行抽样,在特定时期抽取随机样本,再根据随机样本估算出用户画像的大致分布。这样做虽然会有一定的偏差,但具有实际指导意义。
所谓数据清洗,主要指的是将冗余、无效的信息剔除。当渠道来源比较杂的时候,部分用户在留下数据时想要隐藏真实信息,这就可能会出现0岁或99岁这样的极端值。我们应当将这种极端值从样本中移除,并据此做一些修正,用修正后的数据建库。
2. 建库与映射
将清洗过的数据梳理成不同维度的队列,输出成标签,再将标签与用户ID进行映射。其中用户ID有唯一的标识码。基于这个标识码,将用户的所有属性和行为抽象为不同的标签,再根据标签与用户ID的映射将用户进行聚类,进行模型输出。
通过数据清洗、建库与映射、模型输出,我们可以得到满足分析需求的用户画像。对于产品经理和运营人员,最终呈现出来的可视化画像一般如图2-17右图所示。大数据层面的画像维度更多,可信度也会更高。
分析图2-17所示的用户画像,我们能得出什么结论呢?在性别上,男性用户占比56%,女性用户占比44%,可知这款产品的男性用户占比高于女性用户;在教育程度上,使用这款产品的用户中本科及以上人群占比为42%,可知这款产品面向的人群学历相对较高(相比全网网民教育程度);在年龄上,18~35岁人群占据了60%,可知年轻用户是这款产品的主要消费群体。
图2-17 用户画像模型示例
3. 标签化模型输出
大致判断出用户属性特征后,再看一下用户的转化消费来源。在消费来源中,转化占比最高的是分享链接,次高的是搜索,与之接近的是某个促销页,最低的是信息流。这就给出了这款产品的画像:以教育程度较高的男性为主的年轻群体,且该用户群体喜欢通过分享拉新的产品。