汽车之家如何构建用户画像
谈到用户画像,大体可以用俩个词概述"persona" 和 “profile”。两者区别在于使用者的差异。Persona 也叫做用户角色,是描绘抽象一个自然人的属性,主要是讨论产品、需求、场景、用户体验的时候使用。Profile 是和数据挖掘、大数据息息相关的应用,通过数据建立描绘用户的标签,主要是运营和数据分析师使用。本文重点讲述 profile 的构建
之家从 16 年开始构建自己的用户画像至今已有 5 年时间,期间有过多种尝试。整体的用户画像逻辑架构如图所示。
用户画像逻辑架构
主要从用户识别、标签体系、画像构建、画像存储、画像质量五个方面来进行介绍
一、用户识别
在 PC 为主流触点的阶段,企业期望存在上帝视角,能了解用户的在网络上的完整旅程,但由于弱账号体系的弊端无法实现,逐步推进了 idmapping 技术的发展。之家在这个过程中的的技术演变紧随行业发展,由最大联通子图生成 uuid 到 强关系 + 独立账号。
id-mapping 期望的上帝视角
上帝视角观看用户轨迹
第一阶段,id-mapping 为账号之间的联通子图(v1.0)。具体实现方案为迭代染色算法(分布式并查集)实现。
该方案存在两个问题,其一,打通率比较低,由于需要关系在数据中得到体现(如用户登录 userid 与 cookie 之间的关系);其二,存在多人共用电脑导致关系的错连。但对于无法打通的用户行为,这种实现方式可以基本的满足企业的业务需求。
随着移动互联的大热,app 端的在业务中的占比越来越重,上述问题越来越凸显,由于错连多连导致用户画像标签比较难以解释,经常出现“我没看过这个车系,为什么我有这个车系兴趣”等等,对画像的应用推进与推荐系统的解释造成了很多困扰。
用户连线 1.0
第二阶段,id-mapping 为强关系 + 独立账号 (v2.0),也是现在之家用户画像构建时采用的用户识别。强关系是指用户账号存在主次,用户的打通以 userid 和 phone 分别做为主账号,pc-cookie、m-cookie、deviceid 作为附属账号,通过账号一度关系进行打通,保证“用户”的准确性。独立账号是指在用户画像构建中对于 pc-cookie、m-cookie、deviceid、userid、phone 都作为独立用户分别构建自己的画像标签。两者相结合塑造完整的互联网人。
二、标签体系
用户画像的构建过程比较乏味,标签体系是从乏味的标签中抽象出的一个逻辑架构体系。简单说就是把用户标签分列到不同的类里面,这些类都是什么(标签如性别),彼此之间有何联系,就构成了标签体系。标签体系的构建大同小异,基本包括人口属性、网络属性、地理位置、兴趣偏好、商业(金融属性)、业务属性。
用户标签体系的构建过程可以分为两个阶段,规划驱动阶段与需求驱动阶段。
在规划驱动阶段,构建企业通用的标签逻辑架构,业务部门共用的基准版本用户画像。在之家的构建过程基准本的体系如下:
之家通用标签体系
随着画像的应用,通用版本已经无法满足日益多变的场景需求, 如嘿 car、小程序、青少年频道、用户增长运营、金融触达、智能推荐等等,场景需要下钻,需要精细化的用户分类颗粒,逐步转化为需求驱动阶段。在该阶段标签构建的差异越来越大,维度也越来越细,构建成千上万的标签。
三、标签构建
1、从构建思路上可以分为:统计类、兴趣类、模型类
a、统计类标签,业务规则,将业务问题转化为数据口径实现
如下收藏列表、搜索关键词、保险到期时间、是否下过线索、30 天内访问 xx 次数等等
b、兴趣类标签,基于兴趣迁移模型构建用户标签。综合考虑特征、特征权重、距今时间、行为次数等因素,用户兴趣标签的构建公式如下:
用户兴趣标签 = 行为类型权重 \ 时间衰减 \ 行为次数**
特征:需要结合业务选择,如浏览、搜索、线索、对比、互动、点击、有车等行为。
权重:用户在平台上发生的行为具体到用户标签层面有着不同的行为权重,一般而言,行为发生的成本越高权重越大。可以由业务人员确定也可以采用 TF-idf 的技术分析得出。
时间衰减:用户行为受时间的影响不断减弱,距离现在越远,对用户兴趣的影响越低,这里采用牛顿冷却定律的思想拟合衰减系数,衰减周期结合业务制定
行为次数:在固定时间周期内行为发生的次数越多兴趣倾向越重
另外,用户兴趣权重是表示用户在某一分类(标签)下的兴趣差异并不能作为两个用户兴趣度的比较。所以用户的兴趣标签计算可以采用增量叠加的方式更新。之家兴趣类标签的计算采用自然天增量更新的方式进行落地实现。
活跃天增量更新兴趣标签
c、模型类标签
基于机器学习方法进行数据建模预测用户的标签。整体上这类标签在标签体系中的占比较少。
是否有车基于 RF+LR 模型实现
常驻地 基于 GPS 聚类获取这里采用 DBSCAN
购车转化 GBDT
用户分群 KMENAS 聚类产生
从数据时效上可以分为离线画像与实时画像,离线与实时采用的构建思想相同,区别在于离线画像描述的使用户长期的习惯,实时画像描述的是用户的当下兴趣,需要结合场景根据批量处理与流式处理的差异做相应调整。
四、画像存储
用户画像数据的存储一般可以分为三类:关系型数据库、NoSQL 数据库和数据仓库。在大数据基础上,之家用户画像的存储使用 hive、hbase、ES、Codis 相结合的方式。不管哪种形式的存储,都遵循本体表示法,以本体模型存储用户的属性和关系。
1、hive 存储
使用 hive 构建画像集市,解耦标签之间关系,数据组织形式简单,简化操作 mr 计算框架的方式是的便于数据分析人员分析,组织形式为多张 hive 表存储,每张表中存储部分标签信息。
2、hbase 和 codis
作用相似,都是将分散的标签数据 merge 成一个完整的用户肖像,对外提供基于用户 id 的快速查询。
用户肖像
3、Elasticsearch
同样是将片面的标签信息,刻画出用户肖像,区别在于上层业务场景,主要用于人群圈定,洞察分析、用户触达等
五、画像评测
现代管理学之父彼得·德鲁克说:一个事物,如果你不能衡量它的话,那么你就不能增长它。如果期望构建高质量的用户画像,那就需要建立画像的监控评测体系。首先,业务场景的 AB 实验是最能体现价值的方式也是在推荐、广告领域应用最广的验证策略。除此之外时效性、覆盖率、准确性也是用户画像重点关注维度。
时效性:对于群体分析,画像的时效并不是特别突出的问题,但对智能推荐、用户转化等场景,对于近期或当下兴趣有着非常高的要求,区分标签场景我们制定并推动了 sla 目标和实时构建
覆盖率:在投放用户触达、营销场景下,标签的覆盖率问题比较突出。但是标签覆盖率的�
- 原文作者:知识铺
- 原文链接:https://geek.zshipu.com/post/%E4%BA%92%E8%81%94%E7%BD%91/%E6%B1%BD%E8%BD%A6%E4%B9%8B%E5%AE%B6%E5%A6%82%E4%BD%95%E6%9E%84%E5%BB%BA%E7%94%A8%E6%88%B7%E7%94%BB%E5%83%8F/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com