Qunar用户画像构建策略及应用实践
用户画像作为大数据的根基,它完美的描述了一个用户的信息全貌,为进一步精准、快速的分析用户行为、消费等重要信息,用户画像仓库同时也提供了足够的数据基础,让我们Qunar更好的为用户提供高价值的服务,满足用户智慧出行的需要。
1. 用户画像的构建原则
我们做用户画像的目的有两个:
- 必须从业务场景出发,解决实际的业务问题,之所以进行用户画像要么是获取新用户,或者是提升用户体验,或者是挽回流失用户等有明确的业务目标;
- 根据用户画像的信息做产品设计,必须要清楚知道用户长什么样子,有什么行为特征和属性,这样才能为用户设计产品或开展营销活动。一般常见的错误想法是画像维度的数据越多越好,画像数据越丰富越好,费了很大的力气进行画像后,却发现只剩下了用户画像,和业务相差甚远,没有办法直接支持业务运营,投入精力巨大但是回报微小,可以说得不偿失。鉴于此,我们的画像的维度和设计原则都是紧紧跟着业务需求去推动。
2. 用户画像数据仓库构建
2.1 数据源的集成
目前Qunar用户画像数据仓库中的数据源来自业务数据库的数据和用户行为日志数据,目前数据仓库中基本涵盖了机票、酒店、火车票以及保险等业务系统的数据,可以从全方位的了解去哪儿的一个用户的画像。
2.2 数据维度:我们有哪些数据?
2.3 数据仓库:我们有哪些数据?
目前我们画像数据仓库的构建都是基于Qunar基础数据仓库进行构建,并按照维度进行划分。
目前数据仓库中包括的信息如下:
(1)画像数据仓库表20个
(2)画像数据仓库
(3)国内、国际 2年+数据
(4)标签数据
(5)每日增量
- 基本数据
- 业务数据
- 搜索
- Booking
2.4 用户唯一标识设计
用户唯一标识是整个用户画像的核心,它把从用户开始使用app到下单到售后整个所有的用户行为轨迹进行关联,可以更好的去跟踪和描绘一个用户的特征。
2.5 调度系统:ETL过程设计
- 依赖数据平台调度系统
- 定时触发和Job依赖触发两种模式
2.6 任务执行:ETL过程设计
- ETL的过程主要是将数据源的清洗到数据仓库表的过程(每天更新增量)
- Summary表的处理逻辑(每天更新全量)
- 标签库的处理(每周更新,2年全量)
2.7 用户主题分析及数据挖掘
有了丰富的画像数据后,产品和运营人员可以根据用户主题进行数据分析和数据挖掘相关的工作。用户主题Cube的定义如下:
(1)Measure
- 订单数量
- 订单金额
- 搜索次数
- Booking次数
(2)Dimension
- 下单时间
- 出发时间
- 航司信息
- 舱位信息
- 航班(出发地、目的地)
- 基本信息(年龄、性别等自然属性)
3. 用户画像标签构建策略
3.1 用户标签特征属性
用户的特征属性可以是事实的,也可以是抽象的;可以是自然属性,比如性别,年龄,星座等,可以是社会属性,比如职业,社交,出生地等;还可以是财富状况,比如是否高收入人群,是否有豪车豪宅等固定资产,对于机票用户来讲位置特征也是比较重要的属性,比常驻地,常出差地,老家等。这些属性都可以清楚的描绘一个用户的画像特征。
- 画像标签一般根据公司的业务体系来设计,存储有HDFS,HBASE,ES
- 标签的更新频率:每日更新,每周、每月更新
- 标签的生命周期:有的数据随时间衰减迭代
3.2 用户标签分类及特征项
提到用户画像就不得不提到一个词“标签”。标签是表达人的基本属性、行为倾向、兴趣偏好等某一个维度的数据标识,它是一种相关性很强的关键字,可以简洁的描述和分类人群。标签的定义来源于业务目标,基于不同的行业,不同的应用场景,同样的标签名称可能代表了不同的含义,也决定了不同的模型设计和数据处理方式。我们给机票用户画像打标签分类为两大类,基础类标签和个性化标签,这些标签可以有重复,但是都是通过不同的角度去定义和刻画一个用户,来满足不同的业务营销需求。
3.3 用户标签库构建流程
4. 用户画像技术架构
4.1 技术架构
4.2 实施方法论
5. 用户画像数据应用实践
5.1 用户群体特征分析
(1)设计目标
- 根据条件可选项,输出筛选用户群体
- 图形展示用户群体属性特征
(2)应用场景
- 如果筛选的用户群组满足业务的要求,将筛选条件形成参数
- 根据参数提供接口查询
5.2 客户行为预测
客户行为预测建立步骤:
- 建模数据准备
- 客户流失节点判断
- 模型应用变量确定
- 模型构建
- 模型应用
- 模型验证
可以对用户流失做及时预测指导建议用户维系运营。
5.3 数据和业务在一起
用户画像与业务产品互相依赖,相辅相成。
- 用户画像标签库丰富优化
- 快速提供数据服务
- 数据分析+机器学习+模型训练
6. 总结
用户画像作为大数据的根基,它完美的描述了一个用户的信息全貌,为进一步精准、快速的分析用户行为、消费等重要信息,用户画像仓库同时也提供了足够的数据基础,让我们Qunar更好的为用户提供高价值的服务,满足用户智慧出行的需要。
作者:李国芳
来源:http://www.36dsj.com/archives/68574
本文来源于人人都是产品经理合作媒体@36大数据,作者@李国芳
写的好棒,有些东西还需要消化一下,像流失预测这类的模型,除了运营有想法外,还需要有给力的数据支撑能建立起模型;标签的建立也是,除了有用户特征的埋点,哪些特征组成标签,是否有方法论