推荐策略产品经理实操(一):内容库游戏标签特征
编辑导读:本文作者依据工作中项目实践的所思所想,结合案例等分享了推荐系统设计中内容库游戏标签的制作流程,并对过程中存在的一些问题进行了梳理分析,与大家分享。希望能给大家作为参考,并在工作中产生助益。
很幸运,刚毕业就做了推荐策略产品经理,更幸运的是,公司的推荐系统刚刚起步自己就参与了进去,算是一个从0-1的过程。以下实操项目中出现的数据都进行了处理,与实际项目数据不一样。
(鉴于保密问题,以下所有数据均为处理过的数据,非真实数据)
01 项目背景
目前我们的内容库中只有不到20%的游戏有相应的标签,且均为爬虫标签,覆盖率低且脏数据较多,重复标签较多,同类型标签有很多种名称,没有固定的标准和规范,需要尽快建立自己的标签库和标签标准,进一步优化推荐;
02 项目过程
1. 标准制定与阶段优化
之前的爬虫标签分为一级标签和二级标签,但因为游戏这一物品的特殊性,游戏的标签不应该分级标记,需要多种标记方式,因此我们在进行游戏标签标准制定的时候,去掉了分级标签,而是通过游戏分类、玩法、题材、风格等标签类对游戏进行标签匹配,一个游戏对应1到多个标签,且各个标签之间没有父级关系,属于并存关系;
1)一个游戏至少N+1个标签(也存在少数游戏不够的情况),1个一级标签,N个二级标签,1个核心标签;
- 一级标签和二级标签并不是父类标签的关系,是相互补充的关系;
- 后期模型训练增加1个核心标签(基本上都是一级标签);
2)标记标签顺序:80%是从游戏DAU降序在标记,20%是新游戏
2. 数据导入与字段新增
- 历时3个月,运营标记标签覆盖率提升了65%左右,且均按照制定的标准执行;
- 从运营标记标签达到一定量级时,就协助BI大数据的同学进行字段新增以及内容导入工作;
- 最后确定3个字段:游戏标签/游戏类别/核心标签;
3. 离线训练与结果输出
覆盖率达到一定范围后,可以着手进行离线模型训练,验证效果。目前进行效果验证的主要方法就是对比离线AUC。
1)将测试集与训练集经过一定比例进行随机拆分获得;
2)通过增加不同的字段进行训练:
- 单独添加三个特征时,游戏标签的AUC提升最高,游戏类目提升次之,核心标签没有提升反而数据存在下降;
- 同时添加三个特征时,训练效果最好,离线AUC增长3%左右;
- 去除爬虫标签特征时,数据都有微小的下降,但下降非常小,可以忽略;
4. AB测试与结果闭环
基于离线数据,进行线上AB测试,实验人数30万,实验时间范围2周。实验结果:
- 人均游戏时长增加2.5%,次留增加1%;
- 推荐页面人均点击次数提升7%,人均新游戏个数提升6%,人均广告次数提升2%,推荐列表长长尾游戏占比提升;
03 项目复盘
1. 多渠道问题解决
在制作自己的标签时,我们也并没有只使用现有的爬虫标签,而是对爬虫标签进行了策略优化,进行了爬虫标签的模糊匹配:
- 游戏包名会因为投放渠道的不同,包名存在后缀不同、一个游戏多个包名的情况,导致爬虫标签和游戏包名不能一一对应;
- 用游戏中文名进行模糊匹配,取频率最高的前三个标签;
- 进行匹配后,爬虫标签覆盖率增长一倍多;
2. 基础建设最重要
在最开始0-1的过程一定要多方面考虑,详细进行计划,制定的标准一定要全面、合理、精细、便于实施,我们前期标准的制定经历了很长的时间,一直在打磨标准、不断的优化完善,推翻重来;这个阶段不能怕麻烦,否则后面的阶段问题会越来越多;
3. 产品经理是接口
产品经理在项目的每个阶段其实都不是最专业的,但却是不可缺少的角色,需要时刻的注意业务的方向,并帮助各个专业同学厘清自己的业务方向,做一个合格的“接口”,顺利连通每个环节,确保业务不断前进;
以上就是该项目的一些过程记录,如果有感兴趣的同学,欢迎私聊;
加油,打工人!
本文由 @王珂 原创发布于人人都是产品经理,未经作者许可,禁止转载。
题图来自Unsplash,基于CC0协议。
离线AUC怎么理解呢
个人理解,上线之前要先明确离线收益,离线有了收益,才能再线上验证AB效果
核心标签和游戏标签有什么区别呢?
我也想
我也想加个好友
作者你好,我也有做推荐相关的项目,想请问下,能不能加个好友一起交流学习下