爱奇艺个性化推荐排序实践

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

36大数据

2017-11-14

4 评论 27410 浏览 199 收藏

17 分钟

在海量的内容在满足了我们需求的同时，也使我们寻找所需内容更加困难，在这种情况下个性化推荐应运而生。

在当前这个移动互联网时代，除了专业内容的丰富，UGC内容更是爆发式发展，每个用户既是内容的消费者，也成为了内容的创造者。这些海量的内容在满足了我们需求的同时，也使我们寻找所需内容更加困难，在这种情况下个性化推荐应运而生。

个性化推荐是在大数据分析和人工智能技术的基础上，通过研究用户的兴趣偏好，进行个性化计算，从而给用户提供高质量的个性化内容，解决信息过载的问题，更好的满足用户的需求。

爱奇艺推荐系统介绍

我们的推荐系统主要分为两个阶段，召回阶段和排序阶段。

召回阶段根据用户的兴趣和历史行为，同千万级的视频库中挑选出一个小的候选集（几百到几千个视频）。这些候选都是用户感兴趣的内容，排序阶段在此基础上进行更精准的计算，能够给每一个视频进行精确打分，进而从成千上万的候选中选出用户最感兴趣的少量高质量内容（十几个视频）。

推荐系统的整体结构如图所示，各个模块的作用如下：

用户画像：包含用户的人群属性、历史行为、兴趣内容和偏好倾向等多维度的分析，是个性化的基石
特征工程：包含了了视频的类别属性，内容分析，人群偏好和统计特征等全方位的描绘和度量，是视频内容和质量分析的基础
召回算法：包含了多个通道的召回模型，比如协同过滤，主题模型，内容召回和SNS等通道，能够从视频库中选出多样性的偏好内容
排序模型：对多个召回通道的内容进行同一个打分排序，选出最优的少量结果。
除了这些之外推荐系统还兼顾了推荐结果的多样性，新鲜度，逼格和惊喜度等多个维度，更能够满足用户多样性的需求。

当代模型

GBDT+FM模型，对embedding等具有结构信息的深度特征利用不充分，而深度学习（Deep Neural Network）能够对嵌入式（embedding）特征和普通稠密特征进行学习，抽取出深层信息，提高模型的准确性，并已经成功应用到众多机器学习领域。因此我们将DNN引入到排序模型中，提高排序整体质量。

DNN+GBDT+FM的ensemble模型架构如图所示，FM层作为模型的最后一层，即融合层，其输入由三部分组成：DNN的最后一层隐藏层、GBDT的输出叶子节点、高维稀疏特征。DNN+GBDT+FM的ensemble模型架构介绍如下所示，该模型上线后相对于GBDT+FM有4%的效果提升。

DNN模型

使用全连接网络，共三个隐藏层。
隐藏节点数目分别为1024，512和256。
预训练好的用户和视频的Embedding向量，包含基于用户行为以及基于语义内容的两种Embedding。
DNN能从具有良好数学分布的特征中抽取深层信息，比如embedding特征，归一化后统计特征等等。
虽然DNN并不要求特征必须归一化，不过测试发现有些特征因为outlier的波动范围过大，会导致DNN效果下降。

GBDT模型

单独进行训练，输入包含归一化和未归一化的稠密特征。
能处理未归一化的连续和离散特征。
能根据熵增益自动对输入特征进行离散和组合。

FM融合层

FM模型与DNN模型作为同一个网络同时训练。
将DNN特征，GBDT输出和稀疏特征进行融合并交叉。

使用分布式的TensorFlow进行训练

使用基于TensorFlow Serving的微服务进行在线预测

DNN+GBDT+FM的ensemble模型使用的是Adam优化器。Adam结合了The Adaptive Gradient Algorithm（AdaGrad）和Root Mean Square Propagation（RMSProp）算法。具有更优的收敛速率，每个变量有独自的下降步长，整体下降步长会根据当前梯度进行调节，能够适应带噪音的数据。实验测试了多种优化器，Adam的效果是最优的。

工业界DNN ranking现状

Youtube于2016年推出DNN排序算法。
上海交通大学和UCL于2016年推出Product-based Neural Network（PNN）网络进行用户点击预测。PNN相当于在DNN层做了特征交叉，我们的做法是把特征交叉交给FM去做，DNN专注于深层信息的提取。
Google于2016年推出Wide And Deep Model，这个也是我们当前模型的基础，在此基础上使用FM替换了Cross Feature LR，简化了计算复杂度，提高交叉的泛化能力。

阿里今年使用attention机制推出了Deep Interest Network（DIN）进行商品点击率预估，优化embedding向量的准确性，值得借鉴。

总结

推荐系统的排序是一个经典的机器学习场景，对于推荐结果影响也十分重大，除了对模型算法的精益求精之外，更需要对业务的特征，工程的架构，数据处理的细节和pipeline的流程进行仔细推敲和深入的优化。

Ranking引入DNN仅仅是个开始，后续还需要在模型架构，Embedding特征，多样性，冷启动和多目标学习中做更多的尝试，提供更准确，更人性化的推荐，优化用户体验。

End.

作者：Michael

来源：http://www.36dsj.com/archives/102164

本文来源于人人都是产品经理合作媒体@36大数据，作者@Michael

题图来自PEXELS，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

内容个性化推荐的那些事儿文章被收录于该专栏

共 16 篇文章36837 人已学习

36大数据

大数据第一平台

119篇作品 2654902总阅读量

2023年，这些公司起飞了

09-144688 浏览

从一碗米饭到一种生活，品牌故事该这样讲述

09-252709 浏览

从供需角度，洞察智能学习产品的策略和机会点

04-058791 浏览

懂行业对产品经理发展的重要性

06-054449 浏览

抖音渠道猛增，“疲软的”业务该怎么办？

04-252978 浏览

 假益达

收获非常大产品经理也能看懂而且还能收获一堆核心迭代思路和算法迭代指标，例如特征转换成本，特征数量，特征记忆能力，结构信息的深层特征学习，泛化能力，复杂度。以上指标可以指导我们更好迭代各大场景的算法，如果未来能结合场景就更好了

最近回复
岁月

太深奥，还得深入学习，不能放松……

最近来自山东回复
大米半

太深奥

最近来自福建回复