推荐策略产品必备技能之推荐系统框架（中） | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

{{ userInfo.member ? '查看权益' : '开通会员' }}

发布

注册 | 登录

推荐策略产品必备技能之推荐系统框架（中）

策略产品研究院

2021-06-22

3 评论 12071 浏览 89 收藏

7 分钟

编辑导语：推荐系统中包含着许多模块，数据流是其中的一个重要模块。在上篇文章里，作者阐述了推荐策略产品中的系统框架及模块演进；本篇文章里，作者总结了推荐系统框架中的数据流模块，让我们一起来看一下。

在本章节，我们来了解推荐系统框架的数据流。

一、概括

为什么要了解数据流？

对于一款非常复杂的产品，比如像推荐系统这块由多个模块组成的产品，只有了解了其数据流，才能知道这个系统是如何运作的。

对于产品经理自身而言，只有了解了整体数据流，才能增强自己对复杂产品设计的把控能力。

二、推荐系统数据流

1. 背景Brief

要了解推荐系统的数据流，首先需要知道，对于一个推荐系统，主要的数据模块。可以将其抽象成3个模块：用户数据、物料数据、用户行为。

2. 推荐系统目标

对于一个推荐系统，它的目标是什么？通过两个case来了解。

1）Case 1：资讯场景

比如资讯场景业务目标是点击率。点击率的计算逻辑 = click / show。

那为了提升点击率，我们需要哪些数据实现目标？

静态数据：用户表、物料表。
用户行为数据：用户行为数据。

聚焦到用户行为数据，如何定义哪些是正样本、哪些是负样本。

需要注意的是，在行为数据定义时候（样本定义时候），经常出现的几个show虚报的问题：

推荐结果即show。推荐结果即show的意思是，比如一个相关推荐场景，后台服务器一次给出的预测结果是10条数据，客户端只展现了4条。为了图方便，客户的上报show的逻辑是将所有的返回推荐结果都上报为show。
加载即show。在信息流场景，往往需要预加载。但是很多预加载的item，实际上尚未被展示。客户的埋点逻辑是加载即上报show，因此会导致show虚高。
信息流上下滑动。在信息流场景，还经常出现的一个问题是，用户经常上下刷动，所以同一物料会有多次曝光，建议上报时候做去重设置。

2）Case 2：小视频场景

比如小视频场景，建模目标是完播率，即视频的播放时长/视频的总时长。

3. 推荐系统如何实现业务目标

将推荐系统实现业务目标拆分成两条数据流来理解，在线数据流和离线数据流。

1）在线数据流

在线数据流是指一个请求进入到推荐系统到给出预估结果的流程，参考下述示例图。

接着进一步了解在线数据流。

用户来到APP，打开APP，这个时候前端会像服务器后端发送请求，接着服务器后端会像推荐系统（SaaS服务）发送请求。

推荐服务接受到这个请求，会先进行load balance，接着后端处理，在后端处理分为算法和规则，算法即召回和排序，规则即rerank。

根据2.2的描述，我们知道，对于一个推荐系统来说，都有其特定的目标，当我们完成目标确认后，比如提升点击率或者完播率。

接着就可以开始建模了。假设模型已经ready。来看一下推荐系统的在线流程～

召回（Recall）：召回的作用是从整个物料库中，通过某一种/多种策略，快速召回一小批物料，供后续模型打分使用。
排序（Rank）：排序是将前一个阶段召回的物料进行模型排序。
重排（Rerank）

重排是什么？

重排是基于排序环节的打分结果，对上述结果再次进行排序。

为什么需要重排？

在上一个环节，排序做的事本质上是预测用户对物品该兴趣的概率，考虑的只是物品与用户之间的关系，但是忽略掉了物品之间的相关性。

如何理解呢？分享一个极端的case，小红最近酷爱刷电影剪辑类小视频，模型学习的话，很可能学出来最后给用户推荐的都是同一个publisher的10条item。

这样肯定是不行的，试想，如果你正在刷抖音，连续10条都给你推荐同一个博主的内容，这个体验能好吗？所以需要rerank。

重排环节一般会做什么？

重排阶段是个策略出没之地，就是集中了各种业务和技术策略。比如为了更好的推荐体验，这里会加入去除重复、结果打散增加推荐结果的多样性、强插某种类型的推荐结果等等不同类型的策略。

2）离线

什么是离线数据流呢？模型训练以及模型的更新都是离线数据流完成的事。

离线模型的训练以及模型的更新，涉及到多个数据模块的配合，包括用户画像、物料画像、行为日志，离线数据流，我们下章节见～

#专栏作家#

一颗西兰花，人人都是产品经理专栏作家。关注AI产业与写作工具，擅长数据分析，产品研发管理。

本文原创发布于人人都是产品经理。未经许可，禁止转载

题图来自Unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

策略产品研究院

专注推荐&搜索策略产品研究与应用。账号全网同名～微信公众号、小红书，欢迎关注

13篇作品 164137总阅读量

百亿补贴这个作业，京东抄得怎么样？

03-072419 浏览

百亿补贴这个作业，京东抄得怎么样？

瑞幸！开始做私域吧！

10-304909 浏览

瑞幸！开始做私域吧！

什么是AI原生应用，百度讲清楚了吗？

10-194321 浏览

什么是AI原生应用，百度讲清楚了吗？

小红书影视剧宇宙，从碎片开始

08-042962 浏览

小红书影视剧宇宙，从碎片开始

为什么寒冬下To B产品市场备受重视？

06-124099 浏览

为什么寒冬下To B产品市场备受重视？

评论

你没来来来没你

科普得深入浅出，期待这系列的下篇，能再多举些实例吗，就能理解得更透彻了

最近来自北京回复
1. 哪一朵小小葩回复你没来来来没你
  
  没有下篇了呜呜呜呜
  
  最近来自重庆回复
阿狗是只猫

sf 讲的很棒期待下篇了

最近回复

干货整理 | 最全、最新数字人民币知识手册（2023年版）

05-0413449 浏览
回顾2022，展望2023，关于写作、工作、学习和生活的计划

02-038954 浏览
拼多多做本地生活，盯着美团打？

07-263621 浏览