2张图带你看懂今日头条推荐系统

32 评论 26376 浏览 289 收藏 8 分钟

推荐系统是一个策略行为,本文将用两张图,来带你看懂今日头条的推荐系统。

推荐系统的“前身”

2016年,腾讯以80亿美元估值投资今日头条,结果大家都知道,张一鸣拒绝了腾讯的投资,现在大家也知道,字节跳动估值750亿美元,这一切,推荐系统功不可没。

因为搜索引擎和推荐系统太相似,相对来说也更简单(勿喷),所以我们先来了解一下搜索引擎。至于搜素引擎是不是推荐系统的前身,我很懒,没有考察。

如上图,搜索引擎分成为离线部分和在线部分,每一部分有不同的使命。

简单来说,搜索引擎的离线部分,专注于内容的搜集和处理。搜索引擎通过网络爬虫抓取网站上的原始内容,并将内容建立索引。这些内容会根据搜索系统的不同要求建立不同的索引体系,比如新闻类型的内容,会建立时效性的索引数据。

搜索引擎的在线部分,负责响应用户的搜索请求,完成内容的筛选和排序,并将最终结果返回给用户。我们举一个例子来说明这个流程:

  1. 用户在搜索引擎输入一个关键词NBA,搜索引擎搜索会对关键词进行分析、变换、扩充和纠错等处理,比如发现美职篮与NBA是同义词,就会将其扩充。
  2. 接下来,搜索引擎会通过多种方式从不同索引数据获得候选集,这个环节叫召回。
  3. 得到候选集后,搜索引擎通过更精细的计算模型对每一篇候选内容进行分值计算,对候选集的每一项进行排序。
  4. 这个时候,还不能将结果展示给用户,需要经过规则干预这一过程。这个过程服务于特定的产品目的。假如有这样一条“官方网站保护规则,确保所有品牌搜索词都可以优先返回官网”,则此时就会将官网插入并置顶,最后再将结果展示给用户。
  5. 此时,搜索引擎的工作还未结束。搜索引擎会根据用户的点击反馈去优化排序模型。比如,大部分用户都没有点击文章10,则文章10后续就不会获得更靠前的展现位置。

对以上两图进行总结就是下图,就是想让你们看的第一张图:

今日头条的推荐系统

通过上“一”张图,我们明白了搜索引擎的原理(无论怎样我都会装作你看懂了),而今日头条的这张图,就是比上图上多了一笔,考虑到这两张图高度相似,我这么懒的人,当然是不会去画的了,你们发挥想象吧。

其实,推荐系统也有离线部分和在线部分。上图(那不是图,是PNG)即是推荐系统的离线部分,与搜索引擎大同小异。

  1. 和搜索引擎一样,推荐系统也需要获取内容。推荐系统通过数据库导入、协议同步和用户提交等方式获取推荐内容。区别于搜索引擎,推荐系统获取内容的方式较多,且内容的结构化程度要远胜于搜索引擎爬虫抓取的内容。
  2. 推荐系统也需要将待推荐的内容进行索引化处理,这一点与搜索引擎较为相似。推荐系统的维度会更多。

接下来,就是推荐系统的在线部分了。天啊,看到上图,发现推荐系统真的和搜索引擎太像了,就多了一笔。

  1. 搜索引擎的输入为用户的搜索关键词,推荐系统同样需要输入,只是这个过程用户没有感知,对推荐系统来说,它的输入为场景信息,比如时间、地点和设备等。
  2. 搜索引擎获得输入后,会进行关键词处理,对于推荐系统来说,会进行用户画像查询。这个案例中,推荐系统了解到,该用户在实体词维度,对NBA感兴趣,在分类维度,对体育和科技感兴趣。
  3. 查询到用户画像后,推荐系统就进入召回环节。它通过多种方式,根据用户画像查询结果“NBA、体育和科技”,从不同索引数据里获得候选集合。
  4. 在召回完成后,和搜索引擎一样,推荐系统按照预定预估目标对候选集进行排序。
  5. 同样,推荐系统也需要经过规则干预步骤后,才会将最终结果展示给用户。
  6. 对于最后一步,用户的各种动作行为,在搜索引擎里,会持续优化排序模型,在推荐系统里,还会持续改进自身的画像。

对以上两图进行总结就是下图,就是想让你们看的第二张PNG(图):

推荐系统的本质

通过对搜索引擎和推荐系统的两张图,我们大致明白了推荐系统是怎么个一回事。实际上,推荐系统是一个策略行为。对于策略,他有四要素,分别是:

  1. 待解决问题
  2. 输入(影响解决方案的因素)
  3. 计算逻辑(将输入转换成输出的规则)
  4. 输出(具体的解决方案)

对于今日头条来说:

它待解决的问题是“从海量的内容中,找到用户喜欢的内容”;

他的输入是“用户画像和内容特征”;

计算逻辑:将这些内容特征按一定规则转化为喜欢度;

输出:将内容按喜欢度从高到低排序。

由于我推荐系统的课程还未结束,先不展开这部分内容了。后面博客会对上文进行展开,有兴趣的同学,欢迎关注。

说明:以上内容来源于个人阅读和付费课程的归纳整理。

 

本文由 @皮带 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 写的很好,通俗易懂,突然就流产结束了

    来自江苏 回复
  2. 基于《走近内容推荐时代:写给内容行业从业者的推荐分发入门书》的洗稿。几乎连案例,图片,文案都没有换。完全截取部分段落。想学习的直接去看书即可。

    来自浙江 回复
  3. 写的挺好的啊,做推荐产品经理,能给些建议吗

    来自广东 回复
  4. 我猜您曾经阅读过内容算法这本书~

    来自北京 回复
  5. 是的 内容被网站删除了 我猜怀疑我带货

    来自福建 回复
    1. 希望尽快出新文章

      回复
  6. 写的很好,期待更深入的内容。

    来自北京 回复
  7. 哈哈哈哈

    回复
    1. 头条的来了 抓住 别跑 😉

      来自福建 回复
  8. 写的很不错,思路清晰

    回复
    1. 谢谢

      回复
  9. 其实稍微理解技术的都能大致推出原理,本文非常清晰描述了智能推荐的大致原理,适合小白理解,但是往细里讲还有很多内容

    来自广东 回复
    1. 期待大神分享

      回复
  10. 写的不错,让我快速了解了些推荐系统的内容,谢谢

    来自浙江 回复
    1. ◕‿◕

      回复
  11. 不知道有没有从产品应用场景角度或者对各行业推荐系统的解读呢?

    回复
    1. 解读不敢 后续会总结著名视频和电影网站的推荐系统

      回复
  12. 我觉得挺有道理的呀

    回复
    1. 谢谢 感谢肯定

      回复
  13. 🙂

    回复
  14. 胡说八道

    回复
    1. 有何高见

      回复
  15. 完全不知道说些什么

    回复
  16. 通俗易懂

    回复
    1. 谢谢

      回复
  17. 有些人不屑于你写的东西
    看起来很简单,我想落地可能很难
    你是不是揭某些人的底了?看起来应该是3个A的底,被你一说怎么感觉是235啊。
    还是说真的是胡说八道?

    来自浙江 回复
    1. 您这边想说的是规则干预环节吗
      这个从产品上来说 是有必要存在的 特别是推荐系统需要学习过程 对于热门事件 推荐系统可能不会那么快响应过来 这个时候 规则干预系统就可以起作用了 但这个功能 在用的过程中 确实会存在一些我们不愿意看到的情况

      来自福建 回复
  18. 标题党

    来自上海 回复
  19. 这里有7张图~

    来自北京 回复
    1. 其他是赠品 哈哈哈

      回复
  20. 加油

    来自北京 回复
    1. 谢谢 一起加油 寒冬会更加温暖

      来自福建 回复