「推荐系统」评估指南，准≠好

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

「推荐系统」评估指南，准≠好

58UXD

2020-09-19

0 评论 14859 浏览 51 收藏

16 分钟

编辑导语：很多人都会有这样的经历，在淘宝刚搜了一个商品后，推荐里就会出现大部分类似的商品；或者你购买了一个商品后，会看见此商品配件的推荐；这就是推荐系统，推荐系统是如何进行评估？怎么评估才不会引起用户的不适？本文对此进行了详细的介绍，我们一起来看一下。

对于当下的互联网产品，无论是主流或非主流，处处都能看到推荐系统的应用场景。

比如，当你在淘宝下单购买了一台iPhone 11，购买完成页下方立刻就会给你推荐诸如「全新AirPods Pro」、「Apple Watch 5」等相关商品；再比如，当你在豆瓣上标记了想看热门悬疑网剧《隐秘的角落》，在厕所刷抖音的时候，可能就会看到《无证之罪》、《轮到你了》、《白夜追凶》等等相似剧集的精彩片段；推荐系统这只无形的「大手」已经把我们安排的明明白白了。

推荐系统的强大毋庸置疑，而且我们经常会把它看作是一个神秘的黑箱子，会将其与多种复杂的技术术语相关联，比如“大数据”、“人工智能”、“机器学习”等等，进而认为推荐系统的好坏，就是对用户偏好预测的精准与否；然而，不久前完成的一个研究课题，打破了这个认知误区。

一、推荐系统的本质

面对这个课题，首先需要回答的就是：如何定义推荐系统的好坏？

其实，这个问题有一种最符合直觉的答案，即越能精准预测用户需求的推荐系统就是好的；乍一看，这个答案几乎没什么问题，然而，精准预测只是一个好的推荐系统的必要条件。

那究竟什么才是「好」？要回答这个问题，我们需要先了解推荐系统的本质。

推荐系统（Recommend System）的研究由来已久，这一概念初次被提及，是在1990年哥伦比亚大学研究者Jussi Karlgren的著作中，直到1994年才成为一个相对独立的研究领域；虽然这一领域已经有30年的研究沉淀，但业内对推荐系统的定义仍未达成一致，不过密歇根大学的研究者Resnick和Varian在1997年提出了一个较为公认的定义：“推荐系统是利用电子商务网站向顾客提供商品信息和建议，帮助用户决定应该购买什么产品，模拟销售人员帮助客户完成购买过程”。

以上这段描述反映了推荐系统最本质的三个问题：

如何精准的预测用户的需求？
如何全面细致地描述网站上的信息？
如何给用户推荐最适合的信息？

“预测用户”&“描述信息”主要是依赖技术团队的算法，而且业内在该方面的研究相对比较成熟。

目前常用的预测技术包括：基于内容的推荐、协同过滤推荐、基于知识的推荐、基于网络结构的推荐、组合推荐及其他推荐等等，由于技术难度较硬核，在此不做展开。

在确保预测精准及全面描述的基础上，便是“推荐”最合适的信息给用户了，但什么是最合适的？这个评判的标尺就拿捏在用户的手上。

二、推荐系统的评估维度

接下来就是关于如何评估推荐系统的好坏，业内普遍认为，推荐系统的评估涉及两大范畴的维度：准确度（Accuracy）和可用性（Usefulness）。

其中，准确度表示推荐系统预测用户行为的能力，主要根据离线实验的方式来评估；可用性更多反映的是用户的主观体验，常见的评估指标包括多样性（Diversity）、新颖性（Novelty）、惊喜度（Serendipity）、信任度（Trust）及实时性（Utility）等。

1. 多样性（Diversity）

多样性是指每条推荐信息的两两不相似程度，如果推荐结果过于单一，势必会让用户失去不断浏览的兴趣；而单纯的增加多样性并不算难，挑战主要在于如何增加推荐信息多样化的同时，又可以保证结果符合用户的「口味」。

2. 新颖性（Novelty）

新颖性是指推荐结果中出现的用户以往没看到的信息，提升新颖性最常用的办法是根据平均流行度来推荐，把流行度较低的信息提供给用户，会增加其新颖性感知。

但是，一味提升新颖性也未必会增加用户满意度，同样需要在确保精准性的前提下进行。

3. 惊喜度（Serendipity）

之所以会把惊喜度作为一个指标，纳入推荐系统评估的体系中，是为了衡量推荐系统解决如下问题的能力：用户面对之前他们已经遇到的推荐结果，他们变得越来越厌烦，推荐系统需要提供让用户感到既新奇又有吸引力的信息。

「惊喜」与「新颖」在中文语境中有些相似，但在此处并不相同，笔者通过以下示例来做说明。

比如，你平时会用网易云音乐来听歌，比较喜欢周杰伦、林俊杰这类R&B歌手，几乎听遍了他们专辑中的所有歌曲；如果系统给你推荐了《夏天的风》这首歌，而且你之前没听过，但是当你看了这首歌的封面，发现是周杰伦创作的，充其量也就会感觉还比较新颖，但未必会有惊喜的感觉；如果系统给你推荐了一首从创作、演唱到曲风完全不同于以往听过的R&B的歌曲，但你听完之后发现很喜欢，那这时候你就不只觉得新颖，更会有一种惊喜的感觉。

4. 信任度（Trust）

信任度也是衡量推荐系统好坏的重要维度，顾名思义——信任度指的就是用户对推荐系统的信任程度；信任度高的推荐系统更易引导用户产生交互行为，影响信任度的不只包括推荐的内容，也包括推荐的样式。

目前提升信任度的方式主要包括增加推荐系统的可解释性（Explanation，即推荐理由），或者引入社交网络信息（熟人推荐易提升信任度）。

用研面面观 | 「推荐系统」评估指南，准≠好

微信「看一看」展示的部分信息，即外露了社交关系相关的推荐理由。

5. 实时性（Utility）

该指标主要指——当用户与推荐系统发生交互行为后，推荐信息列表是否及时的发生变化；如果用户产生若干信息检索行为后，系统推荐的信息依然不变，显然该推荐系统未能实时学习用户的需求偏好；尤其对于信息具有较强时效性的产品，该指标显得更为重要，比如新闻资讯类、部分生活服务类平台。

三、推荐系统评估案例

下面就以笔者近期接到的一个需求为例，说明推荐系统体验评估的操作方法。

1. 需求背景

58同城平台上，提供了包括招聘、房产、二手车、本地服务等多种生活服务类信息，每类信息都有相应的个性化推荐系统，虽然推荐系统在不断优化，但更多的是针对算法层面的提升，而推荐系统在用户主观体验方面的研究尚属空白，因此需要通过专项调研了解推荐系统现状及优化方向。

2. 评估方法选择

在做推荐系统评估时，以往多会采用一种叫做“Case by Case”的方式，即让用户针对推荐结果逐条进行“Yes or No”的评价，这种评估方式的优点是：评估是实时性的，指向明确，颗粒度较细；但缺点也很明显，样本选择不具有代表性，缺乏统计学意义，而且评价过于简单，仅能反应用户主观准确性。因此，为了能使评估结果有更好的代表性，包括更全面的评估维度，我们选择采用定量问卷的方式。

3. 评估业务选择

在正式开始实施评估前，还需要明确一个问题：是针对58全业务进行评估，还是针对不同业务线分别评估？由于58各业务独立性较强，且用户多会进入对应业务的专属频道进行查找，因此，我们与需求方沟通后，决定针对不同业务线单独评估，并且决定先以租房业务线为试点进行，跑通后再复用至其他业务线。

4. 评估场景选择

即使仅针对单一业务线来进行评估，推荐系统的落地场景仍不止一处，如何选择具体的评估场景，可以依据该场景的曝光量及用户状态来选择，针对58租房业务线，推荐系统主要会在App首页Feed流、租房频道首页Feed流、信息列表页及房源详情页底部推荐4处呈现给用户，但首页Feed流中会混杂其他业务信息，较难仅针对租房进行评估，进入信息列表页的用户多属目的性较强的用户，并非推荐系统目标用户，因此，本次需要评估的页面场景确定为租房频道首页Feed流（如下图）。

用研面面观 | 「推荐系统」评估指南，准≠好