如何设计更可信的评价体系？

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

阳子

2019-10-12

5 评论 16663 浏览 86 收藏

18 分钟

其他用户的评价是选择一样东西时的重要参考，但是在利益的驱使下，众多无意义的评价出现。为了真正实现评价的作用，评价体系的设计就显得尤为重要。

评价体系已然作为当今社会不可或缺的一部分，是社会基于群体智慧，对个体可信度最直接有效的度量方法。因此，评价体系将发挥越来越重要的作用。

当我即将预定一家从未去过的酒店，其他房客对这家酒店的评价能让我更客观地了解到酒店的真实质量和服务水平。

当我选择叫一份外卖时，我会打开相关外卖软件搜索餐厅，然后阅读其他食客的评价，尤其是带图片的评价，经过这一步我基本能过滤九成不靠谱的餐厅。

健康的评价体系，对于用户和商家的价值是显而易见的。反之，评价体系的恶意利用会带来一系列的问题，不仅有损初衷，还会降低评价体系长远的影响公信力。

在互联网领域，评价体系存在的主要问题：

个体差异；
评价动机；
利己评价。

问题1：个体差异

在我们所常见的评价体系中，基本上同等对待所有用户的评价，然而这种 “平等” 反而带来了“不平等”。这种做法是建立在“群体无差异”的前提下的，这显然是不符合现实的——人和人的差别实在是太大了。

我和同事出差入住了同一家酒店相同的房型，我是一个容易满足的人，在聊天的时候我表示对这家酒店很满意。

而同事因为之前工作的关系经常入住五星级酒店，所以很多问题就没那么容易逃出他的火眼金睛了。枕头的硬度不够，导致躺下的时候头会陷阱去太多、中央空调的噪音有点大、淋浴碰头上有很多水锈、提供的洗护用品品质不够等等。这一点不能怪我的同事太过挑剔，当我有一天入住的豪华酒店足够多了，我说不定也会一样挑剔。

再举一个例子：

在大众点评里，我有这样一类朋友，他们是天生的“差评师”，他们带着一张挑剔的嘴，味蕾敏感，吃遍上海美食，习惯批评，几乎没有遇到过满意的餐厅。

但也有这样一群朋友，他们天生习惯性好评，遇到什么都说“好吃！” “棒！” “不错！”。

因为个体的生活阅历、物质条件、性格特点的不同，对相同事物的评价相差大，这就会对事物的客观变现的评价产生偏差。

问题2：评价动机

对于受多个独立因素影响的事物的和的平均值，符合正态分布，不管每个因素本身是什么分布 [1]。比如，男性和女性的身高分别呈现正态分布的特征，动物的体重也呈现正态分布的特征。

用户对一款产品的评价，显然也应符合正态分布。因为用户对产品的评价是相互独立的，即我对事物的评价不会左右他人对事物的评价。

然而，事情结果和理论相去甚远。

下图是我从 Google Play 上截取了几款用户规模很大的产品的评分，可以发现从高评分到低评分，均表现出和正态分布相反的情况。

Google Play 内某些App的评分

如果我们仔细想一下用户为什么会评价，这种反常现象就很容易被解释了。

用户在发表评价时的动机，要么是非常喜欢、非常满意，要么就是非常不满意；而持中立态度的用户大多不会没事找事给产品写一段评价。

这就天然造成了好评（5星）和差（1星）会集中出现，而本应占比大多数的中立评价（2~4星）很少。

评价动机导致中评信息的缺失，对评价系统的数据完整性产生影响，进而影响到评价可信度。

问题3：利己评价

利益驱动下，客观性荡然无存。

当你翻阅一下 App Store 里水军的评价和各种垃圾广告，再翻阅某宝的部分有返现引导好评的商家的商品评价，就对这句话深有感触了。

评价体系的作用，原本是为了基于用户的客观评价，帮助消费者做出正确的购买决策的。因为很多商品是有一定的试错成本，所以，我可以通过第三方的评价信息做出理智判断，而非商家通过经由营销高手打磨出来的图文介绍。如此一来，电商会朝着一个良性的方向发展。

不过随着电商的兴起，“刷好评”越来越被需要进而变成了一个具有规模的产业，商家花钱购买水军为自己的商品刷好评，从而引导更多的转化。

某搜索引擎的搜索联想

除了刷好评，还有刷差评的。

花钱购买水军去竞争对手的产品页刷差评，恶意抹黑对手，从其中获利。

还有部分外卖用户，用差评威胁商家，已达到吃霸王餐的目的，甚至进行敲诈勒索。

可以怎么做？

淘宝：筛选可信度较高的评价

淘宝最大的在售品类是服装，而服装是非常受主观偏好所影响的，因此如何建立更加中立可信的评价体系，将有助于淘宝平台更健康地发展。

淘宝为此做了很多尝试，例如人工审核、评价举报、申诉仲裁、引导更多内容完整的带图评价等。

本文想讨论的是，淘宝如何通过各类机制，筛选可信度较高的评价，从而帮助消费者正确决策。

首先，带图的评价相比纯文字的评价，具有更丰富的信息含量，因此在淘宝评价模块中，有一个「有图」筛选的选项，能够快速帮我过滤出所有带图片的评价，这些由消费者实拍而来的照片，更加真实贴近产品本身的情况。

从统计学的角度来说，愿意发图片的用户，大概率来说会更加认真地对商品作出评价。

其次，折叠了淘宝认为对购物参考帮助不大的评价，这一切是基于大数据对评价内容的预测判断。从结果上来看，的确折叠了很多“水评”和一些默认评价，这些评价对购买决策是没有帮助的。

淘宝的做法是通过对评价的正向筛选，让有价值的、可信的评价获得更多展示机会。

淘宝 APP 评价模块截图

Airbnb：异步实名互评

Airbnb 是共享经济的代表，房东将闲置房间出租给游客以获得收入。

设想一下，你会让一个素未谋面的游客住进自己的家里吗？这对于很多房东来说是对信任感的极大挑战。

反之，房客如果要住进陌生人的家里，或多或少也有担心，房东是不是坏人？房东是不是脾气不好？

不仅如此，还要对非标品服务的质量拥有足够的信心，因为每个人的家都是不一样的，这是极端的非标准化。不像酒店，在你入住之前你对其服务质量已经有大致预期了，而民宿不同，经常会超出你的想象。

因此，如何帮助房东和房客建立互信，并彼此约束，是Airbnb业务中非常重要的一环，实名认证的异步互评便是有效的举措之一。

首先，Airbnb 的房东房客，在发布空间或预定空间之前，都需要进行实名认证：上传护照或身份证信息，绑定手机号并鼓励用户上传真实头像。

通过这些信息绑定，可以将账号与人一一对应，一旦发生问题，Airbnb 可以迅速锁定到具体的个体身上。而且实名认证的过程对用户是一种约束，比起匿名行为，实名会让用户相对收敛。

其次，Airbnb 入住流程中有一个很有意思的设计细节：当旅客完成入住后，房东和房客均有14天的时间对双方的表现作出评价，并且只有当双方都在14天之内互相作出了评价后，评价才会对双方展示，且不允许修改。

这种模式是不是很熟悉？

没错，警察审问超过两人的团伙嫌疑人时，就是采用隔离审问，嫌犯之间不能做出事先约定，因此能提高审讯结果的可信度。

房客可能由于在房东家住了几天与房东成了半熟人，碍于情面不忍给出真实评价，Airbnb 用这种方法，避免了房东和房客之间的作弊、消除尴尬，从而一定程度上提高了评价内容的真实性。

缺陷与优化空间

在以上案例中，依然存在缺陷，分别来看：

淘宝

无论是突出带图评价，还是折叠“水评”，目前的优化还是围绕评价的信息内容展开的。

但是，基于评价的效价（用户评论时对商品价值所持的态度，评价效价一般分为正面、中性和负面评价）的优化还不足，“五星好评返5元”和友商恶评等不实评价依然有滋生空间。

Dellarocas[2]将不实评价分为不实高评价和不实低评价。

不实高评价是为了抬高商品评价，提升销量；

不实低评价是为了打压商品评价，遏制商品销售。

Airbnb

异步实名互评终究会迎来“囚徒困境”的宿命：个人最佳选择并非团体最佳选择。

往往如此，房东与房客大概率都会对对方作出好评，而隐瞒部分真实情况。这让原本希望通过评价内容来增加信任背书的做法，渐渐失去公信力。

上一位房东对房客的不实评价，很有可能会让下一位房东接待一位“破坏分子”；而房客对房东的不实评价，也很有可能让下一位旅客住进一间“小黑屋”。

对于信息的可信度而言，可以从信息的来源、信息的传播渠道、信息的内容三个方面入手。

首先，评价信息来源于购买过服务的用户，由于用户的见识、背景、环境、偏好、交易动机的不同，导致用户在购买相同产品时给出的评价完全不同 [3]。

因此，可以基于现有海量的用户数据，对用户本身作出可信度评级，再依次评级对其产生的信息内容作出可信度判断。

陈元琳 [4] 给出了一种采用 K-means 聚类算法将用户分为3类用户群，通过实证数据分析验证了用户群间明显的评价偏好差异；然后利用评价偏好特征，确立每类用户不同类型交易评价的可信度，并提出了动态的交易评价可信度更新策略。

其次，信息的不同传播渠道也会对信息的可信度产生影响。

用户在传统印刷类媒体，诸如报刊、杂志、书本上发布不可信内容的成本远远高于线上网络环境。由于互联网具有传播扩散速度快、节点分散、传播成本低的特征，使不实信息，尤其是不实评价在互联网上疯狂扩张。这一点目前还没有看到好的解决方法，也许只能依赖于政策和相关法规。

再次，信息的内容本身也是值得优化的重点，分别从评价数量和评价内容质量入手。

评价数量越多，信息不对称越小，对于商品的综合判断就越准确，这一点很多电商及外卖平台均采用了次方法（可以按照评价数量和销量筛选商品）。

越是愿意发表详细且高质量的内容的用户，其评价指标也就越可信 [5]。

不过，对于内容的可信度判断有时候不能仅仅依靠内容质量来判断，还可以综合语义和情感均衡、时效性等维度来判断 [6]。

所有场景都适合评价吗？

不过，并不是所有的商品或服务都适用网络评价。

我之前在知乎上提过一个问题：为什么我们不会对航班进行评价？

我截取部分个人也认同的回答：

因为航班这个东西，可变性太大了。

比如在某些时候，由于天气原因或者其他因素造成了航班延误，那么当日当次航班的旅客肯定评价就特别低；而在某些时候天气很好，会发生航班提前抵达的情况，旅客给予较高的评分；在有些航线上比如京沪，机型时刻在变化，这样又对评价的客观性提出了苛刻的要求。

所以，现在一些航空公司是以电子邮件的形式收集当日当次实际乘坐的旅客的意见，而不是任何人均可以评价，这样对于航空公司的数据更为完善。

而对C端，我们会在航旅纵横、飞常准等客户端能够看到，但评价一般是带有旅客本人的主观性的，以及部分灌水无效内容（比如恶意广告等）。

by 知乎用户：CA1301

航班来说属于必须品，而且有的时候是不可替换，它不会因为你的负面评价做出啥改变，当然你要是大佬可能会该下，你坐不坐那个航班它都会照常起飞、降落。

而酒店、约车啥的你一看这个不行啊，你就可以很轻易换一个。

你换个飞机试试？

by 知乎用户：雪落

再者，对于先前发生的滴滴打车事件，反而是因为车主获取了“过多”可靠信息后，心生歹意。

笔者在做调研时，发现很少有人提到评价体系的适用场景，但我认为这同样重要。

了解事物的边界，才能更好地优化。

参考阅读

1. John D. Cook, Why isn’t everything normally distributed?

2. Dellarocas C. Immunizing online reputation reporting systems against unfair ratings and discriminatory behavior [C]//Proceedings of the 2nd ACM Conference on Electronic Commerce. New York, NY: ACM, 2000: 150-157.

3. Xu Q. Should I trust him? The effects of reviewer profile characteristics on eWOM credibility [J]. Computers in Human Behavior, 2014, 33: 136-144.

4. CHEN Yuanlin, CHAI Yueting, LIU Yi, XU Yang. Transaction rating credibility based on user group preference[J]. Journal of Tsinghua University (Science and Technology), 2015, 55(5): 558-564.

5. Ghose A, Ipeirotis P G. Estimating the helpfulness and economic impact of product reviews: Mining text and reviewer characteristics [J].IEEE Transactions on Knowledge and Data Engineering, 2011, 23(10): 1498-1512.

6. 在线中文商品评论可信度研究［Ｊ］，现代图书情报技术，2013（9）: 60-66.

本文由 @阳子原创发布于人人都是产品经理，未经许可，禁止转载

题图来自 Unsplash，基于 CC0 协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App