标签画像系统如何进行标签质量的评估？

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

开通会员

发布

标签画像系统如何进行标签质量的评估？

首席数据科学家

2020-10-12

10 评论 20630 浏览 131 收藏

编辑导语：标签画像系统，简单说就是把用户分到多少个标签里面去。每个用户可以分到多个标签里，这些标签之间也有着联系，彼此构成了标签画像系统。本文作者今天针对标签画像系统中的标签质量展开了分析，告诉了我们为什么要进行标签质量评估，以及如何进行标签质量的评估。

针对标签质量评估，简单进行一些分享。

一、为什么要进行标签质量评估

首先，为什么要进行标签质量评估？

想象一下，我们开发了一个标签，比如“用户年龄”标签吧，业务想针对20-30岁的人进行精准投放。但经过筛选，才筛出来几千个人，和公司总体用户相比仅仅是九牛一毛，那这样的标签，还有价值不？

因此，对标签的质量进行科学完整地评估，有助于控制标签质量，指导标签的管理者、开发者不断地提升标签质量。通过创建一套完整的评估体系，对于质量过差的标签，可以考虑不进行上线，等达到基本的质量要求后才能开放给业务使用。

不然，既对业务带来不了价值，也容易让标签画像系统失去用户的信任。

回过头来，上面这个例子反映的问题，其实就是标签的质量差，准确地说，是标签的覆盖度太低了。

除了覆盖度，还有很多指标可以衡量一个标签的质量，咱们在下面详细展开，主要通过数据质量、应用质量、业务质量三个方面来评价标签的质量。

二、标签质量评估：数据质量评估

数据质量是标签质量最基础的评价，主要分为准确度和覆盖度两部分：

1. 标签的覆盖度

标签覆盖度的含义，是指在一个标签中，有业务含义的人群数量与总人群数量的比例。

举个例子：【性别】标签，全量用户是100万的规模，其中40万打上了“男性”标签，35万打上了“女性”标签，其他25万人都没有打上任何标签。

那么，【性别】标签的覆盖度就是75%。

这个覆盖度还算是比较可以，想象一下如果覆盖度只有20%，会有哪些影响呢？可能会有下面的负面影响：

用标签进行人群圈选的时候，人数过少；
用标签统计平台用户的特征时，和真实情况会有偏差。

因此，提升标签的覆盖度是标签的基本质量要求。

为啥会出现标签覆盖度低的情况？往往是一些用户自己填写的标签，覆盖度极低，之前的文章中也介绍过。

2. 标签的准确度

标签准确度的含义，是指给用户打的标签中，准确反映事实的人群数量与总人群数量的比例。

举个例子：【性别】标签，用户A真实情况是男性，但是打标签打成了女性，那么这就是一个错误的标签值。假设100万用户，真实情况50万男性50万女性，有以下表格：

那么这个标签的准确度就是：（35+30）/（35+5+5+30）=86.7%

提升标签准确度的意义也是不言而喻的，准确度如果太低，那这个标签基本丧失了应用价值；至于阈值的设置，还是基于各自的业务情况来定。

三、标签质量评估：应用质量评估

应用质量的评估是从产品角度出发，评估标签对于产品应用的价值。若一个标签的数据质量高，但是用户都用不起来、不好用，那么也是难以发挥出标签内在的价值。

举个常见的例子：大家都会做的一个标签，【用户近30天gmv值】，这个标签（是个连续性值，但可以说是个广义的标签）按照上文的标准衡量，覆盖度高，100%的用户；准确度也高，100%（SQL正确的话……），那这个标签有用吗？

往往业务不太爱用这种连续值的标签，为什么？

——因为这种标签的应用质量太差了。

对于业务来讲，【近30天gmv值】是1万美金，这个是高还是低？

——如果是没有经验的业务人员是完全无法判断的。

因此，要将这种标签的应用价值提升。针对这个例子，提升的方法可以是把连续值分段，做成【高价值】、【中价值】、【低价值】，也可以做分布曲线给用户提供参考。

再比如：一个标签是用户常用的搜索词，如果不进行一些特殊的加工，将是很冗余的长串字符，用起来也是体验很差，这也属于应用质量低。

关于应用价值的衡量，往往会用一些滞后性的指标衡量。基础假设是，业务人员用的多的标签，一定是应用质量好的；业务人员用得少的标签，一定是应用质量弱的。

具体衡量应用多少的指标，可以用【使用次数】、【使用热度】、【调用次数】等来综合衡量。对于应用价值低的标签，可以针对性地进行分析，不断提升每个标签的应用价值。

四、标签质量评估：业务质量评估

最后一个衡量标签质量的方面，就是业务质量。

这个方面是最不好衡量的，但又是最最重要的。因为相比于数据质量是从数据层出发、应用质量是从产品层出发，业务质量是从业务层出发，是离业务价值最近的。

想象一下，业务如果用了一个标签，对一群人进行了投放，ROI是日常投放的好几倍，那这个标签的价值可以说是毋庸置疑了。这时，我们可以说这个标签的业务质量很高。

什么样的标签的业务质量会比较高呢？

比如：【用户购买偏好】、【用户的营销敏感度】等等，这类的标签往往都是一些复杂逻辑的算法标签，常常有比较强的业务质量。

但这里存在的一个悖论，就是业务质量是后验的，即想知道一个标签的业务质量，就一定要进行投放测试才行。而且往往不同场景的一些投放带来的结果也不太一样，就导致业务质量的评估往往很难落地——这确实是个难点。

作者的经验是，在评估标签质量时，先重点考虑数据质量和应用质量，这两者都没问题的时候，就可以上线开放给业务使用。

但对于业务使用标签后的数据进行回流，监控标签应用在业务场景的价值情况，最终可以有个比较公允的衡量。而这个衡量，将对后面标签的优化方向，带来很强的指导性意义。

今天先分享这些，欢迎关注后续内容。

本文由 @冬至原创发布于人人都是产品经理，未经作者许可，禁止转载。

题图来自Unsplash，基于CC0协议。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

首席数据科学家

京东零售资深数据产品经理，公众号：首席数据科学家

20篇作品 285781总阅读量

To B企业内如何配置产品运营团队？

12-062178 浏览

产品原型绘制提效技巧分享

06-128088 浏览

产品经理需要掌握的能力：数据分析与决策能力

11-028505 浏览

产品经理需要懂技术吗？懂到什么程度？

02-029354 浏览

产品经理必备知识——API接口

09-1210771 浏览

木子

如何验证标签的准确度呢

最近来自北京回复
张龙

热度和使用次数有啥区别呢？

最近来自北京回复
1. Vanson 回复张龙
  
  似乎也没啥区别，个人理解次数是“调用次数”，热度是“标签被使用的时间”，前者是点、后者是面？
  
  最近来自上海回复
街角冷若

想问下，在打标签的时候，标签下的分层是可以同时选的吗？比如：同时属于越野爱好者，又属于音乐爱好者

最近回复
1. Zhugg 回复街角冷若
  
  标签会有基础一级二级甚至多级类目，然后会根据用户的情况打相关的明细标签
  
  最近回复
夏莯

本来对于如何评估标签质量问题还比较困惑，学习了，期待更多干货

最近来自北京回复
1. 首席数据科学家作者回复夏莯
  
  欢迎关注weixingongzhonghao:首席数据科学家！
  
  最近来自北京回复
₩Plough™

有一个问题，你举例说有100w个用户，男性真实为50w，女性真实为50w，你怎么来判断其实5w男性标签打成女性标签呢？这个5w是怎么找出来的？

最近来自北京回复
1. 首席数据科学家作者回复₩Plough™
  
  你说的对，现实世界准确度往往是很难评估的。我之前一般会用一些外围数据辅助验证，比如用研的抽样数据等等。
  
  最近来自北京回复
2. Vanson 回复₩Plough™
  
  好问题
  
  最近来自上海回复