标签画像系统如何进行标签质量的评估?
编辑导语:标签画像系统,简单说就是把用户分到多少个标签里面去。每个用户可以分到多个标签里,这些标签之间也有着联系,彼此构成了标签画像系统。本文作者今天针对标签画像系统中的标签质量展开了分析,告诉了我们为什么要进行标签质量评估,以及如何进行标签质量的评估。
针对标签质量评估,简单进行一些分享。
一、为什么要进行标签质量评估
首先,为什么要进行标签质量评估?
想象一下,我们开发了一个标签,比如“用户年龄”标签吧,业务想针对20-30岁的人进行精准投放。但经过筛选,才筛出来几千个人,和公司总体用户相比仅仅是九牛一毛,那这样的标签,还有价值不?
因此,对标签的质量进行科学完整地评估,有助于控制标签质量,指导标签的管理者、开发者不断地提升标签质量。通过创建一套完整的评估体系,对于质量过差的标签,可以考虑不进行上线,等达到基本的质量要求后才能开放给业务使用。
不然,既对业务带来不了价值,也容易让标签画像系统失去用户的信任。
回过头来,上面这个例子反映的问题,其实就是标签的质量差,准确地说,是标签的覆盖度太低了。
除了覆盖度,还有很多指标可以衡量一个标签的质量,咱们在下面详细展开,主要通过数据质量、应用质量、业务质量三个方面来评价标签的质量。
二、标签质量评估:数据质量评估
数据质量是标签质量最基础的评价,主要分为准确度和覆盖度两部分:
1. 标签的覆盖度
标签覆盖度的含义,是指在一个标签中,有业务含义的人群数量与总人群数量的比例。
举个例子:【性别】标签,全量用户是100万的规模,其中40万打上了“男性”标签,35万打上了“女性”标签,其他25万人都没有打上任何标签。
那么,【性别】标签的覆盖度就是75%。
这个覆盖度还算是比较可以,想象一下如果覆盖度只有20%,会有哪些影响呢?可能会有下面的负面影响:
- 用标签进行人群圈选的时候,人数过少;
- 用标签统计平台用户的特征时,和真实情况会有偏差。
因此,提升标签的覆盖度是标签的基本质量要求。
为啥会出现标签覆盖度低的情况?往往是一些用户自己填写的标签,覆盖度极低,之前的文章中也介绍过。
2. 标签的准确度
标签准确度的含义,是指给用户打的标签中,准确反映事实的人群数量与总人群数量的比例。
举个例子:【性别】标签,用户A真实情况是男性,但是打标签打成了女性,那么这就是一个错误的标签值。假设100万用户,真实情况50万男性50万女性,有以下表格:
那么这个标签的准确度就是:(35+30)/(35+5+5+30)=86.7%
提升标签准确度的意义也是不言而喻的,准确度如果太低,那这个标签基本丧失了应用价值;至于阈值的设置,还是基于各自的业务情况来定。
三、标签质量评估:应用质量评估
应用质量的评估是从产品角度出发,评估标签对于产品应用的价值。若一个标签的数据质量高,但是用户都用不起来、不好用,那么也是难以发挥出标签内在的价值。
举个常见的例子:大家都会做的一个标签,【用户近30天gmv值】,这个标签(是个连续性值,但可以说是个广义的标签)按照上文的标准衡量,覆盖度高,100%的用户;准确度也高,100%(SQL正确的话……),那这个标签有用吗?
往往业务不太爱用这种连续值的标签,为什么?
——因为这种标签的应用质量太差了。
对于业务来讲,【近30天gmv值】是1万美金,这个是高还是低?
——如果是没有经验的业务人员是完全无法判断的。
因此,要将这种标签的应用价值提升。针对这个例子,提升的方法可以是把连续值分段,做成【高价值】、【中价值】、【低价值】,也可以做分布曲线给用户提供参考。
再比如:一个标签是用户常用的搜索词,如果不进行一些特殊的加工,将是很冗余的长串字符,用起来也是体验很差,这也属于应用质量低。
关于应用价值的衡量,往往会用一些滞后性的指标衡量。基础假设是,业务人员用的多的标签,一定是应用质量好的;业务人员用得少的标签,一定是应用质量弱的。
具体衡量应用多少的指标,可以用【使用次数】、【使用热度】、【调用次数】等来综合衡量。对于应用价值低的标签,可以针对性地进行分析,不断提升每个标签的应用价值。
四、标签质量评估:业务质量评估
最后一个衡量标签质量的方面,就是业务质量。
这个方面是最不好衡量的,但又是最最重要的。因为相比于数据质量是从数据层出发、应用质量是从产品层出发,业务质量是从业务层出发,是离业务价值最近的。
想象一下,业务如果用了一个标签,对一群人进行了投放,ROI是日常投放的好几倍,那这个标签的价值可以说是毋庸置疑了。这时,我们可以说这个标签的业务质量很高。
什么样的标签的业务质量会比较高呢?
比如:【用户购买偏好】、【用户的营销敏感度】等等,这类的标签往往都是一些复杂逻辑的算法标签,常常有比较强的业务质量。
但这里存在的一个悖论,就是业务质量是后验的,即想知道一个标签的业务质量,就一定要进行投放测试才行。而且往往不同场景的一些投放带来的结果也不太一样,就导致业务质量的评估往往很难落地——这确实是个难点。
作者的经验是,在评估标签质量时,先重点考虑数据质量和应用质量,这两者都没问题的时候,就可以上线开放给业务使用。
但对于业务使用标签后的数据进行回流,监控标签应用在业务场景的价值情况,最终可以有个比较公允的衡量。而这个衡量,将对后面标签的优化方向,带来很强的指导性意义。
今天先分享这些,欢迎关注后续内容。
本文由 @冬至 原创发布于人人都是产品经理,未经作者许可,禁止转载。
题图来自Unsplash,基于CC0协议。
如何验证标签的准确度呢
热度和使用次数有啥区别呢?
似乎也没啥区别,个人理解 次数是“调用次数”,热度是“标签被使用的时间”,前者是点、后者是面?
想问下,在打标签的时候,标签下的分层是可以同时选的吗?比如:同时属于越野爱好者,又属于音乐爱好者
标签会有基础一级二级甚至多级类目,然后会根据用户的情况打相关的明细标签
本来对于如何评估标签质量问题还比较困惑,学习了,期待更多干货
欢迎关注weixingongzhonghao:首席数据科学家!
有一个问题,你举例说有100w个用户,男性真实为50w,女性真实为50w,你怎么来判断其实5w男性标签打成女性标签呢?这个5w是怎么找出来的?
你说的对,现实世界准确度往往是很难评估的。我之前一般会用一些外围数据辅助验证,比如用研的抽样数据等等。
好问题