如何从海量特征中选取用户的关键画像特征?

0 评论 11498 浏览 29 收藏 9 分钟

编辑导读:每个在互联网工作的人,对“用户画像”这个词熟悉得不能再熟悉。用好用户画像,能够帮助我们专注于对用户最重要的事情,有针对性地设计和决策。本文将围绕用户画像的关键特征提取展开分析讨论,希望对你有帮助。

“用户关键特征的提取,是用户画像中比较常见的一个应用场景,但又比较棘手的难题。”

什么是用户的关键特征?如何对用户的关键特征进行提取?今天和大家一起探讨一下。

一、什么是关键特征?

首先,什么是用户的关键特征呢?先举个例子吧。

某个商场中的服装店,每天的客流中有70%是女性,有30%是男性。既然一大半的访客都是女性了,那么我们是不是可以说该服装店的访客的关键特征是【女性】呢?某种意义上,可以这样说,但某种意义上,又不是。

什么情况下不是呢?莫急,请听我继续完善这个场景。

刚才提到的是这个服装店的访客。可是呢,这个商场的访客中有80%是女性,只有20%是男性。这么一比,这个服装店的关键特征还是【女性】吗?

看来,关键特征也可以是个相对的概念。

再举个例子,比如某个公司中有1000员工,其中999名员工都是本科,只有一名员工是博士,那这名博士员工的典型特征,是不是可以是【博士】?

总结一下,用户的特征,可以有千千万。但所谓用户的关键特征,就是该用户(或者该用户群体)有显著特点的特征。

二、关键特征的分类

上面通过例子简单介绍了一下用户的关键特征,从用户类别及特征类别的角度,我们可以将关键特征有以下分类。

1. 单个用户的关键特征

对于单个用户而言,关键特征其实只有一种,那就是个体特征。上面举了博士的例子,这里就不赘述了。

强调一下,单用户的关键特征一定是需要参照物(即对比人群)的,且对比人群是群体,而非个体。不然1个人和1个人进行比较,有啥关键特征可言呢?

2. 群体用户的关键特征

对于群体用户,其实有两类关键特征:一类是绝对特征,一类是相对特征。

所谓绝对特征,只需要看该群体的特征分布即可,是不需要进行对比的。例如上面服装店的例子,如果看绝对特征,女性访客占比70%,那么就可以下结论:该服装店的性别特征是女性,但要强调这只是绝对的情况下。

所谓相对特征,就是强调了对比。例如上面服装店的访客在商场访客的比较之下,男性其实是相对多的。相对特征又分了两类:

  • 正向特征:意思是该特征和对比人群比,明显偏高
  • 逆向特征:这个意思恰恰相反,是和对比人群比,明显偏少。

为啥绝对特征没有逆向的细分呢?因为绝对特征的逆向特征是不可穷举的……比如这个服装店的访客,0%的人是科学家,0%的人是无业人士,0%的人是高收入群体……这种标签是穷举不完的,从绝对值上失去了分析意义。但对于对比标签,是有意义的。

从很多情况之下,相对特征的应用场景更广泛,也更科学一些。

三、关键特征的识别

上面讲了很多不同类型的关键特征,那如何将单用户或者用户群体的关键特征进行识别呢?

首先明确一点,关键特征的识别,首先需要有特征池。所谓特征池,可以理解成标签范围。比如选定【用户地域】、【用户年龄】、【用户购买偏好】……等200个标签作为特征池。开放式的特征池是不切实际的。特征池的选择可以基于业务需求来选。

1. 单用户的关键特征识别

其实可以用这个特征在总体人群中的占比来判断。

比如上面的例子,【学历】标签特征中,只有0.1%的人是博士,那么这0.1%的博士从个体上讲,理论上都可以将【博士】标签作为他们的个体特征。

用心的你一定会问,这是99.9%对比0.1%,那如果是90%对比10%呢?如果是60%对比40%呢?如果是多个取值呢?

是的,这里在具体的产品落地上,涉及到阈值的设置、多值标签的处理等许多详细逻辑。这里不详细展开了,欢迎读者发表自己的想法哈!

2. 群体用户的关键特征

关于群体的关键特征,其中有个很重要的概念需要提一下:TGI。

直接截图吧……

重点是这个公式:TGI指数 = [目标群体中具有某一特征的群体所占比例/总体中具有相同特征的群体所占比例]*标准数100。

TGI是用来识别哪些特征是突出特征的重要方法。我们上面提到的正向特征和逆向特征,就可以用TGI进行排序,正排逆排即可。

四、关键特征的应用

说了这么多关键特征的内容,那到底有啥应用场景呢?

其实最最主要的应用,应该就是用于人群的画像了。市面上大部分的用户画像,是这样的:

什么意思呢?其实就是事先固化好了要画像的维度,例如【性别】啦、【年龄】啦等,顶多支持用户做个配置,可以选择要画像的维度。通常也不会超过几十个的范围(因为选择过多,产品的可行性会很差)。

预置画像维度,带来最大的一个问题就是,有可能错过典型特征。比如一个用户群体,可能按照TGI计算下来,最突出的特征是用户的支付方式是信用卡居多,而这种比较小众的画像维度,很有可能就不在预置的范围中,这会错失很多业务机会。

而通过先确定特征池,后根据不同的逻辑方法确定用户特征,会极大降低此类风险。也是更科学的做法。

当然,在实际落地过程中,也有很多困难。比如说,上面提到的,个体标签如果是多取值怎么办?阈值怎么设置合理?比如相对特征中,如果分母特别小导致TGI巨高怎么处理?等等。这些问题都是需要在实践中不断解决的。

今天的分享主要是这些,欢迎大家一起交流。

 

本文由 @冬至 原创发布于人人都是产品经理,未经作者许可,禁止转载。

题图来自Unsplash,基于CC0协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!