雷达图在数据可视化中的应用价值

3 评论 15363 浏览 40 收藏 17 分钟

编辑导语:雷达图,也称网络图、蜘蛛图,是以从同一点开始的轴上表示的三个或更多个定量变量的二维图表的形式显示多变量数据的图形方法。雷达图对于查看哪些变量具有相似的值、变量之间是否有异常值都很有用,也可用于查看哪些变量在数据集内得分较高或较低,因此在数据可视化中经常会用到。

相信大家一定都有经历过各种考核吧,你的各项能力水平会被量化为数据评分,那么如果现在有个机会让你来考核别人,你会通过什么样的方式来进行考核呢?

假设你现在是一个20人售前客服团队的客服主管,需要来量化团队中某个客服的综合能力。

首先我们需要定义考核的指标,综合能力的考核通常需要的指标都是多个维度的,我们以“销售额”、“响应时间”、“询单转化率”这3个字段作为考核指标;

其次我们要划定每个字段的考核依据,比如客服月销售额达到1000w可以评定为5分等;

最后将具体客服的销售数据,响应时间数据,以及询转数据转化成评分数值,呈现在图表上就可以非常直观地知晓这个客服的能力水平了。

这就是雷达图一次简单的应用,其所呈现出来的价值是描述了一个售前客服的综合能力,直观地输出了结果。本文想以此和大家讨论下,雷达图是什么?它在数据可视化中又有什么应用价值。

一、什么是雷达图?

雷达图是将3个或3个以上不同维度的数据,通过一定的公式,将不同维度的数据转化为统一度量后,绘制在同一个中心点出发轴上的图形。

适用于描述对象的数据和属性,我们在文章开头考核售前客服的案例中获取到了客服A的各项评分如下图所示,通过雷达图我们可以对“客服A”的三项能力有一个简单的了解,询单转化能力评分最高,销售能力次之,响应时间评分最低。

作为客服主管就可以了解该客服的综合能力,并针对性的安排工作。

例如转化能力优秀可以多去进行催付工作,响应时间弱需要针对性的强化提高,雷达图能直观地呈现某一个对象多维度的数据,帮助我们了解该对象的能力分布情况,常被应用于能力评分、用户画像等场景。

从雷达图中可以看出,雷达图上有维度和度量,其中维度是存在多个的,这就要求了雷达图所表达的数据组是一个多维度的数据组。

我们对“客服”进行考核统计到的就是一个有3个维度的数据组,客服A的销售额1w,响应时间3秒,询单转化率95%。

一个数据组存在多个维度的话,就会存在多种度量单位,而雷达图的度量是统一的,客服A的销售额、响应时间、询单转化率的度量单位分别是元、秒、百分比。

而在雷达图上这三者的度量单位是分,这就需要雷达图的绘制过程中,需要借助一定的公式进行转换,将多个维度不同的度量单位转化成统一的度量。

从雷达图的构图来看,一个雷达图由多个维度、统一度量2个部分组成,而每个部分又有其特殊的要求。

1. 维度

雷达图是用来描述对象综合属性的,属性往往是多样的,这要求了被雷达图所表达的数据组是一组多维度的数据组。

那么什么是多维度呢?

——多维度即要求数据组中的数据可以被归类为多个互相独立的类目。

想一下我们怎么来描述一个人的体型?通常我们会用到肩宽、臀围、腰围这几个数据。

如果我们有一组数据,分别统计了5个不同身材人的肩宽、臀围、腰围,就可以说这组数据是一组多维度的数据,其中维度有3个,分别是肩宽、臀围、腰围。通过这组多维度的数据,可以描述一个人的体型。

例如当臀围>腰围和肩宽时,那么可以判断出这个人的身材是A字型的身材。

从这我们可以发现,雷达图之所以可以描述对象的属性,是因为它直观反应了对象不同维度的数据,而且还能找出一个隐藏条件,即:维度的数量需要有3个或3个以上,否则就无法表达为雷达图。

因为1个维度只能成点,2个维度只能成线。

2. 度量

雷达图是将一组多维度的数据组进行图形化表达,在一张图中直观地描述对象的属性。

多维度往往意味着不同的度量单位,而雷达图从同一个中心点出发的轴又要求度量一致,不一致的度量会导致同一位置的点所表达的数据意义不一致。

现在有这么一个31岁的人,他的身高是160厘米体重是64公斤,我们想了解他在中青年(30-39岁)群体中的身高和体重水平,其中已知身高在150-200厘米内,体重在40-100公斤内。

从这边可以看到3个维度,分别是年龄、身高、体重,而这3者又带来3种不同的度量单位。如果不对度量进行统一处理,可视化成图如下所示,非常难以理解为什么160厘米和31岁处于同一梯度的点,而64公斤却比他们高,这样的雷达图不具备分析价值。

那么我们怎么来完成这一度量统一的转化呢?

——这里就需要通过一定的公式进行转化。

什么样的公式才能适合这一转化过程呢?

雷达图有一个基础的认知,所表达的值是不同维度里的占比、或者处于该维度里哪一个范围。这就要求所提供的公式是一个可以划分范围或者确定排名的,通过这个公式,将不同的数据标准化定义下来。

下面通过对“年龄、身高、体重”的统一度量的公式来看下这个转化过程,统计学中有一个公式——平均值加减一组标准差,可以通过描述样本的离散程度来划分范围:

  • 平均值为X,标准差为S
  • 平均值+一组标准差是该样本大部分值的上限,即X+S
  • 平均值-一组标准差是该样本发部分值的下限,即X-S

通过“上限值”和“下限值”可以划分3个区间,“低于下限”、“上限和下限之间”、“高于上限”3个区间,样本中大部分的值处于区间“上限和下限之间”,而“低于下限”和“高于上限”两个区间内的值就是异常值。

上述就是我们所要用到的理论公式,下面我们把具体的值代入其中:

已知中青年年龄段人身高的平均值是174,标准差是10,那么我们就可以得到3个区间“<164”、“164~174”、“>174”,3个区间对应的评分是1、2、3;而我们想要观察对象的身高是160,处于“<164”的区间,评分为1。

同理,已知中青年年龄段人体重的平均值为73,标准差13,3个区间为“<60”、“60-86”、“>86”,已知中青年年龄段人年龄的平均值为34,标准差3,3个区间“<31”、”31-37”、”>37”,代入想要观察对象的体重和年龄数据得到评分为2,2可得到年龄、身高、体重的三项评分为2、1、2。

通过雷达图就可以大致对这个人的身高和体重水平有个简单的判断,这个人的年龄和体重处于中青年中的常见范围内,而身高则处于异常范围。

对比统一度量前后的雷达图,就可以明白统一度量后的雷达图才能更准确的体现这个人的年龄、身高和体重在中青年段人群中的所处范围。

上面的公式只是一种非常简单的统一度量的公式,实际在工作中我们用到的公式会复杂的多,包括运用到加权、归一、收敛等数据统计方法。

通过对维度和度量的了解,可以认为雷达图的组成是一个递进过程的,首先需要有一组多维度的数据组,维度数需要是3个或3个以上;

其次需要通过选择一定的公式将不同维度的多个度量单位转换成“统一度量”,在这个过程中,需要有一个可衡量的规则将不同维度的数据标准化;

最后将统一度量后的数据转化成图,就得到了可以被应用的雷达图,表达了对象的综合能力在对应维度里的一个占比情况或者排名。

二、雷达图具体的运用价值

了解完什么是雷达图以后,我们就可以来讨论雷达图实际的运用价值,具体可以分两部分,一是在描述单一对象上的运用,二是在对比多个对象上的运用。

1. 雷达图在单一对象上的运用

文章开头场景中用雷达图描述某个客服的综合能力就是一次典型的运用了“雷达图”来描述单个对象属性,为什么雷达图可以用来描述某个对象的属性呢?

从雷达图的定义可以看出,雷达图是一组多维度数据组的图形化表达,而一个对象的属性往往是多维度的。

另外,人对于描述性文字是没有一个明确的感知力的,比如这句对下图客服表现的描述,销售额1w,响应时间3秒,询单转化率95%。

单独从文字描述来看,是非常空洞的,我们无法准确判断这个客服的能力,销售额1w是多还是少,响应时间3秒是响应快还是慢,询转95%又是否足够高?

而用雷达图来图形化表达后,就能对该客服的销售能力、响应能力以及转化能力有一个大致的了解和判断:

因此,我们可以发现,雷达图能直观地描述单个对象不同维度的能力,帮助用户快速清晰地对某一对象的综合能力有一个了解。

再来看一个案例:2020年在香港二级市场,“医药公司”一直是打新市场的一大热门,近期有一只名字叫“先声医药”的公司进行公开招股,我们想了解这一新股的质地怎么样?

假设我们要去了解一只新股,会从市值、业绩(营收、净利润等)、保荐人、基石这4个维度去分析。

获取到该新股的资料如下,市值:336亿;业绩:净利润10亿;保荐人:大摩&中金;基石:高瓴等7个。只从文字描述来看如果是对新股市场没有长期了解的人,很难对其有概念,不会清楚保荐人大摩有多稳定,而基石投资者高瓴的神话又是什么。

但是我们通过公式将其转化成统一度量分值后,用雷达图表示,先声医药:市值6.5分,业绩:5.5分,保荐人:7分,基石:7分,即使从没有接触过港股二级市场的小白也会对该新股质地好坏有一个了解。

2. 雷达图在多个个体上的运用

从第一部分的运用价值中,我们已经了解了雷达图能帮助我们清晰直接地描述单个对象的属相。

那么当我们想要从多个对象中进行选择时该怎么办,只需要将不同个体用统一的雷达图进行描述,将转化后的雷达图进行对比,就可以直观地发现不同个体之间的差异和区别。

延续我们第一部分的案例,除了“医药公司”以外,“物业服务”也是市场一大热门,近期有两只物业服务类型的新股进行招股,而我们所持有的资金只够进行一只申购,那么我们又该怎么进行选择呢?

同样的用市值、业绩、保荐人和基石这4个维度来进行描述,得到的结果如下:

  • 第一服务:市值:6分;业绩:7.5分;保荐人:5分;基石:6.5分
  • 卓越商企:市值:6.5分;业绩:7.5分;保荐人:6分;基石:7分

从雷达图上可以简单判断出“卓越商企”比“第一服务”的质地更加优秀,在不考虑其余因素影响下,应该优先选择认购“卓越商企”。后续“卓越商企”和“第一服务”首日的涨幅分别是+3.50%和-26.67%也在一定程度上验证了“卓越商企”更加优秀。

三、总结

雷达图可以展示对象多个维度的数据,并将不同度量的维度数据转化成统一度量,科学直观地描述了单个对象的属性。将同类型的多个对象进行对比,能帮助用户了解单个对象与单个对象之间的不同和差异,为我们决策提供了数据依据。

 

作者:晌午,微信公众号:晌午自习室

本文由 @晌午 原创发布于人人都是产品经理,未经许可,禁止转载。

题图来自 Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 学习了,非常棒!

    这边正好需要做一个雷达图来对连锁门店里的各个门店的销售能里做评分,参考上述思路:
    1、取全部门店的在某个维度的平均值作为平均值X,达到平均值则获得80分,标准差定义为20分;
    2、某个维度,门店达到整体平均值,则得分80,每超过1%,加1分,封顶100分;每低1%,加一分,筑底20分;
    3、每个维度都这么转化为评分,画出的雷达图确实有点参考价值了;
    以上定义平均值没有外部参考,直接取全部门店的平均值;而定义标准值的时候直接是拍脑袋(根据一些经验)取20分;

    这样做不知是否有问题,期待回复

    来自广东 回复
  2. 很棒 最近在做统计模块,搜了好多都没有搜到相关文章,只有作者对很多图表样式都做了详细的解释说明,非常感谢,持续关注了,希望保持更新,谢谢!!!

    来自山东 回复
  3. 学习了~

    来自北京 回复