五个方面,聊聊大数据可视化的初体验

21 评论 15768 浏览 136 收藏 28 分钟

数据可视化常常需要通过统计图来展现,不同类型的统计图有着不同的使用场景以及使用方法。

距离上一次投稿快9个月了(感谢那些给我评论的人,还有给我赏的人),那时候我刚毕业正在一家医院里工作,后来还是想要做一名产品经理。于是,在去年的中秋节我成功获得了做医疗大数据产品的工作。刚入职的时候心里特别忐忑不安,怕做不好这份工作,现在也会因为想懂而无从下手的各种技术变得焦虑。在这半年的时光里,我的工作基本是根据课题项目的需求画原型,并且是大数据可视化的前端页面设计,有时候将项目的需求内容转换到产品需求,再搭建好页面结构和框架就会头疼好几天。接着将各种统计指标呈现在页面上,如何美观而又一目了然地展示这些结果,并能清晰地实现课题项目的目标,以及完整、直观、生动地呈现产品要表达的“故事”,这是可视化和交互设计的重点内容。经过几个项目的实践,我想总结一下目前自己对可视化图表和交互设计上的一些心得,希望收到大家的指点。

回忆以前学习和制作的统计图,都是最基本的只有X轴、Y轴的单因素变量数据的静态图。现在发现大数据之美就在于可以选择多种维度、多种角度去发现数据变化规律,并通过比较分析,又能得到很多不同的结果。

数据可视化,常用统计图来展现,包括折线图、柱状图、饼图、扇形图、散点图、雷达图、统计地图、仪表盘、漏斗图、字符云等,这些类型经过不同的定义和交互设计,能够衍生出多种统计图的表达形式。但是想要熟练应用和衍生出统计图,需要以清晰掌握各类型统计图的含义和作用为前提,才能不仅满足需求,更能满足审美、及行业或学科的特性。

根据我的理解,我将统计图分成以下5个方面来阐述我的一些工作中的心得体会。

一、折线图

1. 基础图形展示

图1是最基本的折线图,如果将折线画的光滑一点,就变成一条曲线,这时候我们也把它叫做曲线图,如图2。

图1

图2

2. 作用和价值

不论是折线,还是曲线,一眼看去,脑海就会想接下去的线条会向上,还是向下呢?

因此,折线图的价值就在于呈现一个或者多个指标变量的发展和变化趋势,并且能直观的知道低谷值和高峰值。例如:股市涨跌、心律变化等场景就可以应用折线图。

3. 变量要求和用法

既然是反应趋势,且画的线是连续的,那么自变量一定是可以切分相同间隔的连续变量或者周期变量。

4. 依据需求编故事

根据折线图的作用和价值,故事的开头自然是“随着时间的变化”、“伴随着年龄的增长”、“在这一段时间,某变量出现了低谷值和高峰值,根据标准区间可以进行告警”等。

5. 我的衍生折线图及交互设计

如果有指标变量的单位或定义不同,也可以在右边同样加另一个Y轴,前提是不进行该指标变量与其他指标变量的比较,只是单独想看该变量的自身发展趋势。图3,三个因变量单位和定义是一致的(只有一个纵轴),那么在同一年份,可以比较这三者数值大小。

图2,将右边的折线图看作成一个画板,点击左边的变量就可以出现该指标变量历年情况,左边框里统计的是总数。因此该衍生图是一种总分效果图,我觉得交互设计特别棒的点在于:一张简单的图和数据,可以像剥洋葱一样一层一层的扒开,并且每一层都有不同的内容。

二、柱状图

1. 基础图形展示

柱状图又称条形图、直方图、柱形图,以每个等宽长方形的长度不同来呈现因变量(统计指标)的数值大小的一种统计图。通过对数据的分类组合,可以出现多个长方形为一组、且每组内的指标变量一致的柱状图,如图6。

图5

图6

2. 作用和价值

看到柱状图,给人的感觉就是想把每条色块(长方形)进行对比,看看谁高谁低。因此,柱状图最大的价值就在于它能够显示各组之间的比较情况。

然而如果自变量特征同于折线图,那么柱状图也可以呈现数据变化趋势。这时候就出现和折线图相同的功能,因此连接每个长方形顶部中点,即能马上可以做出折线图。我们高中学过的正态分布,也用到柱状图来解释。

3. 变量要求和用法

柱状图中每个长方形代表了一组数据,即因变量数据。每个长方形之间是不会重叠的,会保持良好的距离。因此与折线图不同的是,柱状图的自变量类型可以是分类不连续的。比如图6,横轴的文字是对这三个长方形组成数据进行的定义。

4. 依据需求编故事

突然想到在做毕设的直方图时候,如果实验结果没有你想要的那样,那么故事编为:“虽然这两组数据在统计学上没有显著性差异(P>0.05),但是在数值上两者是有差异的,可能由于混杂因素或者系统带来的误差,导致并没有出现显著性差异。某组的指标在数值上更多或少,某干预措施可能对于改善/提高什么是有帮助的,仍需要重复实验,并控制误差。”

5. 我的衍生统计图和交互设计

柱状图的衍生方向特别多,交互设计上也是丰富多彩。根据我目前做过的项目需求,列出5种不同的使用场景。

1)组数不多

侧重全部展示每个组的数据,每组数据结果在需求上都重要,可以一目了然所有数据的大小。这时候无论从美观,还是需求展示上考虑,组数不宜过多。例如:

图7,自变量为地区,展示每个地区的指标数据。

图8,自变量为各种费用名称。顶部的时间轴可以拖动展示每一年的费用情况。

2)组数很多,但是在需求上每组指标数据我们可能只需要把握topN前面的数据结果。

如图9,自变量为癌症名称和地区,展示了排列前面的某地区5年生存率较低的癌症。


3)组数多,并且还想引入其他变量进行比较,如时间、年龄、性别等,展示各组指标数据升降变化。

如图10,比较两个年份,不同地区,发病率最高的肺癌类型。这张图描述的故事有:从地区角度看,可以展示每年每个地区发病率最高的肺癌类型,用以解决“某年某地区肺癌中发病率最高的类型”,从而对于该地区的疾控中心可以根据发病率最高的类型进行精准干预;而从时间出发,可以比较两个年份之间某地区发病率最高的肺癌类型的发病是升高还是下降,用以解决评价干预效果等需求。

图11想要表达的故事和图10一致,只是变量不一样。

4)细分因变量(将指标进行分类)

如图12,把每个年份对应的横轴区域想像成泳道,在泳道内有不同的色块,不同的色块代表指标(用药总费用)的分类情况,并且每个色块长方形的等宽,长度依据费用占比来决定。该柱状图,不仅可以比较总用药费用随着时间的变化,还可以看到这笔钱的大头去了哪里,也可以看到每一年用的药物比重变化情况。

5)柱状图交互

如图13,我把交互设计在时间上(当然可以设计在很多地方,根据需求来),通过点击时间,可以出现下面的信息。这里发现交互设计的另一个优点,就是可以精炼统计图的信息量。图13上面的柱状图可以不用标注纵轴的尺度,只用看每个时间段各类指标结果的数值大小和变化,具体想要查看具体数值,我们可以采用点击或其他触发动作直接出一个列表(一张列表,连色块的定义都有了)。

三、饼图

1. 基础图形展示

饼图通过将一个圆饼按照数据分类的占比划分成多个扇形区块,整个圆饼代表所有分类数据的总和,每个扇形区块的弧度由该分类数据占总数的比值而定,所有扇形区块的占比加起来等于100%。

图14

2. 作用和价值

饼图很像切蛋糕,整个蛋糕为总量(100%),而蛋糕上被切成几块,每块的大小,由多少人吃,每个人能吃多少决定。因此,饼图的价值在于能够快速了解分类数据的占比情况,可以观察占比多的是哪类数据,哪类数据占比小,可以忽略不计。

3. 变量要求和用法

饼图的变量需要能够按照某个维度,进行分类,也就是饼图代表的是一种分类资料的占比统计。

4. 依据需求编故事

根据饼图的作用和价值,故事可以有:“下个月减少某方面的开支,增加某方面的投资“;”一半以上的单身女性选择婚前自己买房,出现了新的社会现象”等。

5. 我的衍生统计图与交互设计

环状饼图和半径不同的饼图,在日常工作学习中会经常看到。其他的有将每个扇形区块进行形状变形的饼图,例如花瓣饼图;还有限定角度范围的饼图,例如图18。

图17

图18

四、漏斗形

1. 基础图形展示

漏斗图由高度相同的等腰梯形组成,自上而下的排列是根据一定的逻辑顺序排列的,比如:用户留存量、用户转化率、推进业务的完成情况等。梯形的面积由该梯形所对应的变量数据决定。

图19

图20

2. 作用和价值

顾名思义,漏斗图的作用和漏斗类似。生活中看到的沙漏,一开始漏斗里是满满的沙子,随着时间,沙子慢慢漏到了下面,直到没有为止。因此,漏斗图的价值在于呈现一件事发展状况的逻辑顺序,每到一个时间点或者任务环节或其他,这件事变化如何。从整个漏斗图可以直观地看出哪个时间点或者任务环节上出现了问题,漏斗图的最底部也可以看出该事件最终使以什么状态结束。从而找出问题所在,发现可优化的地方。

3. 变量要求和用法

漏斗图的变量类型一定是有逻辑顺序关系的,这种关系还是一种流程上的层级关系,比如时间顺序、事情发展顺序等,适用于事件流程比较规范、环节多、周期长的单流向分析。

4. 依据需求编故事

根据漏斗图的作用和价值,故事会有:“用户到底在哪个页面上离开的多,在哪个页面上停留的多”;“各个招聘环节上,哪个环节上淘汰的人较多”;“项目进展到最后,哪个环节上可以做优化”。

5. 我的衍生统计图和交互设计

图21,因为对于癌症的治疗效果评价,要用生存率作为指标,并且每一年的存活的人数肯定是在递减的,因此我选择漏斗图。通过这个图可以看整个癌症人群的生存率变化,也可以分性别、年龄段观察癌症的生存率变化。

图22,漏斗图的形状改变了,将等腰梯形设计成圆形,但是它的作用和漏斗图一致,当然它也可以有其他用法。因此,统计图的应用脱离不了它的基本使用规则,但是通过不同角度定义可以衍生出在这个基本用法上的其他用法。

五、仪表盘

1. 基本图形展示

仪表盘图表就像汽车的速度表一样,有一个圆形的表盘及相应的刻度,有一个指针指向当前数值。刻度与指标变量所定义的类型有关,如图23,因为是率(完成率),构成比的关系,那么刻度的最大值是100%;如果是将指标变量划分成一种等级,如图24,那么按照顺时针方向将等级从低到高排列。

图23

图24

2. 作用和价值

仪表盘是一种拟物化的表现方式,就像写作时候用的修辞手法,可以更生动、更直观、更容易被人们所理解和记住。

我们可以联想到生活中遇到的汽车仪表盘、家里的水表、温度表等,汽车仪表盘可以显示当前的车速;水表可以显示当前的用水量;温度表可以显示当前的气温,因此仪表盘的最基本的价值在于它能呈现某指标变量当前数值。往往在应用的时候还会对指标变量数值进行等级划分,从而了解当前数值在总体上处于什么样的状态,以根据这种状态采取一定的措施,比如当前的温度该穿什么衣服。此外,仪表盘还有实时监测的作用。

3. 变量要求和用法

仪表盘常见的指标变量类型是分类资料的占比情况,如合格率,以及进度类型资料,如完成率、上传率。

此外还可以度量当前指标数值在总体中的状态,常用到四分位法,将总体的数据从小到大排列,然后将四分位(25%、50%、75%、100%)上的数值计算出,最后根据这些数值进行等级划分。

目前我接触到的指标是患者当前的健康风险等级,患者的健康风险根据人群的健康风险值四分位数划分的等级,观察他的健康风险值在哪个等级上。

4. 依据需求编故事

根据仪表盘的作用和价值,故事的时间不是从很久很久以前,而应该是“当前”“现在”“此时此刻”“当前的数值,判断当前的状态,根据状态采取相应的措施”。

5. 我的衍生统计图和交互设计

图25,健康分险指标,没有用仪表盘的形状,但是作用原理和仪表盘一致。此图的做法就如5.3里所阐述的。

图26,上传率指标,可观察每个业务类型数据上传的情况。

六、散点图

1. 基本图形展示

散点图,由X/Y轴和许多的点构成,图上的点是根据坐标值(X,Y)横确定的,数据点会比较多。

图27

2. 作用和价值

1)推断变量关系、剔除异常数据:

散点图的价值在于根据每个点的分布情况,推断和假设所有点的变量存在什么关系,主要的关系分为:正相关、负相关、不相关、线性相关、指数相关等,这时候我们就可以根据散点图剔除异常数据,将正常的数据进行分析。这时候根据相关性可以建立一些公式。

2)充分展示每个数据

如果不关注变量间的关系,而是观察个体的数值在总体中的表现情况,比如占比。那么散点图就衍化成气泡图,气泡大小由占比情况决定。

3. 变量要求和用法

若是为了推断自变量和因变量间的关系,因此首先需要数据量多。

若是展示个体表现,那么变量也要是一种分类资料,以求得分类占比情况。

4. 依据需求编故事

根据散点图的作用和价值,故事应该会有推测和假设的意图“增加某因素,会增加某结果的发生(Y=kX+t)”;“随着时间的过去,伤痛会淡去的(Y=-kX+t)”;“越努力,越幸运(Y=kX2)”。

5. 我的衍生统计图和交互设计

目前,我应用的是散点图衍化另一种图,就是气泡图,展示每个数据点的情况。气泡图可以引入的变量很多,从气泡的大小、气泡的颜色来定义,同时可以对每个气泡的具体情况做交互设计,展示更多维度的数据情况。这时候可能也会联想到“字符云”的功能,和图28 类似。

七、地图

利用地图来统计变量数值,从而解决问题的,我联想到了流行病学经典案例——1854年,John Snow利用标点地图法对伦敦西部西敏市苏活区霍乱爆发的研究,最后根据水泵的位置,确定霍乱是经水传播的,从而控制了霍乱。因此地图形式的统计图价值在于,能够为某区发生某件事(指标变量)的分布规律提供强力的证据。

常见的地图统计图,有地图加气泡的统计图、地图加热力图的统计图、地图等级统计图等。

图30

图31

八、雷达图

雷达图也是一种拟物表现手法的统计图,图形类似蜘蛛网,图上的点就像是蜘蛛们从网的中心出发爬到自己的位置休息。常见的雷达图会用在评价表上,比如心理学评价一个人的性格、职业倾向、个人能力等特征。

此外,雷达图的功能可以等同于饼图,各轴上的点表示占比;可以等同于折线图,各轴上的点表示该指标变量的数值。如果有两组以上的数据,呈现在雷达图上,可以比较它们在哪个指标变量上出现差异。个人认为,雷达图最有价值的地方就是用于评价/评估能力、性能、特性等状况。

因为雷达图是一种多边形,边不能太多了,太多的话,雷达图要画的特别大,才能把变量值展现地清楚,所以指标变量的分析维度太多,不适合用雷达图。

图33

九、其他

其他的统计图还包括树形图、关系图(如图33顺位变迁图)、箱形图等二维图形,还有用3D展示的统计图对于指标数据结果的展示更富有表现力。希望以后自己能学习和应用,也希望自己也能在基础统计图上衍生出新的统计图,更希望自己今后能学习掌握更多的工具,输出自己的心得体会。

图34

以上就是我的大数据可视化初体验,有很多不足,继续深入学习吧。

十、总结

统计图千变万化,同一个统计图,经过不同的设计和定义,就可以出现新的图形和展现方式。

但是每个统计图都有自己独特作用和使用场景,这种独特之处才是它最有价值的地方,因此根据需求,挖掘数据指标变量的关系,才能合情合理的使用最佳的统计图。前端的展示也是丰富多彩,经过不同的触发动作,不仅可以深度剖析数据,还可以精简统计图的展示效果。

最后,更想说大数据特别伟大,比如海量的医疗大数据,如果不去挖掘,它们就沉睡在那里,只是每天在数量上的不断增加;但是经过大数据技术,可以研发很多的功能产品,回馈各角色与医疗相关的人。

 

本文由 @果冻 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自 Unsplash,基于 CC0 协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 你好,我也是做B端的小白,想转载这篇文章,可以么?

    回复
    1. 不好意思才看到消息,转载去哪里啊?
      🙄

      来自上海 回复
    2. 转载到我的公众号上,一是我到时候查看和学习的时候比较方便,另外是我汇总整理,也方便和我一样的小白学习

      来自新疆 回复
    3. 嗯嗯好呀

      来自上海 回复
    4. 1903841331你可以加我微信,和你细聊

      来自新疆 回复
    5. 加你了

      来自上海 回复
  2. 童鞋您好,我是搞电信大数据可视化的,有空可以交流学习一下吗

    来自广东 回复
    1. 不好意思才看到信息,可以啊! 😳

      来自上海 回复
  3. 辛苦了,我们上海的人应该搞个群

    回复
    1. 😹希望自己能多懂点技术吧……

      回复
  4. 楼主好,作为一个刚接触的纯小白,想弱弱的问下楼主针对初入门的小白有什么建议吗,因为新事物信息量太大,真的不知道从何下手

    回复
    1. 新事物是啥呀?没看懂问题的关键点呢,不好意思

      回复
  5. 楼主是用什么软件做出的图呢?

    来自浙江 回复
    1. 我用的Axure

      来自上海 回复
  6. 前辈你好😊,本人目前打算学习数据分析,请问有什么好建议送给我嘛,Thankyou

    回复
    1. 😹我还不到前辈的分量,数据分析,如果是技术那边,好像要学点编程语言吧,R 语言,python 之类的,还有统计分析,概率之类的,数据库管理等等,如果是偏需求的话,就要理解业务上的数据分析到底怎么去做,框架啊,指标啊,就是依靠现有的数据编故事,一个很圆满,客户需要的,然后就是产品设计,怎么展现这些指标,目前我就做需求部分的。技术打算慢慢学,感觉懂点技术,知道干嘛的,就好了。然后就是写文档,我们需求方主要都是政府和高校,都是课题,所以还要会写一些有关偏学术的文章。这些是我目前碰到的一些工作内容,不知道对你有没有帮助。

      回复
  7. 什么情况,上滑就白屏

    回复
    1. 没有哇

      回复
    2. 同上滑就白屏

      回复
    3. 😯我自己看的时候还挺好的。

      回复
    4. 在哪里白屏

      回复