数据可视化如何实现?

13 评论 30923 浏览 211 收藏 11 分钟

什么是大数据?什么又是数据可视化?我们应该如何实现数据可视化?

2018年我在产品方面的分享远不如2017年,有频繁跳槽造成积累有限的原因,有前段时间在分享中跟大家提到的心态方面的原因,最主要的原因是:自己在18年下半年接触的产品涉及了比较底层的技术——大数据。以至于非技术出身的我,必须花大量的时间放在技术相关的学习上。

今天我就把接触大数据产品后的心得体会分享给大家,这里首先要感谢涛哥、海哥、晓彤、谷哥等在日常工作中的耐心、无私指导,希望本文能够给初学者或者对大数据产品感兴趣的同学带来帮助!因掌握深度有限,本次分享若有错误、疏漏之处,欢迎各位看客老爷随时拍砖~

认识大数据

大数据,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

上面这段话是百度的官方解释,在初次学习的时候我也是云里雾里,为什么会产生大数据?为什么要使用大数据呢?在这里我给大家再通俗的解释一下:

起初,数据量很少的时代,通过表格工具、mysql等关系型数据库(二维表数据库,数据逐行插入)就能够解决数据存储的问题。

但是,随着互联网的飞速发展,产品以及用户的激增,产生了海量的数据。考虑到长足发展,公司会对产品、用户相关的原生数据、埋点数据等进行分析,传统的关系型数据库就无法满足需要,只能通过行式、分布式等数据库来存储这些数据(HBASE、hive等,能够实现集群化,及分配到多台主机上同时计算)。

认识数据可视化

有了数据之后,对数据分析就是成了最关键的环节,我公司的分析师就曾对我说过一句话:数据分析主要对整体分析,而不执着于特殊的个体数据,这样才能够给产品提供宏观、有效的参考价值

海量的数据让用户通过逐条查看是不可行的,图像化才是有效的解决途径。少量的数据可以通过表格工具生成图表、透视表的方式进行分析,但是大数据的分析就需要借助专门的可视化工具了,常见的可视化工具包括:Tableau、BDP、Davinci、Quick BI、有数等。

大部分商用数据可视化工具的计算、图表展示虽然比较强大,但是却无法做到实时数据快速生成,数据也多为push(固定的范围)的方式,有时候数据还需要二次加工满足可视化产品的规则(商用产品多考虑通用性,无法适用于所有企业的数据规范)。

除此之外,现在很多图表插件的开源化(如:Echart、GoogleChart),以及行业内对数据安全性等的考虑,越来越多的公司也开始进行数据可视化的私有化部署。

数据可视化的实现

数据可视化产品(系统)的结构框架主要分为三层:数据存储层数据计算层数据展示层

1. 数据存储层

数据存储层在开头已经和大家说过了,在数据可视化产品(系统)中,既支持常规数据(MySQL、CSV等)可视化,也支持大数据(hive、HBASE等)的可视化,满足日常分析人员定性、定量的分析。

在考虑到数据安全的因素,数据存储还会与权限管理相结合,实现不同角色的人员只能访问指定的数据(未来有机会再分享)。

2. 数据计算层

这里的计算不是平时所说的聚合、排序、分组等计算,解释之前我们先了解一下数据分析的工作流程吧:

  • 产品/运营人员提出数据需求,如“APP一周留存 ”;
  • 分析师确认需求后需要明确本次分析需要的字段及分析方式;
  • 数仓人员提供整理后的表格(数据模型,多张表join后合成的中间表);
  • 分析师基于数据模型进行可视化分析。

数仓提供的数据模型主要分为增量、全量数据,不能直接对某个较长范围的数据进行分析,举个例子1月1日、1月2日两天都产生了数据,增量、全量的数据存储方式效果如下:

以上述举例的“APP一周留存”,就需要每天计算一下隔日留存,才能够基于每天的隔日留存计算出一周的留存。分析师每天会有很多任务,大量的基础计算(如每天的隔日留存)就可让电脑自动完成,这里就需要依赖调度功能(你可以理解成一个自动运行公式的工具)。

通过以上内容,我们可以得到多表关联、定时计算就是计算层的主要功能。

3. 数据展示层

数据展示层分为两部分:

一部分是对看图人的可视化,看图人包括:产品、运营、高层主管等。根据需求方的要求,将数据用适合的图表呈现,比如,趋势相关用折线图、数据明细用表格、留存用漏斗图……

另一部分是对作图人的可视化,作图人主要是分析师。让分析师用可视化的操作,来代替尽可能多的SQL语句输入。常见的可视化工具中,可以快捷得将数据模型中的字段拖拽到维度/度量(可理解为X、Y轴)中。

tableau图表编辑面板

通过可视化产品(系统)结构学习,我们不难看出,实现数据可视化的操作过程包括:数据连接(存储)、制作数据模型(计算)、制作图表(展示)。这也是当下常见数据可视化产品操作流程:

更好的数据可视化

我们数据可视化产品项目组在需求立项时有一句口号:数据准确、流畅高于一切

这也是每次分析师完成可视化表格后,都会与需求人员进行数据校对的原因。以免引发未来分析的误判,给部门甚至公司带来不必要的损失。

相信大家都有这样的情形吧,你正在编辑某个文件时,系统或软件突然卡住,当时的内心是不是很抓狂呢?图表加载、筛选后的响应时间也是我们一直关注的问题,这也是可视化产品用户粘度的重要指标之一。

随着市场上可视化产品不断增多,差异化的功能就可能会在残酷的竞争中帮助产品突出重围:如Tableau的强大的图表样式编辑功能;Quick BI的分析报告功能(引用图表生成报告);有数的大屏展示功能。

还有一些数据实时展示的功能也日益成为某些情境下的刚需,例如每年天猫双十一都会有一个实时看板展示订单达到了多少亿。

结语

数据可视化产品又会朝着哪个方的发展呢?我们还在摸黑走过困难重重的道路,也在多次的试错中找到了一些方向。

产品之路道阻且长,至少,我们不是在单打独斗……

#专栏作家#

兮兮,微信公众号:孤身旅人(ID:gushenlvren),人人都是产品经理专栏作家。关注人工智能、toB产品、大文娱等领域。

本文原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自 Unsplash,基于 CC0 协议

专栏作家

兮兮,微信公众号:孤身旅人(ID:gushenlvren),人人都是产品经理专栏作家。关注人工智能、toB产品、大文娱等领域。

本文原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自 pexels,基于 CC0 协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 写的很好,期待看到更多关于数据可视化的文章分享!

    来自上海 回复
    1. 感谢认可,后面有沉淀了会及时整理分享

      来自上海 回复
    2. 好的,期待~

      来自上海 回复
  2. 你好,能加个微信么?

    回复
    1. 暂时还不熟悉,微信暂时就不加了,你可以先关注一下我的微信公众号:孤身旅人(ID:gushenlvren),可以在里面给我留言,感谢理解~

      来自上海 回复
  3. 数据模型的最终交付物就是N张表通过sql,join的表?

    来自上海 回复
    1. 当然不是,还需要运用到调度系统等操作(文章提到的有:定时计算)。但是为了让初学者或者对大数据产品感兴趣的同学尽快了解,以及笔者能力有限,就不给出复杂的技术细节说明了。

      来自上海 回复
  4. 文章写得很好!感谢分享
    有个地方想跟您探讨一下:
    在数据计算层,“数仓人员提供整理后的表格”,数据都是自有数据吗?若是需要有外部数据(不规范数据)的加入,将采用怎样的方法进行数据治理了?

    来自重庆 回复
    1. 这个就是数仓他们做的事了,我们公司的数仓的工作职责就是把冗杂的、不规范、特殊数据(无效、空、错误数据等)清洗整理一遍,这个详细的过程目前也不了解,你这边有什么好的方式呢?

      来自上海 回复
  5. 多谢,多写一些可视化的文章

    来自浙江 回复
    1. 感谢认可!也是刚刚接触大数据产品,后面有沉淀了会及时整理分享~

      来自上海 回复
  6. 我只听过PowerBI但没用过,求指点一二。

    回复
    1. 你说的应该是微软的产品,我体验过,整体的流程也是连接数据源→制作数据模型→制作图表,你可以先从网易有数开始体验一下,还有BDP个人版,网易云课堂上有网易有数的公开课,可以学习。之后如果有资源可以体验一下tableau,仅供参考~

      来自上海 回复