什么是“数据”?

0 评论 1991 浏览 4 收藏 9 分钟

我们总是说产品摇动数据分析,但就“数据”这个词汇而言,有多少人能清晰地弄明白?这篇文章,作者就给我们科普一下,数据的完整定义,到底是什么。

我们为什么要讲数据?

《大数据时代》中提到:虽然数据还没有被列入企业的资产负债表,但这只是一个时间问题。

数据的价值不言而喻。

我们要如何认识数据?

从基础开始,懂来源、懂记录,抽丝剥茧,将虚无缥缈具体化。从身边的数据作为切入点,进行归纳总结。

那么,什么是数据?

表现形态的角度来说:数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。

它是可识别的、抽象的符号。它不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,也是客观事物的属性、数量、位置及其相互关系的抽象表示。

生产要素的角度来说:数据已成为数字经济时代的新型生产要素。

我们称现在为“大数据时代”。

数据的种类有哪些?

不同的划分角度会有不同的类型。比较常用的是:

  • 定时数据:一般是时间相关的内容,如年、月、日等。
  • 定位数据:一般是坐标、地址描述,如经纬度,省市等。
  • 定性数据:指事物的属性。定性数据分为两种:一种是无递增递减关系的,如渠道号、手机系统等;另一种是有递增递减关系的:优等生、中等生、差生等。
  • 定量数据:衡量事物量级的度量值,一般用来比较大小,如年龄28岁,身高182等。

举个栗子:

某酒店前台倩倩2024年6月27日14:00在某酒店大厅,通过发票系统开具了3张豆豆公司主体的发票,涉及开票金额2000元。

那么,上述案例中

  • 定时数据是:2024年6月27日14:00;
  • 定位数据是:某酒店大厅;
  • 定性数据是:发票系统、豆豆公司主体;
  • 定量数据是:3张、2000元。

我们的世界充盈着无穷无尽的数据,不同的数据于不同的对象而言有不同的意义,有些是有效的,有些可能是无效的。

因此,数据是有“质量”的。

那么,什么是“质量好”的数据呢?

“质量好”的数据是可用的,能够通过一定的加工处理产生一定的价值。

它们具有准确性、真实性、完整性、唯一性、一致性、关联性。

准确性:也叫可靠性,是用于分析和识别哪些是不准确的或无效的数据,不可靠的数据可能会导致严重的问题,会造成有缺陷和糟糕的决策。

场景一:数据采集是否重复或遗漏。

场景二:字段是否拋送正确,比如手机号列中是否都是手机号。

真实性:数据必须真实准确的反映客观的实体存在或真实的业务,真实可靠的原始统计数据是统计工作的灵魂,是管理工作的基础,是经营者进行正确经营决策必不可少的依据。

场景一:原始数据是否反应真实客观事实。例如是否包含测试和自充数据,是否包含机器人数据等。

场景二:统计是否真实。为了达到某种目的导致的数据统计造假。典型案例:人有多大胆,地有多大产。

完整性:数据中想要分析的角度是否齐全,主要是事件或者维度。

场景一:事件是否完整。例如支付服务测试环境产生的真实支付订单信息是否传给数据中心。

场景二:字段是否完整。例如,银行流水需要知道是哪个银行,是否有此标识。

唯一性:用于识别和衡量重复的、冗余的数据,如果重复的数据统计出来的结果一致还好,如果不一致,就会陷入无穷无尽的核对数据中。

场景一:事件是否唯一,一条行为数据不要重复抛送;如用户支付了1次,但支付表里记录了2次。

场景二:字段是否唯一。如单个事件中,两个以上字段都表示同一含义,为了保证数据的易用性,则要废弃其中之一。

一致性:所有系统的数据不存在信息含义及内容结构的冲突。

场景一:同一个数据,要保证统计口径的一致性。如收入,有的地方剔除手续费,有的地方未剔除手续费。

场景二:表示相同内容但是字段名不一致,如channel,channelid,market_channel。

关联性:数据关联性问题是指存在数据关联的数据关系缺失或错误。

场景一:用户标识是否一致。如游戏用户的登录与充值行为,用户id是否是一样的。

场景二:用户属性字段是否一致。如用户启动行为的渠道号与注册行为的渠道号以及支付行为的渠道号是否一致。

不同产品会有各种不同类型的数据。如C端产品,有注册数据、登录数据、启动数据、激活数据、充值数据、会员数据等;B端产品有注册、登录数据、组织数据、账套数据等等。

数据种类纷繁复杂,纵横交错,在识别和运用数据的过程中,我们一般会遇到哪些困难?

以财务数据为例:

  • 数据孤岛:烟囱式信息系统互为孤岛,“表哥表姐”多信息系统取数,埋头整数。
  • 数据口径不统一:数据统计口径不统一,同一指标名称对应着不同的定义与计算方法。
  • 数据清洗难:数据在流动中缺乏质量保障及数据校验,应用系统使用需要大量清洗工作。
  • 数据离线:数据线下手工采集,难免出现错误,又难以识别,返工重做等情况极易发生。
  • 数据质量差:多业务单位收集数据,模板难标准化,返回的数据质量差,汇总工作量大。
  • 主数据不规范:主数据未统一维护,业务与业务,业务与财务各执一套话语体系。

这些困难要如何应对?

通过指标规范建立主数据标准,对接多业务系统获取源数据并进行数据清洗,将清洗后数据通过映射关系转换为标准数据,而后依据统计规则对标准数据进行汇总统计。

实现企业内外部数据的治理、采集、加工、应用全流程。

图源:中兴新云

本文由 @简谙 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!