如何评价数据仓库建设好坏?有哪些量化指标
该文本主要是关于如何评估数据仓库建设和维护效果的一些建议和相关量化指标,包括数仓完善度、复用度和规范性的衡量方法。
企业数据仓库建设需要数据开发者投入大量的时间和资源,对于数据团队来说,管理者如何评价他们工作的好坏呢?
一群数据开发者每天都加班加点,业务部门仍然吐槽数据找不到,数据没有,又该如何评价呢?
结合数据中台思想,数据仓库的建设目标是希望为业务提供尽可能完善的模型(需要的我都有),并且减少重复建设尽量复用(成本要足够低),此外,还需要符合统一的标准规范(数据标准)。
一、数仓完善度的衡量指标
数仓完善度是指经过数据开发长时间的开发和迭代,现有的数据仓库资产是否覆盖了业务常用的查询场景,业务要的,模型是否已经建设完成?
衡量DWD层是否完善,通常看ODS层有多少表被 DWS/ADS/DM 层引用。因为 DWD 以上的层引用的越多,就说明越多的任务是基于原始数据进行深度聚合计算的,明细数据没有积累,无法被复用,数据清洗、格式化、集成存在重复开发。因此, 可以用跨层引用率指标衡量 DWD 的完善度。
–跨层引用率:ODS 层直接被 DWS/ADS/DM 层引用的表,占所有 ODS 层表(仅统计活 跃表)比例。跨层引用率越低越好,在数据中台模型设计规范中,一般要求不允许出现跨层引用,ODS 层数据只能被 DWD 引用。
DWS/ADS/DM 层完善度:考核汇总数据的完善度,一般主要看汇总数据能直接满足多少查询需求(也就是用汇总层数据的查询比例衡量)。如果汇总数据无法满足需求,使用数据的人就必须使用明细数据,甚至是原始数据,可以用汇总数据查询比例衡量DWS/ADS/DM 层完善度
–汇总数据查询比例:DWS/ADS/DM 层的查询占所有查询的比例。要明确的是,这个跟跨层引用率不同,汇总查询比例不可能做到 100%,但值越高,说明上层的数据建设越完善,对于使用数据的人来说,查询速度和成本会减少,用起来会更顺畅。
二、数仓复用度衡量指标
数据中台核心是追求模型的复用和共享,通过元数据中心的数据血缘图,可以看到,一个比较差的模型设计,自下而上是一条线。而一个理想的模型设计,它应该是交织的发散型结构。可以用模型引用系数作为指标,衡量数据模型设计的复用度。引用系数越高,说明数仓的复用性越好。
模型引用系数:一个模型被读取,直接产出下游模型的平均数量。比如一张 DWD 层表被 5 张 DWS 层表引用,这张 DWD 层表的引用系数就是 5,如果把所有 DWD 层表(有下游表的)引用系数取平均值,则为 DWD 层表平均模型引用系数, 一般低于 2 比较差,3 以上相对比较好(经验值)。
三、数仓规范度衡量指标
在数据治理初期,我们统计发现80%的表的字段描述时不全的(不到100%),超过 40% 的表都没有分层信息,在模型设计层面,这显然是不规范的。
除了看这个表有没有分层,还要看它有没有归属到主题域(例如交易域)如果没有归属主题域,就很难找到这张表,也无法复用。
其次,你要看表的命名。拿order_detai这个命名为例,当你看到这个表时,知道它是哪个主题域、业务过程?是全量数据的表,还是每天的增量数据?
总的来说,通过这个表名获取的信息太有限了。一个规范的表命名应该包括主题域、分层、表是全量快照,还是增量等信息。
除此之外,如果在表 A 中用户 ID 的命名是 UserID,在表 B 中用户 ID 命名是 ID,就会对使用者造成困扰,这到底是不是一个东西。所以我们要求相同的字段在不同的模型中,它的命名必须是一致的。
常用的规范性指标可以从数据标准治理的核心角度设定,比如,字段描述覆盖率,模型分层信息覆盖率、命名不规范表占比等
总之,评价数据仓库建设好坏需要从多个维度进行考量,包括外部评价标准和内部评价标准。在量化指标方面,可以从完善度、复用度和规范性三个方面进行衡量,以确保数据仓库能够为企业带来更大的价值。
本文由人人都是产品经理作者【数据干饭人】,微信公众号:【数据干饭人】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
- 目前还没评论,等你发挥!