数据治理:如何提高数据质量?

0 评论 3294 浏览 11 收藏 7 分钟
🔗 B端产品需要更多地依赖销售团队和渠道合作来推广产品,而C端产品需要更多地利用网络营销和口碑传播来推广产品..

本文深入探讨了数据治理的核心议题——如何提高数据质量。从识别数据质量问题的根源到实施有效的监控规则,再到衡量数据治理成效的指标,为您提供了一套完整的数据质量管理框架,希望帮助您的组织确保数据的准确性和可靠性,从而做出更明智的业务决策。

文章基于《数据中台实践课》总结分享

往期文章讲过数据治理可以说是数据产品的生命线,如果数据不准给业务带来错误的决策引导,可能会带来难以预计的业务损失。

一、数据质量问题产生的原因

二、如果提高数据质量?

数据质量问题无法完全根治或杜绝,所以要想提升数据质量,最重要的就是“早发现,早恢复”。要做到这一点就需要依赖完善的数据质量监控能力,在数据生产加工的全链路过程中,添加质量稽核规则。例如对产出表按照业务规则,设计一些校验逻辑,确保数据的完整性、一致性和准确性。

在数据产出任务运行结束后,启动稽核校验任务对数据结果进行扫描计算,判断数据结果是否符合规则预期。如果不符合,就根据提前设定的强弱规则,触发不同的处理流程。如果是强规则,就立即终止任务加工链路,后续的任务不会执行,并且立即发出电话报警, 甚至关键任务还要开启循环电话报警,直到故障被认领;如果是弱规则,任务会继续执行。但是存在风险,这些风险会通过邮件或者短信的方式,通知到数据开发,由人来进一步判断风险严重程度。

早发现,是要能够先于数据使用方发现数据的问题,尽可能在出现问题的源头发现问题,这样就为“早恢复”争取到了大量的时间。早恢复,就是要缩短故障恢复的时间,降低故障对数据产出的影响。图5 稽核校验执行流程图 那具体要加哪些稽核规则呢?

三、数据治理监控的常用规则

完整性规则。主要目的是确保数据记录是完整的,不丢失。常见的稽核规则有表数据量的绝对值监控和波动率的监控(比如表波动超20%,就认为是异常)。还有主键唯一性的监控,它是判断数据是否有重复记录的监控规则,比较基础。除了表级别的监控, 还有字段级别的监控(比如字段为 0、为 NULL 的记录)。

一致性规则。主要解决相关数据在不同模型中一致性的问题。商品购买率是通过商品购 买用户数除以商品访问 uv 计算而来的,如果在不同的模型中,商品购买用户数是 1W、 商品访问 uv10W,商品购买率 20%,那这三个指标就存在不一致。

准确性规则。主要解决数据记录正确性的问题。常见的稽核规则有,一个商品只能归属在一个类目,数据格式是不是正确的 IP 格式,订单的下单日期是还没有发生的日期等等。

四、数据治理的衡量指标

管理学大师彼得德鲁克说过如果你无法衡量,你就无法提升。做数据治理,也需要有衡量标准,促进不断改善。那么如何评价数据质量是否有改进呢?除了故障次数,你还可以有这样几个指标。

核心任务产出完成率。这个指标是一个综合性指标,如果任务异常, 任务延迟,强稽核规则失败,都会导致任务无法在规定时间前产出。

基于稽核规则,计算表级别的质量分数。根据表上稽核规则的通过情况,为每个表建立质量分数,对于分数低的表,表负责人要承担改进责任。

需要立即介入的报警次数,通常以开启循环报警的电话报警次数为准。对于核心任务, 任务异常会触发循环电话报警,接到报警的数据开发需要立即介入。

数据产品 SLA。每个数据产品上所有指标有没有在 9 点产出,如果没有,开始计算不可 用时间,整体可以按照不同数据产品的重要性进行折算,99.8% 是数据产品一个相对比 较好的 SLA。

五、数据质量相关的数据产品

工欲善其事必先利其器,提升数据监控稽核规则的配置效率和覆盖度需要依赖于数据质量监控相关的产品,一般来说需要具备灵活的规则配置能力和批量操作的功能,随着AI的发展,增加更多的智能分析和预警能力。

本文由人人都是产品经理作者【数据干饭人】,微信公众号:【数据干饭人】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!
专题
36552人已学习15篇文章
击溃顾客最后的心理防线,让他们心甘情愿按下购买按钮。
专题
15375人已学习13篇文章
用户画像是指根据用户的基本属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。本专题的文章分享了如何设计和应用用户画像。
专题
30690人已学习19篇文章
2018年过去了,你都收获了什么?新的一年,你需要如何前行?
专题
12826人已学习13篇文章
在产品的不同生命周期,需要有对应的产品战略以应对市场。本专题的文章分享了如何做好产品战略规划。
专题
14400人已学习10篇文章
聚合支付作为对银行和第三方支付平台服务的拓展,能够提供多渠道支付方式,简化商家的支付对接。本专题的文章分享了聚合支付的设计思路。