做数据血缘到底有何价值
数据在产生与使用的过程中,会出现各种各样的问题,我们会针对这些进行治理。例如针对数据的准确性、数据变更情况、数据到底产生了多少价值、数据安全性是否可以得到保障等等,本文阐述数据血缘分析解决在数据治理过程中是如何解决这些问题的。
价值一:破除数据质疑
在我们日常工作的过程中,相信大家经常遇到这样的场景。业务人员或者高层领导对于电脑屏幕上的报表中的数据或指标数据,产生了很大的疑问,“这个数据偏差这么大,是不是有问题啊?”“为什么这个数据和线下的不一致,你们的计算逻辑是不是有问题?””为什么都是本月销售收入这个字段,A系统是这个数,B系统是这个数,你们的数是用的哪个口径呢?”……面对这一系列的问题,数据部门疲于奔命地去排查打消用户对报告数据的质疑。
面对用户对报告数据可靠性、真实性的质疑,无非是如下问题导致数据可能失真:
- 及时性问题,大数据集群资源不足或者平台系统故障导致任务延迟;
- 开发代码质量问题,取数口径不清晰或者不准确导致计算后的数据存在错误;
- 业务规则计算逻辑变更,系统并未同步更新,导致线上线下数据不一致;
- 数据质量问题,无论是线上或者线下数据存在不准确、不完整、不及时的问题,导致最后数据失真;
面对以上的数据问题,传统的排查方式非常冗长且效率不高:
- 第一步:找到报表指标来源的API接口,确定来源数据表。
- 第二步:查找来源数据表对应的数据同步任务,以及Hive表的产出任务,查看任务是否正常执行完毕。
- 第三步:找到Hive表加工任务的上游,逐层向上排查,先保证整个链路的任务都是正常执行的,因为及时性问题是最高频、常见且容易处理的问题。
- 第四步:检查数据加工流程各项正常后,再看指标产出表的加工代码,一是看是否近期有人为变更,二是翻代码校验对应的逻辑,按照指标加工的代码层级逐级定位有问题的数据表。
- 第五步:通过层层排查,定位了问题,但是问题的修复和数据重跑需要些时间,得赶紧通知下游,避免错误数据给业务带来的错误决策和应用,比如错把老客算成新客,带来营销费用损失等等问题。
一旦检查出数据有异常,印证了用户的对数据真实性、可靠性的顾虑,用户则逐渐会对数据丧失信任感,不仅没有提升使用数据的效率,反而让数据管理人员对每个质疑的数据进行一遍一遍的铺排检查,由于数据从生产到赋能业务应用经过很多的处理环节,业务端报表或数据应用服务异常时,需要第一时间定位问题,排查修复。
如果靠一层一层的人肉翻代码效率非常低下,一方面数据开发人力花费在排查上,另一方面定位问题时间越长业务影响和损失越大。
如果利用数据血缘分析技术,则可以大大提升排查效率,特别是数据血缘的可视化,能让用户自主对数据来源以及链路进行检查,直观地发现数据生产链路,以及各个环节有无异常。
如此一来,则能快速打消终端用户对报告数据可靠性的怀疑。
价值二:数据变更影响范围快速评估
数据开发的过程中,数据血缘能够提供的两个价值点分别是提升问题解决效率和高效评估数据影响。
数据血缘单纯的数据角度来看包含的维度有数据库、表、字段、系统、应用程序,即数据存储在什么数据库的什么表,对应的字段是什么以及字段的属性,数据所属的系统以及与数据有关的应用程序。
数据血缘从业务角度来看包含的维度主要是数据所属业务线,涉及到业务便要梳理清楚数据的产生逻辑、数据的使用逻辑以及业务线之间的关联关系。
数据血缘对于数据治理至关重要——包括合规性、数据质量、数据隐私和安全性。它对于数据分析和数据科学也很重要。映射和验证数据如何被访问和更改的能力对于数据透明度至关重要。
它有助于生成特定数据来源的详细记录。它还显示了数据是如何被更改、影响和使用的。数据血缘还可以更轻松地响应合规性审计和报告查询。它还通过使组织能够跟踪和识别数据流中的潜在风险来帮助提高安全状况。
数据血缘可帮助组织采取积极主动的方法来识别和修复业务应用程序所需的数据差距。这对于数据分析和客户体验计划特别有用。
收集敏感数据会使组织面临监管审查和业务滥用。数据血缘显示敏感数据和其他关键业务数据如何在整个组织中流动。通过这种方式,您可以确保您的策略与现有的控制措施保持一致。
对于 IT 运营,数据血缘有助于可视化数据更改对下游分析和应用程序的影响。它还有助于了解业务流程变更的风险。它使您能够采取更积极主动的方法进行变更管理。它还通过减少耗时的手动流程来提高运营效率,并通过消除重复数据和数据孤岛来降低成本。
此外,数据血缘有助于实现成功的云数据迁移和推动转型的现代化计划。数据血缘可以帮助可视化不同的数据对象和数据流如何与数据图相关和连接。这种更深入的理解使数据架构师更容易预测移动或更改数据将如何影响数据本身。预测对依赖它的下游流程和应用程序的影响并验证更改也变得更加容易。
价值三:数据资产价值评估度量工具
在数字时代,数据被普遍认为是一项重要的企业资产。普遍对于数据资产的定义是指个人或企业拥有或者控制的,能够为企业带来未来经济利益的,以物理或电子的方式记录的数据资源。数据资产的关键特征是:
- 拥有数据权属((勘探权、使用权、所有权));
- 有价值;
- 可计量;
- 可读取的数据集。
总而言之,使用者越多(需求方)、使用量级越大、更新越频繁的数据往往更有价值。比如CRIC研究中心是易居中国旗下克而瑞信息集团的专业研发部门,十年以来一直致力于对房地产行业及企业课题的深入探索。
很多企业花钱购买其调研成果数据,这样的数据价值很明显,就可称之为企业资产;贵阳大数据交易平台可以将自己的数据打包成服务、API提供客户购买使用;聚合平台、企查查、天眼查提供企业信息查询这都属于价值很明显,可兑现价值的数据交易,这些数据就实实在在的成为企业间共享的数据,即为数据资产。
所以基于这样的一些思路,如何让数据成为有价值的资产可能取决于这些数据是否现在或者未来具有潜在的交易价值。
基于以上问题,数据血缘可以作为数据资产价值评估的一个度量工具,具体价值体现如下:
数据血缘能够清晰记录数据的采购、生产成本,即使随着后续的加工,数据的全周期都能清晰对数据的成本进行记录。解决数据资产的初始确认不定的问题。
例如:我们通过数据供应商外采的数据,可以记录这些数据的入账价值是多少。如果是我们内部通过人工加工形成的数据指标等资产,那可以继续追踪血缘数据的成本价值是多少,并最终形成汇总。
由于数据血缘体现了数据的多源性,每个数据项在进行加工处理的过程中,我们可以进一步对形成的数据资产进行确认。例如某项指标数据,涉及到的数据汇总加工,都可以分摊其成本。
数据血缘关系,体现了数据的生命周期,体现了数据从产生到消亡的整个过程。当数据被封存或者销毁后,实际就代表了记录数据资产的使用寿命。从而能进一步去对资产的价进行度量。特别是随着业务地发展数据不断增长,任务、数据表只增不减会不断膨胀大数据资源成本。
通过构建全面准确的全链路数据血缘,就可以找出数据下游应用方,做好沟通和信息同步,长期没有调用的服务,及时做下线处理,节省数据成本。
数据资产需要考虑数据有没有流通(也就说我们说的拉通共享)我们绝大部分的数据项目,都是服务内部管理场景的需求。
而我们也需要考虑一些参考数据,是否有流通在市场上,例如公布在官方网站上的报表、经营数据、技术指标等等,形成流通的数据资产(产品化)。
无论是内部使用、还是提供给外部共享的数据,我们都需要衡量其价值。这就需要利用类似于数据血缘的技术,去做数据资产的在线化登记。
将数据价值度量形成资产化,一方面可以有利于数据共享交易过程中的定价,另外一个非常重要的方面就是依据数据资产可量化的价值,形成数据安全的保护等级。
传统的数据安全保护等级评估,往往完全依靠相关法规要求和业务经验,缺少在具体应用场景中的评估依据,评估脱离了数据的应用场景和真实的业务价值。
而数据血缘则提供了一种基于数据实际应用的评估方法:使用者越多(需求方)、使用量级越大、价值越大、更新越频繁的数据安全保护等级就应该越高。
总而言之,要将数据资产化,就必须要围绕“数据价值链”去构思一系列制度和技术手段,确保价值可以量化,可以度量。而数据血缘是将原始数据、数据资源到数据产品、数据资产的过程显现化的关键技术。
价值四:为数据滥用加上一把“道德”之锁
近年来,大数据让公众的生活变得越来越便捷,但随之而来的大数据杀熟、滥用人脸识别技术、过度索取权限等乱象,损害了公众的合法利益。面对各种乱象,公众往往苦不堪言,却又束手无策。
而数据滥用的主要原因之一就是大量数据被超级平台占有,数据在生产、收集、流通、使用等过程中的产权归属不清。
对以上挑战,我们也逐步完善了不少安全措施,例如:进行访问控制和隔离,实施多租户访问隔离措施,数据安全分类分级划分,支持基于标签的强制访问控制,提供基于ACL的数据访问授权模型,提供数据视图的访问控制。并提供数据脱敏和加密功能、统一的密钥管理和访问鉴权服务、数据访问审计日志等等。
值得重点注意的,数据血缘分析技术是解决数据滥用的关键手段,通过数据血缘的追踪,我们能确认数据的源头、OWNER和数据的流向。
这样我们可以提供采集、存储、使用、传输、共享、发布、销毁等基于数据生命周期的具体信息,有的放矢的去进行管理措施。特别是解决数据产生方和使用方、挖掘方的权利关系,有利于数据确权后避免滥用的情况发生。
数据血缘间接提供了一种合规机制,用于审计、改进风险管理,并确保数据的存储和处理符合数据治理政策和法规。例如,2016 年制定了 GDPR 立法,以保护欧盟和欧洲经济区人员的个人数据,让个人能够更好地控制自己的数据。
在美国,加利福尼亚州等个别州制定了《加利福尼亚消费者隐私法》(CCPA) 等政策,该法案要求企业告知消费者其数据的收集情况。这种类型的立法使这些数据的存储和安全成为重中之重,如果没有数据血缘分析技术或者相关工具,组织会发现不合规问题是一项耗时且昂贵的工作。
数据血缘是数据精细化管控时代的一把利器,如果企业能够用好它,必将在数据资产领域大有可为。
本文由人人都是产品经理作者【老司机聊数据】,微信公众号:【老司机聊数据】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
- 目前还没评论,等你发挥!