数据治理系列01:初识数据治理

1 评论 3244 浏览 12 收藏 14 分钟

什么是数据治理?怎么做数据治理?作者结合业界先进经验及个人实践经历,进行了介绍分析。

随着企业数据爆炸式增长,企业在用数时,会存在数据孤岛问题、数据建设不规范、指标口径不统一、数据查询计算不稳定、数据安全等问题。因而各个公司也开始了数据治理,推动数据规范建设及使用。

接下来草帽小子将开启数据治理的系列篇,结合借鉴业界先进的数据治理经验及个人工作实践经历,帮助大家系统化地了解数据治理。

一、数据治理是干什么的

按照国际数据管理协会(DAMA)的定义,数据治理是对数据资产的管理活动形式权利和控制的活动集合(规划、监控和执行)。

按IBM的定义,数据治理是企业通过不同的策略和标准,提高组织数据的可用性、质量和安全性的一整套制度与管理活动,数据治理的目标是维护安全且易于访问的高质量数据,以获取更深入的业务洞察。

名词解释:

  1. 元数据:描述数据的数据,例如记录数据的存储位置、模型定义、血缘关系等信息,类似画像
  2. 主数据:描述企业核心业务实体的数据,例如客户、产品、账户等,主数据具有较高的业务价值,可在企业内跨各个业务部门被重复使用

数据治理要点是数据稳定、规范、安全,就像盖楼盘一样,需要设计好楼盘架构,打好地基,制定建设规范,并推动各团队人员进行搭建。

二、为什么要做数据治理

1. 从发展阶段,看数据治理的发展原因

①第一阶段:2005-2009年

2005年左右,早期的数据仓库在中国兴起,一开始主要由商业银行、通信运营商主导,随后能源等行业企业加入。商业银行通过与埃森哲、IBM等国外IT咨询公司合作,最早将数据治理的概念在中国予以实践。

数据仓库建设涉及从不同来源的平台中抽取数据并进行整合,在这一过程中,需要确保数据质量,包括数据口径、数据标准和数据模型统一等。通过数据治理,建立起数据标准、数据模型等管理体系,能够提升数据质量,确保数据仓库建设顺利推进,进而能够更好地支撑起BI等数据分析型应用。

数据治理系列01:初识数据治理

草帽小子:数据治理的发展阶段与大数据的发展息息相关,只要涉及大数据建设,就势必有数据规范、数据质量、数据安全等问题。

②第二阶段:2010-2014年

这一阶段的数据治理需求主要集中于银行业,主要由监管政策驱动。为了推动中国银行参加到国际清算体系中,2011年中国推出《银行监管统计数据质量管理良好标准》,该标准从组织机构及人员、制度建设、系统保障和数据标准、数据质量的监控、检查与评价、应用和存储等方面对银行数据治理提出要求。

草帽小子:银行等金融机构,对底层数据质量的要求更高,并面临着一定的监管压力,势必需要数据治理

③第三阶段:2015-2018年

2015年左右,企业兴起了大数据平台的建设,并且到2018年,数据中台概念流行,数据中台中包含统一资产管理、统一数据元管理等与数据治理相关的内容。在这个阶段,越来越多的企业开始搭建数据治理的专职团队。

2018年,中国银保监会发布《银行业金融机构数据治理指引》,包含数据治理架构、数据管理、数据质量管控、数据价值实现。

数据治理系列01:初识数据治理

④第四阶段:2019年-至今

2019年以来,企业数字化转型进入快车道,在这一阶段,数据治理已内化成为企业机制建设的一部分。

如2020年9月,国资委发布的《关于加快推进国有企业数字化转型工作的通知》,针对央企数字化转型工作,明确提出构建数据治理体系的要求。包含明确数据治理归口管理部门,加强数据标准化、元数据和主数据管理工作,定期评估数据治理能力成熟度。加强生产现场、服务过程等动态数据采集,建立覆盖全业务链条的数据采集、传输和汇聚体系。

草帽小子:国家层面推动国有企业数据化,国有企业会逐步建设数据平台并进行数据治理,企业对数据人才的需求仍会不断增多。

在包括金融、通信、能源、制造等数据治理开展相对成熟的行业,较多企业都已设置数据治理的专职部门和岗位,而且越是数据治理成熟的企业,专职部门越是靠近业务侧,且专职部门级别越高。

2021年工信部发布的《“十四五”大数据产业发展规划》,以释放数据要素价值为导向,加强数据高质量治理。

数据治理系列01:初识数据治理

2. 从现状问题看数据治理对企业的价值

我们来看阿里云dataworks团队,在数据建设推进与应用中遇到的阶段性问题。

①起步阶段:数据量与稳定性的矛盾

随着数据量的增长,数据稳定性不足,任务调度随着规模增大经常挂掉,集群计算资源不足,问题处理时间长。

数据治理系列01:初识数据治理

②应用阶段:数据普惠与使用效率的矛盾

在数据应用时,使用数据的人增多,数仓人员疲于取数,数据团队压力增大,数仓建设会逐步变得混乱,反而会阻碍后续使用数据效率。

③规模阶段:灵活便捷与风险管控

数据出口多,人为泄露行为管控难,安全保障有待提高,各类数据安全的管理动作,往往会与效率背道而驰,数据分类分级难度高。

④成熟阶段:业务变化与成本治理的矛盾

数据成本压力大,不知道数据成本在哪,数据不敢删、任务不敢下。

草帽小子:国有企业在政策的指引下,逐渐推动数字化转型、数据治理;私营企业在业务数据不断增长的驱动下,逐渐推动数据治理。

3. 不同类型企业如何做数据治理

传统企业的数据治理跟数字化转型息息相关,数据治理动作往往融入了数据化建设的每个环节中。

(1)互联网

以阿里为例,阿里建设社dataworks大数据开发治理平台,建设的能力包括指标数仓规范设计、数据分析、元数据管理、数据安全管理等能力。

数据治理系列01:初识数据治理

(2)能源

包含煤炭、电力、光伏、电站等,如国家电网、中石化等。

能源行业如电力的数据治理,不能单纯以数据质量、血缘分析、元数据管理等传统IT技术为主,需要在数据治理中紧密结合业务,与各个业务环节紧密配合。

例如:设备检修:电网公司通过对设备运行的海量数据挖掘,开展预测性检修的研究,以较高的准确率预测出设备运行的未来状态,预判设备发生故障的可能性,从而达到基于设备状态来指导检修的目的。

数据治理系列01:初识数据治理

常见的挑战,包含:

  • 数据类型多:电力行业广泛部署的物联网设备,产生了格式不同、频率不同、定义不同的多源异构数据
  • 海量数据,时效性强:电力的产生、传输与消费情况瞬息万变,片刻间便能产生海量的数据资源,如何及时获取、可靠存储、快速计算?
  • 数据链路长:能源价值链整合的参与者众多,价值活动之间存在紧密联系,各方数据交互标准、质量、规范如何有效把握?

关键治理方式,包含:

  • 自动采集各类数据资产信息:根据不同的数据源,开发不同的采集适配器,实现不同种类的数据自动化采集
  • 全面管理企业数据资产:在实现企业元数据、技术元数据、模型元数据的全面采集后,企业做好整体数据资产的梳理、数据质量的管理
  • 数据资产服务化:提供自助查询服务、自动获取数据服务

(3)金融

金融数据治理是金融行业数字化转型的重要切入点,也是推动金融业从高速增长向高质量发展转变的关键点。银保监会发布的《银行金融机构数据治理指引》,从数据治理团队、数据管理的标准、数据质量管控、数据价值实现等方面展开。

金融数据治理的常见的挑战,包含:

  • 数据价值发现和数据信息保护的矛盾:《数据安全法》、《个人信息保护法》陆续实施,要求金融从业机构将个人客户信息安全、隐私保护,贯穿在数据采集与应用的全过程。
  • 金融如银行机构,存在各地分行多,经营数据割裂,数据流通困难等问题

数据治理系列01:初识数据治理

关键治理方式:

  • 治理服务化:管理理念转为服务理念,通过提供便利的工具或服务,全面为业务提供服务。
  • 治理流程化:结合开发流程,将数据模型、数据字典管理流程化,从数据源头落实数据标准。
  • 治理场景化:与监管报送相结合,全流程监控报送质量。
  • 标准开放化:构建数据标准运营体系,探索更多开放共享场景,应用数据治理成果。
  • 资产智能化:构建智能数据资产管理,结合先进技术,全面释放数据价值。

数据治理系列01:初识数据治理

4. 数据人才的机会

在国家推动企业数字化转型的趋势下,不仅仅是互联网企业需要进行数据人才,较多传统企业包括能源、通信、金融、制造等也需数据人才。

企业信息化、数据化的程度不同,所面临的问题也不同,所需数据人才的能力侧重点也会有所差异。但在整体数字化推进时,也会需要一定的通用能力,如数据采集、数据分析、数据计算、数据治理、数据应用等。

因而,个人在工作实践上,可不断增长对大数据平台,各个模块的实践与了解,尽可能掌握整个大数据体系;同时可放眼外界,多对比了解不同行业的数字化建设差异。

专栏作家

草帽小子,公众号:一个数据人的自留地,人人都是产品经理专栏作家。《大数据实践之路:数据中台+数据分析+产品应用》书籍作者,专注用户画像领域。

本文原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自Unsplash,基于CC0协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
海报
评论
评论请登录
  1. 关注中,期待内容更新

    来自河北 回复