如何通过业务过程,对指标管理体系进行设计?
本文重点介绍了如何根据业务过程来定义原子指标,根据原子指标和修饰词的结合来定义相关派生指标,同时做好指标的规范命名。
指标作为业务和数据的结合,是数据统计的基础,也是量化业务效果的依据。如何避免指标统计使用过程中出现的指标名称混乱,指标不唯一?同时做好数据有序地和有结构地分类组织和存储,避免底层数据的重复建设,数据统计来源的不唯一?
本文重点介绍了如何根据业务过程来定义原子指标,根据原子指标和修饰词的结合来定义相关派生指标,同时做好指标的规范命名。
1. 背景介绍
指标是指将业务单元细分后量化的度量值,它使得业务目标可描述、可度量、可拆解。而指标体系的搭建是最为重要的,将直接影响「产生→处理→存储→计算→应用」的全流程。而在实际的使用过程中出现了以下问题:
- 对于同一业务场景,各部门会用不同的指标来衡量;
- 对于同一指标的计算,不同的时间点去统计,统计来源和方式会有差异。
具体来说,要做到以下几点:
- 规范维度和量度命名,确保唯一性,命名规则要尽量做到明确、通用、易懂;
- 对确认维度或量度,统一计算口径,避免歧义;
- 涵盖尽可能多的核心维度和量度,以此为基础推动数据建设,确保指标字典里覆盖的维度都可区分,指标都可统计;
- 基于指标字典,将核心维度和量度注入元数据中心,接入指标提取工具,后续实现不需要写sql即可完成自助查询及分析需求,搭建数据自助分析的基础。
因此要提供标准化的、共享的、数据服务能力,降低数据互通成本,释放计算、存储、人力等资源,以消除业务和技术之痛。
数据体系架构如下:
- 业务板块:如果业务产品比较多,且彼此之间的指标或者重叠性比较少的,可单独分开。
- 规范定义:设计出一套数据规范的命名体系。
- 模型设计:以维度建模理论为基础,基于维度建模总线架构,构建一致性的维度和事实。
数据体系架构
2. 指标的规范定义
指标的规范定义,以维度建模作为理论基础,构建总线矩阵,划分和定义数据域、业务过程、维度、度量/原子指标、修饰类型、修饰词、时间周期、派生指标等。
指标的规范定义
(1)数据域
指面向业务分析,将业务过程或者维度进行抽象的集合。其中,业务过程可以概括为一个个不拆分的行为事件,在业务过程之下,可以定义指标;维度,是度量的环境,如买家下单事件,买家是维度。为了保障整个体系的生命力,数据域是需要抽象提炼,并且长期维护更新的,但不轻易变动。
(2)业务过程
指企业的业务活动事件,如,下单、支付、退款都是业务过程。其中,业务过程不可拆分。
(3)时间周期
用来明确统计的时间范围或者时间点,如最近30天、自然周、截止当日等。
(4)修饰类型
是对修饰词的一种抽象划分。修饰类型从属于某个业务域,如日志域的访问终端类型涵盖无线端、PC端等修饰词。
(5)修饰词
指的是统计维度以外指标的业务场景限定抽象,修饰词属于一种修饰类型,如在日志域的访问终端类型下,有修饰词无线端、PC端等。
(6)度量/原子指标
原子指标和度量含义相同,基于某一业务事件行为下的度量,是业务定义中不可再拆分的指标,具有明确业务含义的名称,如支付金额。
(7)维度
维度是度量的环境,用来反映业务的一类属性,这类属性的集合构成一个维度,也可以称为实体对象。维度属于一个数据域,如地理维度(其中包括国家、地区、省市等)、时间维度(其中包括年、季、月、周、日等级别内容)。
(8)维度属性
维度属性隶属于一个维度,如地理维度里面的国家名称、国家ID、省份名称等都属于维度属性。
(9)派生指标
派生指标=1个原子指标+多个修饰词(可选)+时间周期。可以理解为原子指标业务统计范围的圈定。如原子指标:支付金额,最近1天海外买家支付金额则为派生指标。
派生指标又分以下三种类型:
事务型指标:是指对业务活动进行衡量的指标。例如,新增注册会员数、订单支付金额,这类指标需要维护原子指标以及修饰词,在此基础上创建派生指标。
存量型指标:是指对实体对象(如商品、会员)某些状态的统计,例如商品总数、注册会员总数,这类指标需要维护原子指标以及修饰词,在此基础上创建派生指标,对应的时间周期一般为“历史截止当前某个时间”。
复合型指标:是在事务性指标和存量型指标的基础上复合成的。例如,浏览UV-下单买家数转化率。
复合型指标的规则:
- 比率型:创建原子指标,如CTR、浏览UV-下单买家数转化率、满意率等。例如,“最近1天店铺首页CTR”,原子指标为“CTR”,时间周期为“最近1天”,修饰类型为“页面类型”,修饰词为“店铺首页”。
- 比例型:创建原子指标,如百分比、占比。例如,“最近1天无线支付金额占比”,原子指标为“支付金额占比”,修饰类型为“终端类型”,修饰词为“无线”。
- 变化量型:不创建原子指标,增加修饰词,在此基础上创建派生指标。例如,“最近1天订单支付金额上1天变化量”,原子指标为“订单支付金额”, 时间周期为“最近1天”,修饰类型为“统计方法”,修饰词为“上1天变化量”。
- 变化率型:创建原子指标,例如,“最近7天海外买家支付金额上7天变化率”,原子指标为“支付金额变化率”,修饰类型为“买家地域”,修饰词为“海外买家”。
- 统计型(均值、分位数等):不创建原子指标,增加修饰词,在此基础上创建派生指标;在修饰类型“统计方法”下增加修饰词,如人均、日均、行业平均等。例如,“自然月日均UV”,原子指标为 “UV”,修饰类型为“统计方法”,修饰词为“日均”。
3. 指标管理的功能实现
为了实现指标管理,需考虑的底层信息:
指标管理功能设计
部分前台界面展示:
原子指标功能界面
派生指标功能界面
4. 数据的使用框架
在对指标进行规范定义与管理的基础上,可以此推动底层事实表以及维表的建设,保证数据统计的数据源唯一以及计算口径统一。同时,通过指标和修饰词的结合,便于业务人员进行自助分析与使用数据,降低数据获取的效率,从而产生有价值的结论,辅助决策,充分发挥数据的价值。
数据分析使用框架
总结
本文总结了如何基于业务来划分业务过程,从而涉及对应的原子指标,在与维度结合的基础上创建派生指标,建设成规范统一的数据指标体系。以此推动数据统计来源的唯一性,并接入指标提取工具,后续业务完成自助查询及分析需求,搭建数据自助分析的基础。
本书部分内容根据阿里巴巴数据技术以及产品部的《大数据之路 阿里巴巴大数据实践》读书笔记而展开,欢迎大家一起交流。
本文由 @ 时之沙 原创发布于人人都是产品经理。未经许可,禁止转载
题图来自Unsplash,基于CC0协议
请问有对应的产品可以参考吗
能不能给提供两个指标列表、指标添加页面,以及维度、修饰的分类列表啊 ;
另外还有 多个指标之间有参数依赖关系的如何处理啊?
意思是,指标A的出参 作为 指标B的入参这种如何整合到一个指标中,还是需要单一指标调用处理?
整合到一个指标中;
另外一个问题是一个原子指标是不是只能有一个时间维度 ?
因为看原子指标的时间周期自行设定,如果有多个时间的话,其实我是不知道对哪个时间进行统计的 ,但是如果只有一个时间的话有一种情景该如何解决: 近30天内注册 7天内激活的用户,这种数据应该就无法满足了把
你好!对派生指标的部分时间周期不是很理解。“最近30天”这种,很好理解,是站在当前往前推30天,不需要指定是哪一天的前30天。但是对于像这种:自然月、自然周,比如:自然月支付金额,这种派生指标在使用的时候,需要再指定具体哪个自然月吗?
数据域是什么 还是不太理解 可以直接对应到事实表吗 举例中的“日志域” 感觉又不是个事实
你好,关于指标体系的相关资料或书籍有推荐学习的吗?
《大数据之路 阿里巴巴大数据实践》,可以先读一下这本
你好,刚好最近在也看指标体系相关的,有几个问题想咨询下:
1. 文中的数据源具体是什么? 单张hive表 还是 ?
2. 原子指标和数据源的关系,原子指标就是数据源中的具体字段么?还是说可以加上聚合函数?
1、数据源是指底层的事实表,是经过处理后的单张表。
2、在指标管理中做到可追溯查询该指标来自于哪一表,方便数据研发人员后期重复开发计算。聚合函数你指的是求和或计数吧,这个属于指标的计算说明。
不知道有没有解决你的疑问