离线数据单表集成设计详解

0 评论 2122 浏览 13 收藏 10 分钟

数据集成平台可以将外部数据源的数据同步存储,进行统一管理,其中,按照集成数据的有效性,又可以分为实时数据同步和离线数据同步。这篇文章里,作者就对离线数据集成进行了设计拆解,一起来看看吧,或许会对你有所帮助。

数据集成平台是“数据工厂”的首站,用于将外部数据源的数据(元数据、业务数据)同步至统一存储中心,进行统一纳管,解决数据分散问题。按照集成表规模分为单表同步、整库同步,按集成数据时效性分为离线数据同步、实时数据同步。

本文主要对离线批量数据单表同步进行总结,离线数据通道通过定义源端和目标端数据源、数据表,利用数据抽取插件、数据转换插件、数据写入插件,实现任意结构化、半结构化数据源之间数据传输。

一、数据源管理

对源端数据源和目标端数据源连接属性的配置管理。

不同项目对数据源的需求不同,所以在做数据源管理设计时要松耦合,数据源类型可扩展,参数配置动态取值。

1. 创建数据源

不同类型的数据源,配置参数也不相同,以MySQL为例,介绍创建数据源页面。

  • 数据源名称:根据连接的数据源类型,用户可自定义便于记忆、区分的名称。
  • 数据源编码:用户可自定义编码,用于数据源唯一区分。
  • 连接类型:数据源类型,例如GAUSS、GREENPLUM、KUDU、MYSQL、SFTP等。选择类型后,配置参数动态取值显示。
  • 服务器地址:要连接的数据库的IP地址或域名。
  • 端口号:要连接的数据库的端口。
  • 数据库名称:要连接的数据库名称。
  • 用户名:用户账号。该数据库用户需要有数据表的读写权限,以及对元数据的读取权限。
  • 密码:用户名密码。

2. 集成平台对已创建的数据源有以下操作

  • 删除:对已经维护的数据源进行删除操作,不能删除已被使用的数据源。
  • 编辑:对已经维护的数据源进行修改操作。不能修改连接类型,可修改连接参数。修改连接时,需要重新输入数据源的登录密码。
  • 测试连接:测试连接的连通性。
  • 查看详情:展示当前数据源的配置信息。

二、集成任务管理

数据集成平台架构分上下两层,上层为命令层,通过制定集成任务,控制下层的执行。命令层会告知执行层数据从哪里来,到哪里去,怎样去,何时去,执行层负责完成这些指令。

1. 生命周期管理

生命周期管理是对命令层任务从创建到删除的全生命周期活动的管理,包括创建任务、修改任务、生效任务、运行任实例、失效任务和删除任务。

通过生效状态和实例运行状态标记任务生命周期阶段:

  • 未生效:创建任务后的默认状态,或失效成功后状态,此状态下可以编辑、删除任务。
  • 已生效:生效任务后的状态,生效后的任务可以运行实例。
  • 运行中:运行/恢复实例成功后实例状态;此状态实例可以停止,停止失败依然为运行中。
  • 运行失败:运行实例失败后实例状态。
  • 运行停止:已停止的实例状态,可以恢复。
  • 运行结束:采集数据完毕后状态。

2. 创建集成任务

用户通过填写基本信息,配置源端、目标端库表,确定全量/增量同步,配置字段映射和配置任务执行参数六个步骤,在页面创建数据集成任务。

选择数据来源和数据去向后,需要指定读取端和写入端列的映射关系,配置字段映射关系后,任务将根据字段映射关系,将源端字段写入目标端对应类型的字段中。源端表和目标表会按照字段编码自动映射,也可手动更改映射。源端和目标端的字段操作有:

① 源端数据清洗转换:点击色湖之按钮,使用源端数据库支持的函数,对字段进行函数处理。

② 为目标字段赋值:通过添加一行的方式,为目标表添加常量、变量。

第三步参数设置是对定时、增量字段、同步并发、流量控制和脏数据控制的设置。

3. 集成平台对已创建的集成任务有以下操作

  • 删除:对已经维护的集成任务进行删除操作,只能删除未生效的任务。
  • 编辑:对已经维护的集成任务进行修改操作。不能修改源端和目标端数据源。
  • 查看详情:展示当前集成任务的配置信息。
  • 生效/失效任务:对任务生效状态的变更。
  • 运行任务实例:手动运行或定时周期运行任务实例。
  • 停止/恢复运行:停止运行中的任务,恢复已停止的实例。
  • 查看历史任务:查看该任务的历史执行记录、作业执行的日志信息。

三、集成任务运维监控

此模块主要查看离线同步任务实例运行情况、监控任务运行状态和任务运行日志等,从任务运行统计分析详数据和详细数据2个方面展示。

  1. 统计分析数据通过可视化图表展示同步任务数、同步数据量、同步记录数、任务运行状态分布、周期实例及任务趋势等运维监控指标。
  2. 任务实例详情点击可视化图表,可以进入详细数据展示区域,可通过开始运行时间、结束运行时间、任务状态和任务名称等条件筛选,快速搜索任务实例,查看该实例的执行情况和错误日志。

在当今数字化时代,企业面临着海量的数据和分散的信息孤岛,数据集成成为了解决这一挑战的关键,将数据整合到一统一的数据存储库中,以实现数据的一致性、可访问性和可用性,使企业能够更好地利用数据进行分析、决策和业务创新。

由于不同来源、不同格式、不同结构和数据范围不同,导致数据集成面临的情况多样复杂,本文仅对离线数据集成进行描述,以后会逐步展开其他。

专栏作家

余田,人人都是产品经理专栏作家,数据产品经理,《用户至上-用户研究方法与实践》译者。

本文原创发布于人人都是产品经理,未经作者许可,禁止转载。

题图来自 Unsplash,基于CC0协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!