数据仓库VS数据湖,湖仓一体渔翁得利

0 评论 1990 浏览 8 收藏 17 分钟
🔗 产品经理的不可取代的价值是能够准确发现和满足用户需求,把需求转化为产品,并协调资源推动产品落地,创造商业价值。

本文通过“图书馆”与“仓库”的生动比喻,解析两者在存储类型、处理模式、服务对象上的根本差异。数据仓库如同经过严格分类的图书馆,擅长快速查询与报表生成;数据湖则像一个容纳一切的仓库,为数据科学家提供无限探索可能。然而,当企业既需要结构化的决策支持,又渴望保留数据的原始创造力时,湖仓一体架构应运而生。

在当今数字化时代,数据就像一座蕴藏着巨大价值的宝藏矿山,成为企业最宝贵的资产之一。为了更好地管理和利用海量数据,数据仓库和数据湖应运而生。然而,随着数据需求的不断变化,湖仓一体架构逐渐崭露头角,成为数据管理领域的新趋势。

一、数据仓库

数据仓库(Data Warehouse) 是一个面向主题的、集成的、稳定的、随时间变化的数据集合,其诞生旨在助力企业主管部门及业务人员做出契合业务发展规律的决策。

数据仓库就像一个大型图书馆,专门存放整理好的书籍(结构化数据);所有书都分门别类放在固定位置(例如【历史类】在A区,【科学类】在B区),并且每本书入库前都会被贴上标签、做好目录(预先定义格式)。

  • 面向主题:(将所有书籍都分门别类)围绕特定主题组织数据。例如:在电商企业中,传统数据库可能按订单处理、用户管理等不同应用分别存储数据,而数据仓库会将与 【用户】 主题相关的数据:用户基本信息、购买行为、偏好等集中整合,方便对用户进行全面分析。
  • 集成性:(从各个渠道购买、收集各类书籍)企业内部多业务系统,数据相互独立且可能存在异构情况 。数据仓库能够对这些分散、异构的数据进行抽取、清理、加工、汇总和整理,消除数据间的不一致性,形成关于整个企业的一致的全局信息。
  • 稳定性:(放置好的书籍基本不怎么变动)操作型数据库的数据常实时更新,以满足业务的即时需求。而数据仓库的数据主要用于决策分析,一旦数据进入数据仓库,一般会被长期保留,修改和删除操作很少,仅需定期加载和刷新。
  • 随时间变化:(可回溯图书馆时间线)数据仓库记录企业从过去某一时点到当前的各个阶段信息,通过这些历史数据,可对企业的发展历程进行回顾,并对未来趋势做出定量分析和预测。

数据仓库这个图书馆,只收【整理好的书(Excel表格、订单记录)】,方便【快速找书(查询去年卖了多少台手机,管理员(系统)能立刻获取答案)】。但图书馆空间有限(成本高),而且只收【整理好的书】(不能存图片、视频等原始数据)。

数据仓库可应用于为企业管理层提供全面、准确的数据支持,辅助制定战略规划、投资决策、市场拓展计划等;也可用于整合企业财务数据,进行成本分析、利润预测、预算管理等;还可应用于深入分析客户数据,了解客户行为、偏好和需求,实现精准营销、客户细分和个性化服务。

数据仓库的局限性在于对数据的结构化要求较高,难以处理半结构化和非结构化数据,如文本、图片、视频等。此外,数据仓库的构建和维护成本较高,需要专业的数据工程师进行设计和管理。

二、数据湖

数据湖( Data Lake)是一种集中式存储架构,能以原始格式存储海量的结构化、半结构化和非结构化数据。像一个巨大的 【数据水库】,汇聚企业内外部来自各种数据源的数据,如业务系统数据、物联网设备产生的数据、社交媒体数据、日志文件等 。数据湖的核心思想是先存储数据,再根据需要进行处理和分析。

数据湖像一个仓库,里面堆满各种未经整理的原始物品(数据)。如:未拆封的快递箱(原始数据)、照片、聊天记录、甚至杂乱的草稿纸(半结构化或非结构化数据)。所有东西直接丢进去,不分类、不贴标签。

  • 数据多样性:数据湖可存储各种类型的数据,包括结构化的数据库表数据、半结构化的 JSON、XML 数据,以及非结构化的文本、图片、音频、视频等。
  • 原始数据存储:以原始格式存储数据,无需预先进行复杂的数据清洗和转换操作。这保留数据的完整性和原始特征,为后续各种不同目的的分析提供更多可能性。
  • 强大的扩展性:基于分布式存储技术构建,能轻松应对大数据量的存储和处理需求,可扩展性强。当企业业务快速发展,数据量呈指数级增长时,数据湖可通过增加存储节点等方式,灵活扩展存储容量和计算能力,满足企业不断增长的数据管理需求。
  • 灵活的架构:数据湖采用读时模式(Schema-On-Read),在读取数据时才定义数据模式 。这种灵活性使得新数据能快速被摄入数据湖,且方便进行数据探索和实验,满足不断变化的业务需求。

数据湖这个仓库,【什么都能装(文字、文件、图片、视频、音频、传感器数据……)】,且【便宜还能堆很多(存储成本低,空间无限大)】。但是找东西很麻烦,得自己翻箱倒柜(额外处理数据)。

数据湖能处理 PB 级甚至更大量级的数据,适用于日志分析、用户行为分析等大数据分析场景,如:通过对海量日志数据的分析,可以了解用户在其平台上的操作路径、停留时间等行为信息,进而优化产品设计和用户体验;可以为数据科学家和机器学习工程师提供丰富的数据资源,便于构建和训练模型;可以与实时数据处理框架(如 Kafka、Flink 等)集成,支持实时数据的接收、处理和分析。

数据湖也存在一些问题,如:数据质量难以保证、数据治理困难等。由于数据湖中的数据未经严格清洗和转换,可能导致数据冗余、不一致等问题,影响数据分析的准确性。

三、数据仓库和数据湖区别

数据仓库、数据湖尽管都与数据存储、处理密切相关,但在存储数据类型、处理模式、服务对象、存储成本、敏捷性、安全性存在明显区别。

  • 存储数据类型:数据仓库主要存储结构化数据,在数据入库前需进行严格的数据建模和格式定义,以满足特定分析需求;数据湖则能存储结构化、半结构化和非结构化的各种数据,数据以原始格式存储,无需预先定义复杂模式。
  • 处理模式:数据仓库采用写时模式(Schema-On-Write) ,数据在进入仓库前要经过抽取、清洗、转换等一系列预处理,按照预先定义好的模式存储;数据湖采用读时模式(Schema-On-Read),数据先以原始形式快速存入数据湖,在读取数据进行分析时才根据需求定义数据结构和处理方式。
  • 服务对象:数据仓库主要服务于企业业务用户和管理人员,为其提供经过处理和汇总的数据,用于生成报表、支持日常决策分析等;数据湖主要面向数据科学家、数据分析师等技术人员,方便他们从原始数据中进行探索性分析、构建机器学习模型等。
  • 存储成本:数据仓库由于采用专门的存储技术和复杂的索引结构,存储成本相对较高,尤其是存储大量历史数据时,成本更为显著;数据湖基于分布式存储技术,通常可以利用开源技术实现,存储成本较低,适合存储海量的原始数据。
  • 敏捷性:数据仓库结构相对固定,数据模型和架构一旦确定,修改难度较大,因为任何修改都可能影响到整个数据分析流程和相关业务应用;数据湖结构灵活,没有严格的数据模式限制,数据科学家和开发人员可以快速对数据进行各种操作和实验,能够快速响应新的业务需求和分析思路。
  • 安全性:数据仓库发展时间长,安全机制成熟,拥有完善的用户认证、授权、审计等安全功能,能够有效保护数据的安全性和完整性;数据湖作为新兴技术,早期安全功能相对薄弱,但随着技术发展,也在不断增强安全措施,如采用加密技术保护数据传输和存储安全,利用访问控制列表(ACL)进行权限管理等。

数据仓库像有固定格式的仓库,只能存放【标准形状】的箱子;数据湖可以先把各种格式的数据全部【倒进来】,后续需要的时候再去做结构化或清洗。

四、湖仓一体

湖仓一体(Lakehouse)是一种将数据湖、数据仓库优势相结合的新型数据架构。湖仓一体不是简单地将数据湖和数据仓库叠加,而是通过技术创新,实现两者的深度融合,形成一个统一的数据管理和分析平台。

在湖仓一体架构中,底层基于数据湖的分布式存储技术,能够以低成本存储海量的结构化、半结构化和非结构化数据;同时,引入数据仓库的事务管理、数据治理、数据分析能力,在数据湖上构建起强大的数据处理和分析体系,为企业提供一站式的数据服务 。

湖仓一体结合了图书馆和仓库的优点,像一个智能超市。超市货架(数据湖部分):所有商品(数据)原始包装都在,但货架上有电子标签(元数据管理)。超市收银台(数据仓库部分):结账时自动扫码统计(快速查询),还能保证货物不被拿错(数据一致性)。

湖仓一体融合具有多数据类型支持、事务支持、数据治理、BI支持、开放性等优势。

  • 多类型数据支持:继承数据湖的特性,可为许多应用程序提供各种类型数据的入库、转换、分析和访问服务。无论是结构化的数据库表数据,还是半结构化的 JSON、XML 数据,以及非结构化的图像、视频、音频和文本数据等,都能在湖仓一体中进行统一管理和处理,为企业的全方位数据分析提供了可能。
  • 事务支持:企业业务系统常需并发读写数据,湖仓一体对事务的 ACID(原子性、一致性、隔离性、持久性)支持,确保数据并发访问时的一致性和正确性,尤其是在 SQL 访问模式下,能满足企业对数据完整性和准确性的严格要求。
  • 数据治理:湖仓一体支持各类数据模型的实现和转变,具备健全的数据治理和审计机制,能有效保证数据完整性,对数据的生命周期进行管理,记录数据的来源、处理过程和使用情况,实现数据的可追溯性,从而提升数据质量,降低数据管理成本。
  • BI 支持:支持直接在源数据上使用 BI 工具进行数据分析,加快了分析效率,降低了数据延时。业务人员可直接基于湖仓一体平台中的原始数据,利用熟悉的 BI 工具进行报表生成和数据分析,快速获取有价值的信息,辅助决策制定。
  • 开放性:采用开放、标准化的存储格式,如 Parquet、ORC 等,提供丰富的 API 支持,使得各种工具和引擎,包括机器学习框架(如 TensorFlow、PyTorch)和 Python / R 库等,都能高效地对数据进行直接访问。这种开放性促进数据生态的繁荣,企业可以根据自身需求选择最合适的工具和技术,灵活构建数据分析和处理流程。

湖仓一体【省事省钱,不用在图书馆和仓库之间来回搬书(减少数据冗余)】;既能快速查报表,又能搞AI(同一个地方既能统计【本月销售额】,又能分析客户聊天记录的情绪);还不怕丢数据(超市有监控【事务支持】,货物不会莫名丢失或被错误修改);更能灵活扩展(货架不够了直接加一排【云存储无限扩展】,不用重建图书馆)。

数据仓库、数据湖和湖仓一体在企业的数据管理和利用中都扮演着重要的角色。数据仓库像是一位沉稳可靠的管家,为企业的常规决策提供有力支持;数据湖则像一个充满创造力的艺术家,为数据的深度挖掘提供无限可能;而湖仓一体就像是两者的完美结合,成为企业在数字化浪潮中乘风破浪的强大武器。随着技术的不断发展,湖仓一体有望在更多的领域发挥更大的作用,帮助企业更好地挖掘数据价值,实现创新发展。

本文由人人都是产品经理作者【壹叁零壹】,微信公众号:【壹叁零壹】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!
专题
16240人已学习13篇文章
在互联网时代,把网站的服务封装成一系列计算机易识别的数据接口开放出去,供第三方开发者使用,这种行为就叫做Open API。 而提供开放API的平台本身就被称为开放平台。本专题的文章分享了开放平台的搭建思路。
专题
12429人已学习14篇文章
近年来,盲盒大量出现在公众视野,引起了一波又一波消费热潮。本专题的文章分享了解读盲盒营销。
专题
15352人已学习12篇文章
逻辑图是用图标符号、说明文字以及连接线等,形象化地表达复数要素之间的相互作用关系。本专题的文章分享了如何绘制逻辑图。
专题
17139人已学习16篇文章
ERP是一种以系统化的方式,将企业内部所有的业务流程和数据进行整合和管理的软件系统。本专题的文章分享了ERP系统设计指南。
专题
18814人已学习12篇文章
如何设计出一个抓住他人眼球的feed流 ?feed流的组成元素以及常见的feed流样式?本专题的文章提供了对于feed流设计的思考。
专题
13666人已学习12篇文章
本专题的文章分享了CRM的入门知识,分享了CRM是什么。