【技术分享】大众点评数据平台架构变迁

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

开通会员

发布

【技术分享】大众点评数据平台架构变迁

小核桃

2015-11-10

1 评论 18422 浏览 61 收藏

B端产品经理要负责对目标行业和市场进行深入的分析和调研，了解客户的需求、痛点、期望和行为，找到产品的价值主张

最近和其他公司的同学对数据平台的发展题做了一些沟通，发现各自遇到的问题都类似，架构的变迁也有一定的相似性。

以下从数据&架构&应用的角度对2012.07-2014.12期间大众点评数据平台的架构变迁做一个概括性的总结，希望对还处在数据平台发展初期的同学有一些帮助，欢迎线下沟通。

1.0(2012.07)

1.1 数据：

以支持用户报表需求为主
初步沉淀出了一些底层模型
模型计算程序以python为主

1.2 架构：

存储和计算都在GreenPlum
GreenPlum采用双集群热备，一大一小，部分关键报表数据同时在两个集群存储、计算。
传输：公司的DBA同学将数据从Mysql、SQLServer拉出来，落地成文件。传输程序每天凌晨解析落地的文件，然后将数据load到greenplum
调度：使用Quartz框架，依赖关系存放到表中，将依赖检查做成一个脚本，下游job 调用方法check上游任务是否完成
监控：用户程序自主判断异常，邮件、手机报警。

1.3 数据应用：

报表数据以邮件的形式发送给用户
用户可以使用自定义sql的web查询工具主动查询数据

2.0(2013.04)

2.1 数据：

1. 有了明确的模型分层：

ODS:存放从原系统采集来的原始数据
DW:保存经过清洗，转换和重新组织的历史数据，数据将保留较长时间,满足系统最细粒度的查询需要
DM: 数据集市。基于部门或某一特定分析主题需要
RPT:直接面向用户的报表

2. 形成了流量、团购、信息三大基础模型及构建于三大基础模型之上的数据集市

3. 基于volocity开发了canaan计算框架。

4. 开发了一些自定义的UDF

2.2 架构：

1. 存储和计算都基于HIVE

2. GREENPLUM作为HIVE的“cache”存在，供用户做一些小数据的快查询，报表存储。

3. 调度：和canaan框架进行整合，支持用户快速新增任务，并自动导入任务依赖。

4. 主数据：保存了数据仓库元数据信息，供用户查询和系统内部各个模块交互。

5. ACL：构建了数据仓库数据访问权限控制，包括用户权限申请、审批者审批、数据赋权等。

6. 传输：

参考阿里DataX的设计，实现了点评的异构数据离线传输工具wormhole
可视化界面，用户通过界面操作，方便的将数据导入导出数据
和调度、主数据等系统打通

7. 监控：由于任务数量增长较快(2000+)，运维已经是个问题此外，因此，我们花了较大精力做了可视化的工作：

2.3 数据应用

运营工具：用户自定义SQL，存储基于HIVE
指标(KPI)：用户自定义SQL，计算基于HIVE，结果放到GREENPLUM中，用户可以根据指标通过时间拼接成报表
HIVE WEB：非常便捷的HIVE WEB工具，可用性可以甩hive原生的web界面HWI几条街了

3.0(2013.12)

3.1 数据：

有了明确的上层数据集市，各层数据集市打通，例如团购数据和流量数据打通
形成了用户集市、商户集市两大主题
和算法团队合作建设推荐系统
提供框架和工具支持，引入外部数据开发者

3.2 架构：

引入mysql、hbase，支持线上服务
数据访问接口支持：API、Query Engine、RPC Service
引入shark支持临时查询，出于稳定性考虑，牺牲性能，shark/spark集群和hadoop/hive集群物理隔离
数据质量：用户指定以条件，对计算结果做检查

3.3 数据产品：

支持DashBoard

4.0(2014.12)

4.1 数据：

持续扩充/完善数据模型
数据规范化，主要包括：APP日志、渠道
完善数据开发平台，其他部门数据开发者100+

4.2 架构：

建设Redis Cluster，支持实时推荐、用户画像等服务
Hadoop升级到YARN
引入Storm支持实时计算
推出类Kafka的分布式消息系统，结合日志框架，支持日志数据的快速/低成本接入
建设元数据中心

dp6 4.3 数据产品：

推出专有数据产品，包括：运营效果评估、流量分析产品等。

来源：IT瘾

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

小核桃

爱因斯坦没有解决的问题，交给泡面（PM）解决

220篇作品 4442493总阅读量

网红成了AI女友，一月收入72万？

06-073677 浏览

GPT：低代码的终局性机遇

05-107918 浏览

业务篇：B端产品经理面试，注意这些细节

刚刚

【AI+公开课】即便你不懂编程，也可以轻松写个网页工具了

11-211501 浏览

关于小红书铺量，早看早避坑

09-294252 浏览

B站开启直播带货，未来盈利还会远么？

09-272152 浏览

起点课堂学习联盟

非技术出身产品经理的技术沟通秘籍！15天补齐程序/代码、前端、后端、数据库4大模块基础技术知识。
详情戳>http://996.pm/7daXE 或咨询起点学院蘑菇（wx：qdxymg）

最近来自广东回复

B端客户需求差异大、难平衡？3个案例带你理清设计思路！

专题

18821人已学习12篇文章

feed流应该如何设计?

如何设计出一个抓住他人眼球的feed流？feed流的组成元素以及常见的feed流样式？本专题的文章提供了对于feed流设计的思考。

给每个运营人的裂变指南。

如何让你的事件营销深入人心？

人力资源管理系统，帮助企业管理和维护其人力资源。本专题的文章分享了人力资源管理系统的设计指南。

专题

11678人已学习12篇文章

双十一营销玩法

2023年双十一逐渐临近，各个电商平台也摩拳擦掌开始准备。本专题的文章分享了双十一营销玩法。

专题

16693人已学习16篇文章

界面设计方法

对于很多软件工程师来说，工作内容都与界面设计有很大的关联。本专题的文章分享了界面设计方法。

网站统计