企业级大数据平台建设参考(续集)[通俗易懂]

大家好，又见面了，我是你们的朋友全栈君。

很早之前我写过一篇《企业级大数据平台建设参考 | 淘宝&滴滴&美团&360&快手&京东》。本文是李智慧老师《大数据技术架构：核心原理与应用实践》书中的部分内容，来看看来自同程旅行交通首席架构师的分享。可见我和李老师还是英雄所见略同的????。另外你还可以参考：

《企业级一站式大数据开发平台理论及实践》

《ApacheSpark在海致大数据平台中优化实践》

《快手大数据平台服务化实践》

常规的大数据平台架构方案是基于大数据平台Lamda架构设计的。事实上，业界也基本是按照这种架构模型搭建自己的大数据平台。

下面我们来看一下淘宝、美团和滴滴的大数据平台，一方面进一步学习大厂大数据平台的架构，另一方面也学习大厂的工程师如何画架构图。通过大厂的这些架构图，就会发现，不但这些知名大厂的大数据平台设计方案大同小异，架构图的画法也有套路。

淘宝大数据平台

淘宝可能是中国互联网业界较早搭建了自己大数据平台的公司，图1是淘宝早期的Hadoop大数据平台，比较典型。

企业级大数据平台建设参考(续集)[通俗易懂]

图1

淘宝的大数据平台基本分成三部分，上面是数据源与数据同步模块；中间是云梯1，即淘宝的Hadoop大数据集群；下面是大数据的应用，即使用大数据集群的计算结果。

数据源主要来自Oracle和MySQL的备库，以及日志系统和爬虫系统，这些数据通过数据同步网关服务器导入Hadoop集群。其中，DataExchange非实时全量同步数据库数据，DBSync实时同步数据库增量数据，TimeTunnel实时同步日志和爬虫数据。数据全部写入HDFS。

在Hadoop中的计算任务会通过天网调度系统，根据集群资源和作业优先级，调度作业的提交和执行。计算结果写入HDFS，再经过DataExchange同步到MySQL和Oracle数据库。处于平台下方的数据魔方、推荐系统等从数据库中读取数据，就可以实时响应用户的操作请求。

淘宝大数据平台的核心是位于架构图左侧的天网调度系统，提交到Hadoop集群上的任务需要按序、按优先级调度执行，Hadoop集群上已经定义好的任务也需要调度执行，何时从数据库、日志、爬虫系统导入数据也需要调度执行，何时将Hadoop执行结果导出到应用系统的数据库，仍然需要调度执行。可以说，整个大数据平台都是在天网调度系统的统一规划和安排下运作的，如图2所示。

企业级大数据平台建设参考(续集)[通俗易懂]

图2

DBSync、TimeTunnel、DataExchange这些数据同步组件也是淘宝内部开发的，可以针对不同的数据源和同步需求导入、导出数据。这些组件淘宝大多已经开源，我们可以参考使用。

美团大数据平台

美团大数据平台的数据源来自MySQL数据库和日志，数据库通过Canal获得MySQL的binlog，输出给消息队列Kafka，日志通过Flume输出到Kafka，如图3所示。

企业级大数据平台建设参考(续集)[通俗易懂]

图3

Kafka的数据会被流式计算和批处理计算两个引擎分别消费。流处理使用Storm进行计算，结果输出到HBase或者数据库。批处理计算使用Hive进行分析计算，结果输出到查询系统和BI（商业智能）平台。

数据分析师可以通过BI产品平台进行交互式的数据查询访问，也可以通过可视化的报表工具查看已经处理好的常用分析指标；公司高管也可以通过平台上的天机系统查看公司主要业务指标和报表。

美团大数据平台的整个过程管理通过调度平台进行管理。公司内部开发者使用数据开发平台访问大数据平台，进行ETL（数据提取、转换、装载）开发，提交任务作业并进行数据管理。

滴滴大数据平台

滴滴大数据平台分为实时计算平台（流式计算平台）和离线计算平台（批处理计算平台）两个部分。

实时计算平台架构如图4所示。数据采集以后输出到Kafka消息队列，消费通道有两个，一个是数据ETL，使用Spark Streaming或者Flink将数据进行清洗、转换、处理后记录到HDFS中，供后续批处理计算；另一个通道是Druid，计算实时监控指标，将结果输出到报警系统和实时图表系统DashBoard，如图4所示。

企业级大数据平台建设参考(续集)[通俗易懂]

图4

离线计算平台架构如图5所示。滴滴的离线大数据平台是基于Hadoop 2（HDFS、Yarn、MapReduce）和Spark以及Hive构建的，并在此基础上开发了自己的调度系统和开发系统。调度系统和前面其他系统一样，调度大数据作业的优先级和执行顺序。开发平台是一个可视化的SQL编辑器，可以方便地查询表结构、开发SQL，并发布到大数据集群上。

企业级大数据平台建设参考(续集)[通俗易懂]