知名大厂大数据平台搭建案例分享

article/2025/10/9 20:10:07

 今天我们来看一下淘宝、美团和滴滴的大数据平台

01 淘宝大数据平台

淘宝可能是中国互联网业界较早搭建了自己大数据平台的公司,下图是淘宝早期的 Hadoop 大数据平台,比较典型。

淘宝的大数据平台基本也是分成三个部分,上面是数据源与数据同步;中间是云梯 1,也就是淘宝的 Hadoop 大数据集群;下面是大数据的应用,使用大数据集群的计算结果。

数据源主要来自 Oracle 和 MySQL 的备库,以及日志系统和爬虫系统,这些数据通过数据同步网关服务器导入到 Hadoop 集群中。其中 DataExchange 非实时全量同步数据库数据,DBSync 实时同步数据库增量数据,TimeTunnel 实时同步日志和爬虫数据。数据全部写入到 HDFS 中。

在 Hadoop 中的计算任务会通过天网调度系统,根据集群资源和作业优先级,调度作业的提交和执行。计算结果写入到 HDFS,再经过 DataExchange 同步到 MySQL 和 Oracle 数据库。处于平台下方的数据魔方、推荐系统等从数据库中读取数据,就可以实时响应用户的操作请求。

淘宝大数据平台的核心是位于架构图左侧的天网调度系统,提交到 Hadoop 集群上的任务需要按序按优先级调度执行,Hadoop 集群上已经定义好的任务也需要调度执行,何时从数据库、日志、爬虫系统导入数据也需要调度执行,何时将 Hadoop 执行结果导出到应用系统的数据库,也需要调度执行。可以说,整个大数据平台都是在天网调度系统的统一规划和安排下进行运作的。

DBSync、TimeTunnel、DataExchange 这些数据同步组件也是淘宝内部开发的,可以针对不同的数据源和同步需求进行数据导入导出。这些组件淘宝大都已经开源,我们可以参考使用。

02 美团大数据平台

美团大数据平台的数据源来自 MySQL 数据库和日志,数据库通过 Canal 获得 MySQL 的 binlog,输出给消息队列 Kafka,日志通过 Flume 也输出到 Kafka。

Kafka 的数据会被流式计算和批处理计算两个引擎分别消费。流处理使用 Storm 进行计算,结果输出到 HBase 或者数据库。批处理计算使用 Hive 进行分析计算,结果输出到查询系统和 BI(商业智能)平台。

数据分析师可以通过 BI 产品平台进行交互式的数据查询访问,也可以通过可视化的报表工具查看已经处理好的常用分析指标。公司高管也是通过这个平台上的天机系统查看公司主要业务指标和报表。

美团大数据平台的整个过程管理通过调度平台进行管理。公司内部开发者使用数据开发平台访问大数据平台,进行 ETL(数据提取、转换、装载)开发,提交任务作业并进行数据管理。

03 滴滴大数据平台

滴滴大数据平台分为实时计算平台(流式计算平台)和离线计算平台(批处理计算平台)两个部分。

实时计算平台架构如下。数据采集以后输出到 Kafka 消息队列,消费通道有两个,一个是数据 ETL,使用 Spark Streaming 或者 Flink 将数据进行清洗、转换、处理后记录到 HDFS 中,供后续批处理计算。另一个通道是 Druid,计算实时监控指标,将结果输出到报警系统和实时图表系统 DashBoard。

离线计算平台架构如下。滴滴的离线大数据平台是基于 Hadoo 2(HDFS、Yarn、MapReduce)和 Spark 以及 Hive 构建,在此基础上开发了自己的调度系统和开发系统。调度系统和前面其他系统一样,调度大数据作业的优先级和执行顺序。开发平台是一个可视化的 SQL 编辑器,可以方便地查询表结构、开发 SQL,并发布到大数据集群上。

此外,滴滴还对 HBase 重度使用,并对相关产品(HBase、Phoenix)做了一些自定义的开发,维护着一个和实时、离线两个大数据平台同级别的 HBase 平台,它的架构图如下。

来自于实时计算平台和离线计算平台的计算结果被保存到 HBase 中,然后应用程序通过 Phoenix 访问 HBase。而 Phoenix 是一个构建在 HBase 上的 SQL 引擎,可以通过 SQL 方式访问 HBase 上的数据。

希望大家可以关注下公众号,会定期分享自己从业经历、技术积累及踩坑经验,支持一下,鞠躬感谢~

关注公众号回复:“资料全集”


http://chatgpt.dhexx.cn/article/RiAXHfAy.shtml

相关文章

CDH大数据平台搭建之HADOOP分布式集群搭建

CDH大数据平台搭建之HADOOP安装 一、什么是HADOOP?二、如何下载1.官网下载2.网盘下载 三、搭建集群1.虚拟机准备2.安装JDK3.安装ZOOKEEPER4.集群规划5.安装HADOOP6.修改配置文件1、进入配置文件目录:2、修改env文件3、修改core-site.xml文件4、修改hdfs-site.xml文…

大数据平台搭建实训报告(思路而已)

目录 1.环境准备 1.1实验目的 1.2实践操作 2.部署HDFS 2.1实验步骤 2.2实践操作 3.实验三 HDFS shell操作 3.1实验目的 3.2实践操作 3.2.1练习对HDFS文件创建、查看、删除、复制、粘贴等文件操作 3.2.2练习本地文件与HDFS文件的上传与下载 3.2.3练习HDFS文件权限修…

CDH大数据平台搭建

Hadoop是apache旗下的一套开源软件平台, 主要对海量数据进行分布式处理。 本次部署,计划使用5台服务器,服务器磁盘规划如下: 分区挂载完成以后,使用root用户执行对目录/data授权。每台服务器都执行此命令。 chmod 777 -R /data …

Hadoop大数据平台搭建(一)

虚拟机准备(本节针对于初学者) vmawre、xshell、centos7镜像及搭建包自提地址已放在评论区。 目录 虚拟机准备(本节针对于初学者) 1、节点规划 2、虚拟机安装 3、启动虚拟机配置网关 总结 1、节点规划 2、虚拟机安装 这里的系统和…

大数据平台搭建详细流程(一)框架简介与平台准备

一、框架简介与平台准备 1.1、框架 1.2、硬件 CPU:四核、内存:4G、磁盘:50G hadoop102、hadoop103、hadoop104 1.3、操作系统 操作系统:Centos7(最小系统) 1.4、基础环境 1.4.1、网络配置 hadoop10…

Hadoop大数据平台搭建(超详细步骤)

相关软件下载链接: Xshell:家庭/学校免费 - NetSarang Website Xftp:家庭/学校免费 - NetSarang Website Xshell与Xftp官网:XSHELL - NetSarang Website Jdk:百度网盘 请输入提取码 提取码:jdhp Hado…

大数据实战平台环境搭建

大数据实战平台环境搭建 一、创建 Hadoop 用户二、更新apt和安装Vim编辑器三、安装 SSH 和配置 SSH 无密码登录四、安装 Java五、安装单机 Hadoop六、Hadoop 伪分布式安装七、HDFS常用命令八、HDFS实验之通过JAVA-API访问HDFS 一、创建 Hadoop 用户 1、创建 Hadoop 用户&#…

大数据基础平台搭建-(一)基础环境准备

大数据基础平台搭建-(一)基础环境准备 大数据平台系列文章: 1、大数据基础平台搭建-(一)基础环境准备 2、大数据基础平台搭建-(二)Hadoop集群搭建 3、大数据基础平台搭建-(三&#x…

QList添加自定义结构体

QList中使用自定义结构体后,构建错误信息如下: 看内容是说需要重载,遂进行重载,如下: 重新构建,不再提示错误。

4.6 案例10 使用QList处理数据集

本案例对应的源代码目录&#xff1a;src/chapter04/ks04_06。 本节介绍Qt的数据处理类QList。如果要使用QList&#xff0c;需要包含其头文件<QList>。本案例也设计了三种编程场景对QList的使用进行介绍。 &#xff08;1&#xff09;向QList中添加成员并遍历。 &#x…

Qt· 常用容器之QList

目录 1、QList介绍 2、构造函数 3、插入函数 4、删除和移动类函数 5、访问和查询函数 6、替换、移动和交换函数 7、运算符函数 8、迭代器函数 9、容器类型转换函数 其他内容 1、QList介绍 在开始讲解 QList 之前&#xff0c;我们先明确一下 Qt 数据容器能存储什么&a…

QT QList<T>介绍与应用、详解、使用说明、官方手册翻译

文章目录 1. 简介2. 使用示例3. 官方手册4. Member Function Documentation 1. 简介 QList<T>是目前最常用的容器类 。它存储了给定类型的值的一个列表&#xff0c;而这些值可以通过索引访问。在内部&#xff0c;QList使用数组来实现&#xff0c;一确保进行快速的基于索…

Web后端开发入门(3)

在Eclipse中创建web项目 右键->new->Project->Web->Dynamic Web Project->下一步 Project name&#xff1a;给你的web项目起一个名称 Target runtime:你这个项目运行在哪一个web服务器上。点击New runtime&#xff0c;选择自己安装的服务器&#xff0c;然后点击…

【Delphi + Vue】Web后端动态图片传递给前端

在用Delphi做Web后台的时&#xff0c;有时需要用到后台动态生成二维码图片&#xff0c;给前端使用&#xff0c;虽然前端可以通过js库生成&#xff0c;目前流行的有 QR码生成器&#xff08;在线&#xff09;、QRCode.js&#xff08;支持本地&#xff09;、 arale-qrcode&#xf…

web搭建服务器端+创建web后端项目操作步骤

一、搭建服务器端 以前,我们的iava程序都是在本地运行,在idea执行main&#xff08;&#xff09;开始运行; 从javaEE开始,后端程序都是运行在服务器上,准备工作就是先要在我们的电脑上安装一个web服务器,把我们开发的java程序部署在服务器中,这样就可以从前端远程的通过网络进行…

从Web后端(Java)转到游戏服务端的感受

九零后的男生几乎都是玩电子游戏长大的&#xff0c;做游戏开发几乎是每个九零后男生从小就有的梦想吧。我的大学时代&#xff0c;正好与移动Web高速发展的时代重合了&#xff0c;大学里几乎所有同学都是做Web方向的开发&#xff0c;Web前端&#xff0c;Java后端等等。大四的秋招…

Python web后端开发框架 Django 、Flask、Tornado

深入学习Python &#xff0c;用Django做Web后端开发现在Python的用途愈来愈广&#xff0c;服务器、Web、游戏、爬虫、数据分析 以及人工智能 学习之路还很长技术之路 不能回头 陷进去 就出不来 就跟恋爱一般&#xff0c;学习中、项目中 印象笔记、有道云笔记、Onenote都记了好…

Web后端框架Springboot创建和基础讲解(一)

Springboot是一款底层由java编写的web后端框架&#xff0c;前身是spring框架&#xff0c;相较于前身框架而言&#xff0c;继承了其良好的兼容性以及扩展性&#xff0c;并且舍弃了大量繁杂的xml文件&#xff0c;将其改为依赖注入spirngboot框架的容器中&#xff0c;节省了工作者…

Web后端开发知识点整理

Web后端开发知识点整理 九大内置对象 1:为了方便开发者而在jsp页面加载完毕时而自动创建的内置对象 内置对象名 类型 request HttpServletRequest response HttpServletResponse config ServletConfig application ServletContext sessi…