大数据平台架构

article/2025/8/21 3:23:25

1 大数据组件架构

大数据架构分为:数据采集,传输,存储,调度和处理这五个部分.其中任务定期执行和任务分配,分别使用Azkaban和Zookeeper,大数据平台整体架构如图1所示,由图1可知,大数据平台的基础是服务器(硬件),所有计算机相关的服务均是基于服务器(或主机),服务器是一切服务和数据的根本,用于存储、通信、提供服务等等,在服务器中部署数据存储服务,如MySQL、Hive等数据结构工具,在服务器中存储的数据是无“生命”的,当服务器存储了海量数据,并需要分析数据时,通过Hadoop构建大数据平台,使这些无“生命”的数据“复活”,然而,通过MySQL等工具存储的数据不能直接被Hadoop利用,需要利用如Sqoop、Kafka和Flume等数据传输工具将海量的数据传输到Hadoop的文件系统HDFS中,存储到HDFS中的数据经过HBASE和YRAN标准化数据,供分析随时调用,数据处理使用Spark和Flink,实现数据实时处理。当进行分布式部署大数据集群时,使用ZooKeeper维护集群,任务调度使用Azkaban完成。
在这里插入图片描述

图1 大数据架构

2 大数据工具架构

大数据工具及相关功能如图2所示。

在这里插入图片描述

图2 大数据工具

3 数据存储

数据类型
结构化数据:数据库数据.
半结构化数据:XML数据
非结构化数据:word,PDF,文本,媒体日志.
大数据相关操作:
数据采集,策展,存储, ,分享,传输,分析,展示.

3.1 Hadoop

Hadoop是Apache的大数据集处理的开源框架.Hadoop执行批量处理,并且只能以顺序方式访问数据,意味着必须搜索整个数据集,即使最简单的搜索任务,当处理结果在另一个庞大的数据集,也是按照顺序处理大数据集.

  • HDFS
    Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)基于GFS,并提供了一个设计在普通硬件上运行的分布式文件系统.
序号特点
1分布式存储和处理
2Hadoop提供的命令接口与HDFS进行交互
3内置服务器的名称节点和数据节点可检查集群状态
4流式访问文件系统数据
5提供文件权限和验证

HDFS与现有的分布式系统有许多相似之处,但HDFS高度容错并设计成部署在低成本的硬件上,提高了高吞吐量的应用数据访问,并适用于具有大数据集的应用程序.

3.2 HBase

HBase是基于HDFS的分布式面向列的数据库,是一个数据模型,可以提供快速随机访问海量结构化数据,该数据模型定义只能有列族,及键值对,一个表有多个列族及每一个列族可以有任意数量的列,后续列的值连续存储在磁盘上,表中的每个单元格都具有时间戳.用于解决Hadoop只能批量顺序处理数据,对随机读取速度慢的问题.

  • HBase模式
列族列族列族
列1列2列1列2列1列2
1
2
3

3.3 CarbonData

大数据高效存储格式解决方案.

序号特点描述
1列式存储高效的列式数据组织,区别于行存,可实现列剪裁和过滤下压,使OLAP查询性能更高
2丰富的索引引擎支持全局多维索引,文件索引,Min/Max,倒排索引等多种索引技术,从表级,文件级和列级多个层级快速定位数据,避免SQL-on-Hadoop引擎常见的"暴力扫描",从而大幅度提升性能
3全局字典编码包括常见的Delta,RLE和BitPacking等编码,应用全局字典编码来实现免解码计算,计算框架可以直接使用经过编码的数据来聚合,排序等计算
4自适应类型转换针对分析型应用中大量使用的数值类型(Double/Decimal/Numerical/BigInt)实现存储内数据类型转换,配合列式数据压缩,使压缩更加高效
5标准SQL和API在SparkSQL基础上,支持标准SQL99/2003,支持批量数据更新,删除,适用于OLAP场景下数据的周期性刷新,如拉链表更新,维表数据同步,提供JDBC/ODBC连接,支持BI工具无缝对接,兼容Spark DataFrame/DataSet
6数据生态集成支持与Hadoop,Spark等大数据生态集成,支持和商业BI工具无缝对接

3.4 TiDB

TiDB是开源的分布式NewSQL数据库,实现了自动的水平伸缩,强一致性的分布式事务,基于Raft算法的多副本复制等重要NewSQL特性,TiDB结合了RDMBS和NoSQL的优点,部署简单,在线弹性扩容和异步表结构变更不影响业务,真正异地多活及自动故障恢复保障数据安全,同时兼容MySQL协议,降低了迁移成本.

序号特点
1SQL支持,TiDB是MySQL兼容的
2水平线性弹性扩展
3分布式事务
4跨数据中心数据强一致性保证
5故障自恢复的高可用

3.5 Hive

Hive是基于Hadoop的一个数据仓库工具,将结构化的数据文件映射为一张数据表,并提供类SQL查询功能,通过Hive将HQL转换为MapReduce执行,处理HDFS中的结构化数据。Hive作为HDFS数据处理的中介,通过Hive调用MapReduce功能。

3.6 Oozie

Oozie是管理Hadoop任务的工作流调度程序

4 数据传输

4.1 Sqoop

Sqoop将批量结构化数据导入HDFS,Sqoop是基于一个连接器体系结构,支持插件来提供连接到新的外部系统,Sqoop连接器与各种流行的关系型数据库,如MySQL,PostgreSQL,Oracle,SQLServer和DB2,进项交互.

4.2 Flume

Flume用于移动大规模批量流数据到HDFS系统,从Web服务器收集当前日志文件数据到HDFS聚合.

4.3 Kafka

Kafka是消息中间件,但是具备存储功能.

5 资源调度

YARN(Yet Another Resource Negotiation,YARN),是快速,可靠,安全的依赖管理工具,用于分布式框架中的资源管理和作业调度.Yarn最大的特点是执行调度与Hadoop上运行的任务类型无关.

  • 组件
    ResourceManager,NodeManager,ApplicationMaster,Container.

6 数据处理

6.1 Spark

Spark是大规模数据处理的统一分析引擎.

  • 组件
    SparkCore,SparkSQL,SparkStreaming,MLlib,GraphX,BlinkDB和Tachyon.

6.2 Flink

Flink是大数据计算引擎,同时支持批处理和流处理.

Storm

7 可视化

Tableau
PowerBI
FineBI

更新ing

【参考文献】
[1]https://www.jianshu.com/p/5ea81899c58b
[2]https://www.w3cschool.cn/hadoop/rh161hda.html
[3]http://blog.itpub.net/31077337/viewspace-2213602/
[4]https://www.yiibai.com/hbase/
[5]https://www.w3school.com.cn/tags/att_table_border.asp
[6]http://www.divcss5.com/html/h330.shtml
[7]https://www.yiibai.com/hadoop
[8]https://www.yiibai.com/hadoop/introto-flume-and-sqoop.html
[9]https://www.jianshu.com/p/06fda922b22a
[10]http://www.360linker.com/sj/779.jhtml
[11]https://www.orchome.com/kafka/index
[12]https://www.cnblogs.com/qingyunzong/p/8886338.html
[13]https://mp.weixin.qq.com/s/dQ733gBWlNJJdxFxCaWMfw
[14]https://www.cnblogs.com/qingyunzong/p/8707885.html


http://chatgpt.dhexx.cn/article/vmI68jnR.shtml

相关文章

大数据平台核心架构图鉴,建议收藏!

我们先来看看这张图,这是某公司使用的大数据平台架构图,大部分公司应该都差不多: 从这张大数据的整体架构图上看来,大数据的核心层应该是:数据采集层、数据存储与分析层、数据共享层、数据应用层,可能叫法有…

葱油拌面的做法 手残党都能学会

很多人都爱吃葱油拌面,可是在家怎么做葱油拌面呢? 葱油拌面 是一道以面条、猪油、黄瓜丝、葱、姜、盐、鸡精、酱油、白糖、料酒、桂皮、大料作为食材制作而成的家常面食。通常是将煮熟的面条放上葱油一起拌着吃。也是上海招牌美食,面条有韧劲又滑爽&am…

如何做红烧肉好吃又不腻 教你做红烧肉

如何做红烧肉好吃又不腻 最快的做法就是用高压锅了,加点花椒,大料,料酒,葱段,姜片,放到高压锅里开始炖,20分钟就很烂了,20分钟非常烂。之后捞出来。 (1)炒锅…

各种酱料名称大全_调料大全名称 日常调料有哪些

厨房里的调料主要有食盐、生抽、老抽、蚝油、香油、白醋、陈醋、八角、花椒、桂皮、陈皮、花椒、辣椒、生姜、大葱、大蒜、鱼露、味精、鸡精、料酒、白糖、冰糖、孜然、茴香、五香粉、十三香、胡椒、香叶等。 日常调料有哪些 调料主要是人们在日常生活中用来烹饪菜肴和食物等使…

吃海鲜搭配什么菜好 搭配这些健康又美味

相信海鲜是众多人心中无法割舍的心头爱之一,很多人下馆子必点海鲜类美味,也有人会自己在家制作各种海鲜美食,那么吃海鲜搭配什么菜好呢? 吃海鲜搭配什么菜好 麻辣拍黄瓜 这道菜想必大家都知道,但是它搭配着海鲜吃真的特别棒。…

“乌木”到底是何物?它是怎样形成的?为何总能卖出天价?

俗话说“家有乌木半方,胜过财宝一箱”,可见这乌木是一种多么珍贵的木材。那么这乌木到底是何物?它是怎样形成的?其实乌木是川人对阴沉木的俗称,有些知情人士知道,这阴沉木在古代人眼里是极为罕见的珍宝&…

数字签名和数字证书

文章目录 数字签名(digital signature)1. 解决问题2. 应用场景3. 运行原理4. 存在问题 数字证书(digital certificate)1. 解决问题2. 应用场景3. 运行原理1)申请数字证书2)应用在Https网站 提示:本篇文章融入了个人对相关概念的理解&#xff…

工艺路线和工序有差别吗_你知道吗?市政道路排水工程的主要工序施工工艺是什么...

易筑教育给排水课程火热招生中! 张老师微信号:yizhujiaoyu999 市政道排工程施工遵循的基本顺序是:先地下,后地上;先深后浅。按照这个顺序,正常的施工顺序为基础处理、排水管道(涵)施工(雨、污水)、道路基层…

从头搭建一个“微博”有多难

本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是分布式专题的第13篇,今天的文章我们不讲空洞的理论,来聊一个实际点的问题。 众所周知,微博的程序员经常不定期加班。和别的程序员不同&#xff0c…

劫持流量是什么,常见的流量劫持手法有哪些呢?

网络流量劫持是什么?其实就是大坏蛋动用一切技术手段,当亲们输入一个网址然后点击回车的时候,把亲们忽悠另一个网站上去哦,或者向亲们原本想访问的的网站内容里加点花椒大料。 IIS7网站监控可以及时防控网站风险,快速准确监控网站是否遭到各种劫持攻击,网站在全国是否能正…

html时分选择器,HTML常用标签+CSS选择器-2018年8月14日20时20分提交

实例 HTML>标签的使用及布局 body{ width:auto; height:auto; padding: 0px; margin: 0px; font-weight:bold; background-color: #0d0410; }/*宽、高设置自动,内外补丁设置0PX,字体宽度默认,背景颜色黑色*/ a{ text-decoration: none; co…

私厨菜谱app的设计与实现(二)

一.准备工作 1.注册API账号 2.添加第三方依赖 首先添加首先添加RecyclerView、OkHttp、 Glide、Gson的依赖 implementation com.android.support:recyclerview-v7:28.0.0 implementation com.squareup.okhttp3:okhttp:4.4.0 implementation com.github.bumptech.glide:glide:4.…

Node.js学习(三)常用模块与网络爬虫

学习视频 Node.js学习(一)介绍 Node.js学习(二)异步、缓存区、文件系统 path模块 nodejs中,提供了一个path模块,在这个模块中,提供了许多实用的、可被用来处理与转换文件路径的方法和属性 什么…

Escript氨基酸对比图怎么看_23张和田玉真假皮色对比图,看懂了再也不怕被坑

在玉石珠宝这个行业中,利益的驱使常常使很多商贩有各种各样不同的手段来造蒙骗。不管哪一个品种里有或多或少的假货掺杂。比如和田玉,假皮种类形形色色、多种多样。如果是初学者,辨别其真伪的确有一定难度,高科技下的造假皮色&…

鹅肉是凉性还是热性 鹅肉怎么做好吃

鹅肉鲜嫩味美,很多人都非常爱吃,那么你知道鹅肉是凉性还是热性吗?鹅肉怎么做好吃呢?一起了解一下。 鹅肉是凉性还是热性 中医认为,鹅肉性平、味甘,具有益气补虚、和胃止渴、止咳化痰,解铅毒、祛风湿、防衰老等作用…

红烧肉怎么做好吃 红烧肉的做法

很多人都爱吃红烧肉,入口香味浓郁简直是人间美味啊,那么红烧肉怎么做好吃呢?红烧肉的做法了解一下。 原料 猪带皮五花肉 调料 葱姜蒜、八角、桂皮、小茴香、花椒、绍酒、盐、酱豆腐汤、酱油、冰糖、干辣椒 做法: https://www.chachaba…

素饺子馅的做法大全 素饺子馅如何做

素饺子,要的就是一个“素”字,寻常百姓家,希望新的一年没有什么大起大落,平平安安,用天津话就是“素素静静过一年”。素饺子馅儿有白菜,豆腐干儿,香菜,木耳,粉条&#xf…

我用Python爬取美食网站3032个菜谱并分析,没有我不会做的菜!

这是巨变的中国,人和食物,比任何时候走的更快。近日,J哥为了寻味中国,奔走于某五线城市的大街小巷,结果除了累,啥也没寻到。 于是,J哥默默打开了各大美食网站,如豆果美食、下厨房、…

【知识图谱导论-浙大】第二章:知识图谱的表示

前文: 【知识图谱导论-浙大】第一章:知识图谱概论本节内容的视频讲解如下: 【知识图谱理论】(浙大2022知识图谱课程)第二讲-知识图谱的表示 什么是知识表示 简而言之,知识表示(Knowledge Representation, KR)就是用易于计算机处理的方式来描述人脑知识的方法。KR不是…

我用Python爬取美食网站3032个菜谱并分析,真香!

这是巨变的中国,人和食物,比任何时候走的更快。近日,J哥为了寻味中国,奔走于某五线城市的大街小巷,结果除了累,啥也没寻到。 于是,J哥默默打开了各大美食网站,如豆果美食、下厨房、…