大数据平台架构+ETL

article/2025/8/21 3:19:49

 

1

 

ETL,Extraction-Trasformation-Loading,即数据读取,转换,装载的过程,是构建数据仓库的重要环节。

ETL是将业务系统的数据经过抽取,清洗转换之后加载到数据仓库的过程,目的是将企业中的额分散的,零乱的,标准不统一的数据整合到一起,为企业决策提供分析依据。ETL是BI项目中重要的一个环节。

数据抽取:把不同的数据源数据抓取过来,存到某个地方。例如:网络爬虫。

数据清洗:过滤那些不符合要求的数据或者修正数据之后再抽取。清洗包括以下几种不符合要求的数据:

1、不完整的数据:数据缺失需要不全才能写入数据仓库。

2、错误的数据:格式错误,日期越界,或者多了一个空格等。

3、重复的数据:重复数据记录的所有字段都要去重。

数据转换:不一致的数据转换。统一编码。

ETL的实现方法:

1、借助ETL工具。(如OWB,DTS,SSIS等)实现。

2、SQL方法实现。

3、ETL工具与SQL相结合。

工具降低难度,但缺少灵活性。SQL灵活但编码复杂,因此结合两者。

2

 

大数据平台架构

首先,对于做大数据开发而言,平台的监控与报警和平台管理不归我们管,主要是给运维人员做的事情。我们要做的就是中间的事情。

然后来看看数据基础平台接入层,获取数据,一般用Canal,Sqoop与Flume。存储层,当我们拿到数据以后,我们需要找个地方存储,首选HDFS(分布式文件系统,前面讲过),这里就是作为一个存储层。另外还有HBase,可以称作大数据中的数据库。Kafka的话一般会跟Flume作为一个组合。调度层,就是把计算层的计算放到调度层运行。如前面讲的小案例,就是把mapreduce放到yarn上面去运行。计算层,就是对数据的处理运算。

接着看数据应用平台元数据管理。这边的元数据要存储到关系型数据库中。作业平台管理,就是任务调度。交互分析就关系到sql语句。多维分析主要是对数据的维度分析,如按年分析,按月分析,按周分析等。数据可视化,展示数据,供给决策。

最后看看数据应用。一般做的就是流量统计和用户行为分析,做数据展示。

 

3

 

系统数据流动

最左边是数据来源,可以看到,一个是来自日志数据,另外一个是来源于关系型数据库。

实时流。拿到数据后直接存入kafka或者是hdfs中进行缓存,如果此时计算层需要调度数据,可以直接从kafka中直接消费。计算完后对数据存储还可以存储回kafka或者放到HBase或mysql,从而作为业务上的使用。

离线流,存储到hdfs然后由MR调用,接着是ETL对数据的处理,处理完后将数据存储到关系型数据库,最后可以做出BI报表展示。

这边的话可能我的逻辑也有点乱...主要还是看图分析吧。


http://chatgpt.dhexx.cn/article/BrkqKDVy.shtml

相关文章

百度、阿里、腾讯平台架构都熟悉,小米大数据平台架构OLAP架构演进是否了解

阿里、百度、腾讯的大数据平台架构都有很多地方有介绍了,接下来给大家深入了解小米大数据平台架构OLAP架构演进 全网最详细的Hadoop文章系列,强烈建议收藏加关注! 2021大数据领域优质创作博客,带你从入门到精通,该博客…

大数据平台架构的层次划分

1. 数据源层:包括传统的数据库,数据仓库,分布式数据库,NOSQL数据库,半结构化数据,无结构化数据,爬虫,日志系统等,是大数据平台的数据产生机构。 2. 数据整理层&#xff…

常见的大数据平台架构设计思路

近年来,随着IT技术与大数据、机器学习、算法方向的不断发展,越来越多的企业都意识到了数据存在的价值,将数据作为自身宝贵的资产进行管理,利用大数据和机器学习能力去挖掘、识别、利用数据资产。如果缺乏有效的数据整体架构设计或…

大数据平台架构浅析——以讯飞大数据平台Odeon为例

文章目录 大数据平台架构解析——以讯飞大数据平台Odeon为例定义功能数据采集数据开发数据分析数据编程补充 大数据平台架构解析——以讯飞大数据平台Odeon为例 定义 Odeon大数据平台以全图形化Web操作的形式为用户提供一站式的大数据能力:包括数据采集、任务编排、…

浅谈大数据平台架构设计

全文共3735个字,建议8分钟阅读 近年来,随着IT技术与大数据、机器学习、算法方向的不断发展,越来越多的企业都意识到了数据存在的价值,将数据作为自身宝贵的资产进行管理,利用大数据和机器学习能力去挖掘、识别、利用数…

大数据平台架构包含哪些功能

为了满足企业对于数据的各种需求,需要基于大数据技术构建大数据平台。结合大数据在企业的实际应用场景,如下图所示的大数据平台架构所示: 最上层为应用提供数据服务与可视化,解决企业实际问题。第2层是大数据处理核心,…

大数据平台层级架构图

主流数据平台架构 一般包含三个层级,ODS层、数据仓库层、数据应用层。 业务系统的操作和日志数据抽取到ODS层,ODS的数据经过ETL过程(抽取Extraction,转化Transformation,加载Loading)进入数据仓库&#xff…

大数据平台架构

1 大数据组件架构 大数据架构分为:数据采集,传输,存储,调度和处理这五个部分.其中任务定期执行和任务分配,分别使用Azkaban和Zookeeper,大数据平台整体架构如图1所示,由图1可知,大数据平台的基础是服务器(硬件)&#…

大数据平台核心架构图鉴,建议收藏!

我们先来看看这张图,这是某公司使用的大数据平台架构图,大部分公司应该都差不多: 从这张大数据的整体架构图上看来,大数据的核心层应该是:数据采集层、数据存储与分析层、数据共享层、数据应用层,可能叫法有…

葱油拌面的做法 手残党都能学会

很多人都爱吃葱油拌面,可是在家怎么做葱油拌面呢? 葱油拌面 是一道以面条、猪油、黄瓜丝、葱、姜、盐、鸡精、酱油、白糖、料酒、桂皮、大料作为食材制作而成的家常面食。通常是将煮熟的面条放上葱油一起拌着吃。也是上海招牌美食,面条有韧劲又滑爽&am…

如何做红烧肉好吃又不腻 教你做红烧肉

如何做红烧肉好吃又不腻 最快的做法就是用高压锅了,加点花椒,大料,料酒,葱段,姜片,放到高压锅里开始炖,20分钟就很烂了,20分钟非常烂。之后捞出来。 (1)炒锅…

各种酱料名称大全_调料大全名称 日常调料有哪些

厨房里的调料主要有食盐、生抽、老抽、蚝油、香油、白醋、陈醋、八角、花椒、桂皮、陈皮、花椒、辣椒、生姜、大葱、大蒜、鱼露、味精、鸡精、料酒、白糖、冰糖、孜然、茴香、五香粉、十三香、胡椒、香叶等。 日常调料有哪些 调料主要是人们在日常生活中用来烹饪菜肴和食物等使…

吃海鲜搭配什么菜好 搭配这些健康又美味

相信海鲜是众多人心中无法割舍的心头爱之一,很多人下馆子必点海鲜类美味,也有人会自己在家制作各种海鲜美食,那么吃海鲜搭配什么菜好呢? 吃海鲜搭配什么菜好 麻辣拍黄瓜 这道菜想必大家都知道,但是它搭配着海鲜吃真的特别棒。…

“乌木”到底是何物?它是怎样形成的?为何总能卖出天价?

俗话说“家有乌木半方,胜过财宝一箱”,可见这乌木是一种多么珍贵的木材。那么这乌木到底是何物?它是怎样形成的?其实乌木是川人对阴沉木的俗称,有些知情人士知道,这阴沉木在古代人眼里是极为罕见的珍宝&…

数字签名和数字证书

文章目录 数字签名(digital signature)1. 解决问题2. 应用场景3. 运行原理4. 存在问题 数字证书(digital certificate)1. 解决问题2. 应用场景3. 运行原理1)申请数字证书2)应用在Https网站 提示:本篇文章融入了个人对相关概念的理解&#xff…

工艺路线和工序有差别吗_你知道吗?市政道路排水工程的主要工序施工工艺是什么...

易筑教育给排水课程火热招生中! 张老师微信号:yizhujiaoyu999 市政道排工程施工遵循的基本顺序是:先地下,后地上;先深后浅。按照这个顺序,正常的施工顺序为基础处理、排水管道(涵)施工(雨、污水)、道路基层…

从头搭建一个“微博”有多难

本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是分布式专题的第13篇,今天的文章我们不讲空洞的理论,来聊一个实际点的问题。 众所周知,微博的程序员经常不定期加班。和别的程序员不同&#xff0c…

劫持流量是什么,常见的流量劫持手法有哪些呢?

网络流量劫持是什么?其实就是大坏蛋动用一切技术手段,当亲们输入一个网址然后点击回车的时候,把亲们忽悠另一个网站上去哦,或者向亲们原本想访问的的网站内容里加点花椒大料。 IIS7网站监控可以及时防控网站风险,快速准确监控网站是否遭到各种劫持攻击,网站在全国是否能正…

html时分选择器,HTML常用标签+CSS选择器-2018年8月14日20时20分提交

实例 HTML>标签的使用及布局 body{ width:auto; height:auto; padding: 0px; margin: 0px; font-weight:bold; background-color: #0d0410; }/*宽、高设置自动,内外补丁设置0PX,字体宽度默认,背景颜色黑色*/ a{ text-decoration: none; co…

私厨菜谱app的设计与实现(二)

一.准备工作 1.注册API账号 2.添加第三方依赖 首先添加首先添加RecyclerView、OkHttp、 Glide、Gson的依赖 implementation com.android.support:recyclerview-v7:28.0.0 implementation com.squareup.okhttp3:okhttp:4.4.0 implementation com.github.bumptech.glide:glide:4.…