大数据架构及技术体系

article/2025/9/12 1:51:57

下面是大数据体系架构图

大数据分2个部分,一部分是走实时的,另外一部分是走离线的,不管那块都需要数据来分析

从上图来看,数据分为结构化数据(MYSQL,ORACLE等),半结构数据(文件日志),非结构化数据(视频,PPT等)

我们一般需要分析的数据 就是结构化的数据和非结构化的数据,非结构化数据可以存HDFS系统。

很多专业的东西后面在开博客另讲,先大概了解数据流走向。

1,数据收集系统。

     首先我们要坐的就是收集数据,像数据库中的数据我们可以通过Sqoop(通过SHELL命令连接数据库实现 MYSQL,HIVE(可以通过HQL将HDFS中的数据通过表形式呈现出来)和HDFS(分布式文件系统)间的通信)来收集,这种我们可以通过用azkaban(分布式工作流调度)来定时调度每天讲MYSQL数据导入到HDFS和HIVE中,这部分数据方便我们坐离线计算。

     像一些商品查询,用户登陆等查询操作,又或者是要计算实时交易等(直接操作数据库会影响数据库性能),这些东西就可以走日志收集这块,可以在前端埋点和后端埋点,记录日志,然后在通过flume收集,发送到KAFKa和HDFS(HIVE)中.这部分的数据可以走实时(flink消费kafka中的数据进行流式计算),可以走离线计算(一般第二天凌晨和mysql数据结合统计一些报表)

2,数据离线分离。

   数据离线分析,离线分析大概分4层,

      ODS:原始数据层(保持数据的最初),DWD:数据仓库数据层(去除空值,脏数据,超过极限范围的明细解析等

      DWS:数据仓库服务层:宽表-用户行为,轻度聚合,对dwd层的数据在进行处理轻度汇总

      ADS:   做分析处理最后将同步到mysql数据库里边,给其他应用展示

  大概流程和使用的技术。像每天,每周等报表,azkaban定时调度,通过HIVE脚本对每天的ODS数据进行离线分析处理

慢慢到DWD,DWS,ADS,最后同步到数据库。

 3,数据实时计算。

   有些公司需要看一些实时数据,比如商品的访问量,用户登陆情况,实时交易额等。这些数据有些从数据库中查询不到(商品访问,用户登陆),有些数据库有但是统计复制,慢(实时交易量,订单数等),这些数据就可以走实时统计。

   像1说的,可以通过数据埋点,在这些需要计算的地方埋点(就是记录日志,将需要的数据写到日志),最后通过FLUME手机汇总,最后到kafka,flink通过消费KAFKA的数据来消费这些日志,通过FLINK的流式计算,中间也像离线一样分ODS,DWD,ADS,最后讲结果写到数据库,整个流程虽然不是毫秒级,但也是亚秒级别的。

上面就是整个大数据的流程和需要用的技术。

flume 日志收集传输框架 专门也来对接HDFS,也可以对接KAFKA等。

hadoop体系:  HDFS 分布式文件存储系统 ,    YARN:基于hadoop的分布式资源调度,   MAPREDUCE:基于hadoop的分布式计算应用 (像HIVE就是基于YARM向执行一个一个的MAPREDUCE) 

kafka  消息队列,高吞吐,稳定,缓存数据的

zookeeper 保证大数据中的一些框架的高可用

sqoop:主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递

azkaban:工作流调度系统,可以按定义的逻辑一步一步先后执行脚本和JAVA程序(包括sh,java)

hive:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供SQL查询功能,其实就是通过mapreduce来操作数据。

flink:是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算,通过流式计算。(暂时没跑通)

 


http://chatgpt.dhexx.cn/article/9xssbmEe.shtml

相关文章

大数据架构演进

1、数仓架构演变(场景驱动) 1.1 经典数仓架构 数据仓库概念是Inmon于1990年提出并给出了完整的建设方法 1.2 离线大数据架构 随着互联网时代来临,数据量暴增,开始使用大数据工具来代替经典数仓中的传统工具 此时仅仅是工具的…

大数据架构(一)背景和概念

-系列目录- 大数据架构(一)背景和概念 大数据架构(二)大数据发展史 一、背景 1.岗位现状 大数据在一线互联网已经爆发了好多年,2015年-2020年(国内互联网爆发期)那时候的大数据开发,刚毕业能写Hive SQL配置个离线任务、整个帆软报表都20K起步。如果做到架…

大数据架构

大数据核心原理和场景分析 processon:https://www.processon.com/view/link/60b4d0071e08532bd00e9290

大数据架构图

大数据管理数据处理过程图 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察力。大数据处理的主要流程包括数据收集、数据存储、数据处理、数据应用等主要环节。随着业务的增长,大量和流程、…

大数据架构:全网最全大数据架构生态

文章目录 简介1、数据采集技术框架2、数据存储技术框架3、分布式资源管理框架4、数据计算框架(1)离线数据计算 5、数据分析技术框架6、任务调度技术框架7、大数据底层基础技术框架8、数据检索技术框架9、大数据集群安装管理框架 简介 随着大数据行业的发…

架构-大数据架构-阿里

大数据架构 大数据框架从0到1整个过程的实现,根据本博客内容,可以实现整个大数据基本搭建,只是大概步骤,供学习参考。 本博客从下面5个方面介绍: 技术框架技术选型系统架构设计业务流程生态实现步骤 以阿里为例的大数…

大数据架构新解

大数据系统大体可以分成以下四个部分: 1,数据采集层 2,数据计算层 3,数据服务层 4,数据应用层 下图是阿里巴巴大数据系统架构图: 一、数据采集层 数据采集主要分成以下三块数据: 1&#xff…

大数据技术及大数据架构

大数据架构分为:数据来源层->数据采集层->分布式存储层->传输层->分析计算层->业务存储层->展示层共七层,基本使用flume sqoop hive hadoop spark flink mysql redis logstash elasticsearch datax等技术

大数据基础课03 阿里美团这些大厂都在用什么大数据架构?

首先,我想讲一个叫庖丁解牛的故事,想必你应该听过。庖丁从开始杀牛,到他的故事被写下,操刀十九年,杀了数千头牛。也正是由于丰富的实践经验,他总结出了解杀牛的方法论:依照牛生理上的天然结构&a…

大数据架构演变

大数据架构演变 一、传统离线大数据架构二、Lambda架构(离线处理实时链路)-传统实时开发三、Lambda架构(离线数仓实时数仓)四、Kappa架构五、架构选择:六、湖仓一体(流批一体)实时数仓架构七、从…

大数据基础架构

一、大数据两大核心技术: 分布式存储:HDFS、HBase、NoSQL、NewSQL 分布式处理:MapReduce 二、大数据计算模式: 三、代表性大数据技术: 1.Hadoop:ETL工具(extract、transform、load&#xff0…

大数据架构简介

大数据技术其实是分布式技术在数据处理领域的创新性应用,其本质和此前讲到的分布式技术思路一脉相承,即用更多的计算机组成一个集群,提供更多的计算资源,从而满足更大的计算压力要求。 大数据技术讨论的是,如何利用更多…

大数据之大数据技术架构

上期我们说到大数据的概念,其实,大数据比我们想象中的还要复杂,本期,我们主要从技术的角度介绍一下大数据的知识。 大数据技术是一系列技术的总称,它是集合了数据采集与传输、数据存储、数据处理与分析、数据挖掘、数据…

常用的几种大数据架构剖析

数据分析工作虽然隐藏在业务系统背后,但是具有非常重要的作用,数据分析的结果对决策、业务发展有着举足轻重的作用。随着大数据技术的发展,数据挖掘、数据探索等专有名词曝光度越来越高,但是在类似于Hadoop系列的大数据分析系统大…

一张图解释清楚大数据技术架构,堪称阿里的核心机密

我们先来看看这张图,这是某公司使用的大数据平台架构图,大部分公司应该都差不多: 从这张大数据的整体架构图上看来,大数据的核心层应该是:数据采集层、数据存储与分析层、数据共享层、数据应用层,可能叫法有…

一文搞懂Matlab的3种取整函数(round、ceil、floor)

1、四舍五入取整:round(x) 对实数和复数(实部和虚部)都是四舍五入取整 2、向上取整:ceil(x) 对实数和复数(实部和虚部)都是向上取整 3、向下取整:floor(x) 对实数和复数(实部和…

MATLAB取整及位数

Matlab取整函数: fix, floor, ceil, round 函数操作Y fix(X)向零取整Y floor(X)向下取整Y ceil(X)向上取整Y round(X)四舍五入取整 Y fix(X)将 X 的每个元素朝零方向四舍五入为最近的整数。对于正方向的 X,fix 的行为与 floor 相同。对于负方向的 X&#xff…

Matlab之取整函数

一、函数取整函数 函数取整,有如下四种函数 floor():向下取整ceil():向上取整round():取最近整数fix():向0取整 二、例程 1、floor():向下取整 disp(floor-向下取整); A1floor(1.2) A2floor(2.5) A3floor(-2.5) 2、ceil():向上取整 disp(ceil-向上取整); B1ce…

matlab中的取整函数(ceil、floor、round)

matlab中的取整函数主要有三种:ceil()、floor()、round() 1.ceil():在英文中,是天花板的意思,有向上的意思,所以,此函数是向上取整,它返回的是大于或等于函数参数,并且与之最接近的整数。 ceil…