大数据基础架构

article/2025/9/12 4:12:57

一、大数据两大核心技术：

分布式存储：HDFS、HBase、NoSQL、NewSQL
分布式处理：MapReduce

二、大数据计算模式：

三、代表性大数据技术：

1.Hadoop：ETL工具（extract、transform、load）

YARN的目标就是实现“一个集群多个框架”，即在一个集群上部署一个统一的资源调度管理框架YARN，在YARN之上可以部署其他各种计算框架，并由YARN为这些计算框架提供统一的资源调度管理服务，可以动态调整各自占用的资源。

一个企业当中同时存在各种不同的业务应用场景，需要采用不同的计算框架，四种计算框架：

MapReduce实现离线批处理
使用Impala实现实时交互式查询分析
使用Storm实现流式数据实时分析
使用Spark实现迭代计算

这些产品通常来自不同的开发团队，具有各自的资源调度管理机制，为了避免不同类型应用之间互相干扰，企业就需要把内部的服务器拆分成多个集群，分别安装运行不同的计算框架，即“一个框架一个集群”，导致的问题：

集群资源利用率低
数据无法共享
维护代价高

Hadoop缺点：

表达能力有限，局限于Map和Reduce操作
磁盘IO开销大，延迟高
任务之间的衔接涉及IO开销（在前一个任务执行完成之前，其他任务就无法开始，难以胜任复杂、多阶段的计算任务）

2.Spark

Spark优点：

Spark的计算模式也属于MapReduce，但不局限于Map和Reduce操作，还提供了多种数据集操作类型（groupByKey、MapValues...），编程模型比Hadoop MapReduce更灵活
Spark提供了内存计算，可将中间结果放到内存中，对于迭代运算效率更高，运行速度快
Spark基于DAG（有向无环图）的任务调度执行机制，要优于Hadoop MapReduce的迭代执行机制（每次中间降落都要经过磁盘，太慢了）
容易使用：支持Scala、Java、Python、R语言进行编程，还可以通过spark shell进行交互式编程
具有完整强大的技术栈，包括：SQL查询、流式计算、机器学习和图算法组件
运行模式多样：可运行于独立的集群模式中，可运行于Hadoop中，也可运行于Amazon EC2等云环境中，并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源

附：BDAS伯克利数据分析软件栈

问题:Spark会取代Hadoop吗?
Hadoop包括两大核心:HDFS和MapReduce。Spark作为计算框架，与MapReduce是对等的。
谈到“取代”，Spark应该是取代MapReduce，而不是整个Hadoop。Spark借助于Hadoop的HDFS、HBase等来完成数据的存储，然后，由Spark完成数据的计算。

3.Flink

Flink和Spark对比：我觉得最核心的区别是Spark核心实现基于Scala，核心采用批处理模型且基于RDD，所以在流式处理时会有一些延时；Flink内核基于Java，基于操作符的连续流模型按行处理，因此在流式处理方面就比Spark快，支撑毫秒级响应。Flink生态没有Spark好，所以没打过Spark。

4.Beam

谷歌开发的Beam试图一统天下，但是不愠不火，没有惊起波澜。

http://chatgpt.dhexx.cn/article/9l15cu11.shtml

相关文章

大数据架构简介

大数据架构简介

大数据技术其实是分布式技术在数据处理领域的创新性应用，其本质和此前讲到的分布式技术思路一脉相承，即用更多的计算机组成一个集群，提供更多的计算资源，从而满足更大的计算压力要求。大数据技术讨论的是，如何利用更多…

阅读更多...

大数据之大数据技术架构

大数据之大数据技术架构

上期我们说到大数据的概念，其实，大数据比我们想象中的还要复杂，本期，我们主要从技术的角度介绍一下大数据的知识。大数据技术是一系列技术的总称，它是集合了数据采集与传输、数据存储、数据处理与分析、数据挖掘、数据…

阅读更多...

常用的几种大数据架构剖析

常用的几种大数据架构剖析

数据分析工作虽然隐藏在业务系统背后，但是具有非常重要的作用，数据分析的结果对决策、业务发展有着举足轻重的作用。随着大数据技术的发展，数据挖掘、数据探索等专有名词曝光度越来越高，但是在类似于Hadoop系列的大数据分析系统大…

阅读更多...

一张图解释清楚大数据技术架构，堪称阿里的核心机密

一张图解释清楚大数据技术架构，堪称阿里的核心机密

我们先来看看这张图，这是某公司使用的大数据平台架构图，大部分公司应该都差不多： 从这张大数据的整体架构图上看来，大数据的核心层应该是：数据采集层、数据存储与分析层、数据共享层、数据应用层，可能叫法有…

阅读更多...

MATLAB的四种取整方法

MATLAB的四种取整方法

阅读更多...

一文搞懂Matlab的3种取整函数(round、ceil、floor)

一文搞懂Matlab的3种取整函数(round、ceil、floor)

1、四舍五入取整：round(x) 对实数和复数（实部和虚部）都是四舍五入取整 2、向上取整：ceil(x) 对实数和复数（实部和虚部）都是向上取整 3、向下取整：floor(x) 对实数和复数（实部和…

阅读更多...

MATLAB取整及位数

MATLAB取整及位数

Matlab取整函数: fix, floor, ceil, round 函数操作Y fix(X)向零取整Y floor(X)向下取整Y ceil(X)向上取整Y round(X)四舍五入取整 Y fix(X)将 X 的每个元素朝零方向四舍五入为最近的整数。对于正方向的 X，fix 的行为与 floor 相同。对于负方向的 X&#xff…

阅读更多...

Matlab之取整函数

Matlab之取整函数

一、函数取整函数函数取整，有如下四种函数 floor():向下取整ceil():向上取整round():取最近整数fix():向0取整二、例程 1、floor():向下取整 disp(floor-向下取整); A1floor(1.2) A2floor(2.5) A3floor(-2.5) 2、ceil():向上取整 disp(ceil-向上取整); B1ce…

阅读更多...

matlab中的取整函数（ceil、floor、round）

matlab中的取整函数（ceil、floor、round）

matlab中的取整函数主要有三种：ceil()、floor()、round() 1.ceil()：在英文中，是天花板的意思，有向上的意思，所以，此函数是向上取整，它返回的是大于或等于函数参数,并且与之最接近的整数。 ceil…

阅读更多...

Java中的拦截器和过滤器有什么区别

Java中的拦截器和过滤器有什么区别

本文收录于JavaStarter ，里面有我完整的Java系列文章，学习或面试都可以看看 （一）什么是过滤器过滤器Filter基于Servlet实现，过滤器的主要应用场景是对字符编码、跨域等问题进行过滤。Servlet的工作原理是拦截配置好的…

阅读更多...

过滤器和拦截器区别以及执行顺序

过滤器和拦截器区别以及执行顺序

过滤器和拦截器区别觉得这个总结的很好，所以用来借鉴借鉴摘抄于网络，侵删过滤器和拦截器执行顺序在SpringBoot中编写测试代码自定义过滤器 /*** Author: xiaoshijiu* Date: 2019/5/22* Description: 自定义过滤器*/ public class MyFilter exten…

阅读更多...

过滤器和拦截器总结

过滤器和拦截器总结

过滤器和拦截器在日常业务开发中不是经常用到，近来项目中偶尔遇到了，对过滤器和拦截器进行了一次系统学习，现总结如下。一、过滤器Filter 1.1 什么是过滤器过滤器是Servlet的高级特性之一，是实现Filter接口的Java类。其基本功能…

阅读更多...

Java 过滤器与拦截器的区别

Java 过滤器与拦截器的区别

什么是过滤器（Filter） 过滤器，是在java web中将你传入的request、response提前过滤掉一些信息，或者提前设置一些参数。然后再传入Servlet或Struts2的 action进行业务逻辑处理。比如过滤掉非法url（不是login.do的地址请…

阅读更多...

Java拦截器和过滤器的区别

Java拦截器和过滤器的区别

过滤器和拦截器的区别： ①拦截器是基于java的反射机制的，而过滤器是基于函数回调。　　②拦截器不依赖与servlet容器，过滤器依赖与servlet容器。　　③拦截器只能对action请求起作用，而过滤器则可以对几乎所有的请求起作用。　…

阅读更多...

Java过滤器与拦截器的区别

Java过滤器与拦截器的区别

Java过滤器与拦截器的区别 1. 过滤器与拦截器概述1.1 过滤器 Filter1.2 拦截器 interceptor 2. 过滤器与拦截器区别3. 过滤器与拦截器实现3.1 过滤器（Filter）3.2 拦截器 (Interceptor)3.3 拦截器WebMvc配置3.4 切片（Aspect） 4. 过…

阅读更多...

C语言pow函数的调用

C语言pow函数的调用

1.pow函数的含义：在math.h的头文件中是指a的b次方。 2.对于pow函数的直接应用： #include<stdio.h> #include<math.h> //***math头文件 int main() {double a2,b3;double result;resultpow(2,3); …

阅读更多...

mysql pow函数怎么用_pow函数怎么用

mysql pow函数怎么用_pow函数怎么用

PHP pow函数表示指数表达式。 pow函数怎么用？ php pow()函数语法作用：pow()函数的作用是将一个数进行n次方计算后返回语法：pow(X,Y); 参数： X表示要做处理的数字 Y表示指定n次方中的n数值说明：返回X的Y次方幂&…

阅读更多...

c语言的pow函数运用

c语言的pow函数运用

在c语言当中我们要计算一个数的n次方时候，可以使用多种方法，但是也有一种比较简单的方法，便是调用一个函数pow函数。 pow函数在使用时候需要引用头文件#include<math.h>，接下来可以引用一个例子： 如果现在假设我…

阅读更多...

C语言中的pow函数

C语言中的pow函数

在我们学习C语言时，在一些算法的问题上常常会遇到让我们求一个数的n次方，这时候为了方便我们可以使用C语言函数库给我们的pow函数，*因为这是从C语言函数库调用出来的所以我们在使用前需要引入头文件#include<math.h>。比如当我们输入…

阅读更多...

pow函数python_python pow函数怎么用

pow函数python_python pow函数怎么用

python中的pow函数的功能是计算x的y次幂。本篇文章将带大家一起了解一下，pow()函数在Python中的用法。感兴趣的朋友了解一下。以下是 math 模块 pow() 方法的语法:import math math.pow( x, y ) 内置的 pow() 方法pow(x, y[, z]) 函数是计算x的y次方，如…

阅读更多...

推荐文章