大数据之spark详解

article/2025/9/15 10:25:11

目录

什么是spark:

 功能历史上和hadoop的区别:

spark的五大核心模块:

➢ Spark Core


什么是spark:

简单一点Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。属于mapreduce的加强版本,结合了其优点而且spark是可以将数据保存在内存中从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

 功能历史上和hadoop的区别:

首先从时间节点上来看 :
Hadoop
2006 1 月, Doug Cutting 加入 Yahoo ,领导 Hadoop 的开发
2008 1 月, Hadoop 成为 Apache 顶级项目
2011 1.0 正式发布
2012 3 月稳定版发布
2013 10 月发布 2.X (Yarn) 版本
Spark
2009 年, Spark 诞生于伯克利大学的 AMPLab 实验室
2010 年,伯克利大学正式开源了 Spark 项目
2013 6 月, Spark 成为了 Apache 基金会下的项目
2014 2 月, Spark 以飞快的速度成为了 Apache 的顶级项目
2015 年至今, Spark 变得愈发火爆,大量的国内公司开始重点部署或者使用 Spark
然后我们再从功能上来看 :
Hadoop 是由 java 语言编写的,在分布式服务器集群上存储海量数据并运行分布式
分析应用的开源框架
作为 Hadoop 分布式文件系统, HDFS 处于 Hadoop 生态圈的最下层,存储着所有
的 数 据 , 支 持 着 Hadoop 的 所 有 服 务 。 它 的 理 论 基 础 源 于 Google
TheGoogleFileSystem 这篇论文,它是 GFS 的开源实现。
MapReduce 是一种编程模型, Hadoop 根据 Google MapReduce 论文将其实现,
作为 Hadoop 的分布式计算模型,是 Hadoop 的核心。基于这个框架,分布式并行
程序的编写变得异常简单。综合了 HDFS 的分布式存储和 MapReduce 的分布式计
算, Hadoop 在处理海量数据时,性能横向扩展变得非常容易。
HBase 是对 Google Bigtable 的开源实现,但又和 Bigtable 存在许多不同之处。
HBase 是一个基于 HDFS 的分布式数据库,擅长实时地随机读 / 写超大规模数据集。
它也是 Hadoop 非常重要的组件。
Spark
Spark 是一种由 Scala 语言开发的快速、通用、可扩展的 大数据分析引擎
Spark Core 中提供了 Spark 最基础与最核心的功能
Spark SQL Spark 用来操作结构化数据的组件。通过 Spark SQL ,用户可以使用
SQL 或者 Apache Hive 版本的 SQL 方言( HQL )来查询数据。
Spark Streaming Spark 平台上针对实时数据进行流式计算的组件,提供了丰富的
处理数据流的 API
由上面的信息可以获知, Spark 出现的时间相对较晚,并且主要功能主要是用于数据计算,
所以其实 Spark 一直被认为是 Hadoop 框架的升级版。

spark的五大核心模块:

 

Spark Core
Spark Core 中提供了 Spark 最基础与最核心的功能, Spark 其他的功能如: Spark SQL
Spark Streaming GraphX, MLlib 都是在 Spark Core 的基础上进行扩展的
Spark SQL
Spark SQL Spark 用来操作结构化数据的组件。通过 Spark SQL ,用户可以使用 SQL
或者 Apache Hive 版本的 SQL 方言( HQL )来查询数据。
Spark Streaming
Spark Streaming Spark 平台上针对实时数据进行流式计算的组件,提供了丰富的处理
数据流的 API
Spark MLlib
MLlib Spark 提供的一个机器学习算法库。 MLlib 不仅提供了模型评估、数据导入等
额外的功能,还提供了一些更底层的机器学习原语。
Spark GraphX
GraphX Spark 面向图计算提供的框架与算法库。
然后我们主要学习这五大板块内容(更新中)

Spark Core


http://chatgpt.dhexx.cn/article/c05e6NIL.shtml

相关文章

09.大数据技术之Spark

文章目录 一、Spark概述1、概述2、Spark特点 二、Spark角色介绍及运行模式1、集群角色2、运行模式 三、Spark集群安装1.Local模式1.下载文件2.解压缩3、修改配置文件4.配置环境变量5.启动服务6.启动客户端 2.Standalone模式1.停止服务2.修改配置文件spark-env.sh3.修改配置文件…

大数据框架之Spark详解

目录 1 Spark概述1.1 Spark是什么?1.2 Spark内置模块1.3 Spark 特点 2 RDD概述2.1 什么是RDD?2.2 RDD的属性2.3 RDD特点2.4 弹性体现在哪?2.5 分区2.6 分区2.7 依赖2.8 缓存2.9 CheckPoint 1 Spark概述 1.1 Spark是什么? Spark是…

大数据学习 之 Spark 概述

文章目录 一、Spark简介Spark与Hadoop的区别部署模式 二、 Spark架构1.Driver2.Executor3.Master & Worker4.Cluster manager5.ApplicationMaster补充点:Stage执行过程 三、Shuffle机制shuffle介绍Shuffle的影响导致Shuffle的操作 四、RDD(弹性分布式…

大数据技术---Spark

一、Spark简介 1、Spark概述 Spark:由美国加州伯克利大学的AMP实验室于2009年开发,基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。 三大分布式计算系统开源项目:Hadoop、Spark、Storm。 Spark的…

KB、MB、GB等和KiB、MiB、GiB等的区别

今天装系统RHEL7.7,在分区时发现单位变成MiB、GiB了,有点奇怪就查了查。 区别: KB、MB、GB等单位以10为底数的指数 KiB、MiB、GiB等单位是以2为底数的指数 如:1KB10^31000, 1MB10^610000001000KB,1GB10^910000000001000MB,而 …

asset size limit: The following asset(s) exceed the recommended size limit (244 KiB).

webpack打包提示文件体积过大导致: The following asset(s) exceed the recommended size limit (244 KiB). This can impact web performance. entrypoint size limit: The following entrypoint(s) combined asset size exceeds the recommended limit (244 Ki…

当git clone遇到client_loop:send disconnect: Connection reset by peer00 Kib/s

当git clone遇到client_loop:send disconnect: Connection reset by peer00 Kib/s 1. 问题描述2.问题解决3.原因分析 1. 问题描述 刚换了新电脑,重新配置了下git仓库的ssh后,迫不及待想 git clone 先项目。发现遇到个问题: 在执行 git clone…

Kibana

Kibana是一个开源的分析和可视化平台,设计用于和Elasticsearch一起工作。 你用Kibana来搜索,查看,并和存储在Elasticsearch索引中的数据进行交互。 你可以轻松地执行高级数据分析,并且以各种图标、表格和地图的形式可视化数据。…

WARNING in asset size limit: The following asset(s) exceed the recommended size limit (244 KiB)

Taro打包h5体积限制 警告: WARNING in asset size limit: The following asset(s) exceed the recommended size limit (244 KiB). 可以使用webpack-bundle-analyzer插件对打包体积进行分析,参考代码: webpackChain (chain) {chain.plug…

【名词解释】KiB和KB,MiB和MB,GiB和GB 等的区别以及1M带宽到底是多少?

目录 1. KiB和KB,MiB和MB,GiB和GB 2. 宽带速度 3. 单位换算 1. KiB和KB,MiB和MB,GiB和GB KiB和KB,MiB和MB,GiB和GB 等的区别: 1KB(kilobyte)10^31000byte, 1KiB(kibibyte)2^101024byte …

b、B、KB、Kib、MB、MiB、GB、GiB、TB、TiB的区别

1024这个数字,想必计算机行业从业人员应该不会陌生,甚至10月24日还被当做程序员日,如果你问一个程序员1GB等于多少MB,他大概率会不假思索回答:1024。 没错,对于稍微对计算机或者网络有了解的人,一般都认为1024是数据容…

KB和KiB的区别是什么?

KB和KiB的区别是什么? 文章目录 KB和KiB的区别是什么?前言MB与MiB的区别:KB和KiB的区别为什么买到的硬盘容量总是会少一些? 前言 今天整理资料时发现使用windows自带的资源管理器查看文件夹大小时计算很缓慢, 机智的我想到了使用dir命令来查看 哈哈~…

KiB是什么单位

kiB1024byte kb1000byte

linux必备软件合集

Ubuntu常用软件合集 我用的使Ubuntu-Kylin14.04,原因呢主要是觉得使本土化的,自带了日历、输入法、优客助手等易于上手的应用。也省的每次安装完原生的系统再麻烦的安装,但是这些软件并不仅仅局限于ubuntu14.04 美化篇 刚装上ubuntu,看起来很朴素&…

软件测试周刊(第82期):其实所有纠结做选择的人心里早就有了答案,咨询只是想得到内心所倾向的选择。

欢迎来到第 82 期!这里记录过去一周我们看到的软件测试及周边的行业动态,周五发布。 本期看点:B站是如何建设移动真机测试集群的?百人测试团队的测试效能体系应该如何建设?闲鱼交易链路自动化回归测试是怎么做的&#…

傻瓜式安装stable diffusion图像生成软件

目录 1、打开:https://colab.research.google.com/ 2、复制一下代码: 3、粘贴到下方,按运行按钮。 4、打开安装好的软件。上框复制以下代码: 5、下框复制以下代码: 6、如下图设置及操作: 1、打开&#…

html如何用mp4做背景音乐,如何用相片制作mv配上流行mp3背景音乐 打造自己的mv

准备好自己的相片,支持的相片(图片)格式为office powerpoint支持的就可以。具体支持什么相片格式,如何用相片制作mv再配上背景音乐呢;整个操作步骤是很简单的,如果是刚开始学习并对相关制作不太了解的朋友可能要多认真花点时间了解…

软件工程复习笔记

文章目录 1、软件工程概论(1)背景:软件危机表现方法软件工程管理软件工程技术 原因 (2)软件工程定义三要素生命周期软件定义软件开发运行维护 2、过程模型(1)瀑布模型特点优点缺点适用场合 &…

软件测试面试大全

软件测试面试大全 一、软件测试基础部分1、软件项目成员有哪些?2、软件的概念是什么?3、你对软件测试的定义是怎么的?4、你对软件Bug的概念是怎样的?5、软件Bug级别有几种?6、软件Bug状态有哪些?7、你对软件…

安卓机如果相册不选图片就退出_教你怎么把照片制作成电子相册

现在的我们都喜欢到处拍照,智能手机的出现以及越来越高清的相机,都给我们的拍照提供了太多的便利和可能,但是照片太多了以后就会堆积在电脑硬盘或者手机链里,想要从中观看、查找某一张都变的非常吃力,这个时候我们为何…