Spark大数据技术与应用 第一章Spark简介与运行原理

article/2025/9/15 10:04:15

 Spark大数据技术与应用
第一章Spark简介与运行原理
1.Spark是2009年由马泰·扎哈里亚在美国加州大学伯克利分校的AMPLab实验室开发的子项目,经过开源后捐赠给Aspache软件基金会,成为了Apache Spark。由Scala语言实现的专门为大规模数据处理而设计的快速通用的计算引擎。
2.Spark的三个特点:(1)易于使用Spark提供高级应用程序编程接口(2)计算速度快,支持交互式计算和复杂算法(3)Spark是一个通用引擎,可用完成各种运算,包括SQL查询、文本处理、机器学习、实时流处理等。
3.Spark与Hadoop的区别和联系:(1)解决问题的方式不一样。Hadoop和Spark两者都是大数据框架,但是各自的属性和性能却不完全相同。Hadoop是一个分布式数据基础架构,将巨大的数据集分派到有个由普通计算机组成的集群中,由其中的多个节点进行存储,意味着用户不需要购买维护昂贵的服务器硬件,还会对这些数据进行排序和追踪,使得大数据处理和分析更加迅速高效;Spark则是一个专门用来对分布式存储的大数据进行处理的工具,但它并不会进行分布式数据的存储。(2)两者可合可分。Hadoop不仅提供了HDFS的分布式数据存储功能,还提供MapReduce的数据处理功能,所以用户可以不使用Spark而选择使用Hadoop自身的MapReduce对数据进行处理。同样Spark也不一定需要依附在Hadoop系统中,因为Spark没有提供文件管理系统,所以它需要和其他的分布式文件系统先进行集成然后才能运作。
4.Spark在各个领域中的用途:(1)快速查询系统,Spark能够承担大多数日志数据的即使查询工作,在性能方面普遍比Hive快2~10倍,如果借用内存表功能,性能将会比Hive快百倍。(2)实时日志采集处理系统(3)业务推进系统(4)定制广告系统(5)用户图计算系统
5.Spark生态系统以Spark Core为核心,利用Standalone、YARN和Mesos等进行资源调度管理,完成应用程序分析与处理。Spark Core提供Spark最基础与最核心的功能,它的子框架包括Spark SQL、Spark Streaming、MLlib和GraphX. 

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5YiY5paw5rqQODcw,size_20,color_FFFFFF,t_70,g_se,x_16

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5YiY5paw5rqQODcw,size_20,color_FFFFFF,t_70,g_se,x_16

6.Spark框架与原理

spark框构设计

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5YiY5paw5rqQODcw,size_20,color_FFFFFF,t_70,g_se,x_16

                                                spark作业运行流程

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5YiY5paw5rqQODcw,size_20,color_FFFFFF,t_70,g_se,x_16

 spark分布式计算流程

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5YiY5paw5rqQODcw,size_20,color_FFFFFF,t_70,g_se,x_16

 

 

 


http://chatgpt.dhexx.cn/article/13C93oLZ.shtml

相关文章

大数据之Spark:Spark 基础

目录 1、Spark 发展史2、Spark 为什么会流行3、Spark 特点4、Spark 运行模式 1、Spark 发展史 2009 年诞生于美国加州大学伯克利分校 AMP 实验室; 2014 年 2 月,Spark 成为 Apache 的顶级项目; Spark 成功构建起了一体化、多元化的大数据处…

大数据之spark详解

目录 什么是spark: 功能历史上和hadoop的区别: spark的五大核心模块: ➢ Spark Core 什么是spark: 简单一点Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。属于mapreduce的加强版本,结合了其优点…

09.大数据技术之Spark

文章目录 一、Spark概述1、概述2、Spark特点 二、Spark角色介绍及运行模式1、集群角色2、运行模式 三、Spark集群安装1.Local模式1.下载文件2.解压缩3、修改配置文件4.配置环境变量5.启动服务6.启动客户端 2.Standalone模式1.停止服务2.修改配置文件spark-env.sh3.修改配置文件…

大数据框架之Spark详解

目录 1 Spark概述1.1 Spark是什么?1.2 Spark内置模块1.3 Spark 特点 2 RDD概述2.1 什么是RDD?2.2 RDD的属性2.3 RDD特点2.4 弹性体现在哪?2.5 分区2.6 分区2.7 依赖2.8 缓存2.9 CheckPoint 1 Spark概述 1.1 Spark是什么? Spark是…

大数据学习 之 Spark 概述

文章目录 一、Spark简介Spark与Hadoop的区别部署模式 二、 Spark架构1.Driver2.Executor3.Master & Worker4.Cluster manager5.ApplicationMaster补充点:Stage执行过程 三、Shuffle机制shuffle介绍Shuffle的影响导致Shuffle的操作 四、RDD(弹性分布式…

大数据技术---Spark

一、Spark简介 1、Spark概述 Spark:由美国加州伯克利大学的AMP实验室于2009年开发,基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。 三大分布式计算系统开源项目:Hadoop、Spark、Storm。 Spark的…

KB、MB、GB等和KiB、MiB、GiB等的区别

今天装系统RHEL7.7,在分区时发现单位变成MiB、GiB了,有点奇怪就查了查。 区别: KB、MB、GB等单位以10为底数的指数 KiB、MiB、GiB等单位是以2为底数的指数 如:1KB10^31000, 1MB10^610000001000KB,1GB10^910000000001000MB,而 …

asset size limit: The following asset(s) exceed the recommended size limit (244 KiB).

webpack打包提示文件体积过大导致: The following asset(s) exceed the recommended size limit (244 KiB). This can impact web performance. entrypoint size limit: The following entrypoint(s) combined asset size exceeds the recommended limit (244 Ki…

当git clone遇到client_loop:send disconnect: Connection reset by peer00 Kib/s

当git clone遇到client_loop:send disconnect: Connection reset by peer00 Kib/s 1. 问题描述2.问题解决3.原因分析 1. 问题描述 刚换了新电脑,重新配置了下git仓库的ssh后,迫不及待想 git clone 先项目。发现遇到个问题: 在执行 git clone…

Kibana

Kibana是一个开源的分析和可视化平台,设计用于和Elasticsearch一起工作。 你用Kibana来搜索,查看,并和存储在Elasticsearch索引中的数据进行交互。 你可以轻松地执行高级数据分析,并且以各种图标、表格和地图的形式可视化数据。…

WARNING in asset size limit: The following asset(s) exceed the recommended size limit (244 KiB)

Taro打包h5体积限制 警告: WARNING in asset size limit: The following asset(s) exceed the recommended size limit (244 KiB). 可以使用webpack-bundle-analyzer插件对打包体积进行分析,参考代码: webpackChain (chain) {chain.plug…

【名词解释】KiB和KB,MiB和MB,GiB和GB 等的区别以及1M带宽到底是多少?

目录 1. KiB和KB,MiB和MB,GiB和GB 2. 宽带速度 3. 单位换算 1. KiB和KB,MiB和MB,GiB和GB KiB和KB,MiB和MB,GiB和GB 等的区别: 1KB(kilobyte)10^31000byte, 1KiB(kibibyte)2^101024byte …

b、B、KB、Kib、MB、MiB、GB、GiB、TB、TiB的区别

1024这个数字,想必计算机行业从业人员应该不会陌生,甚至10月24日还被当做程序员日,如果你问一个程序员1GB等于多少MB,他大概率会不假思索回答:1024。 没错,对于稍微对计算机或者网络有了解的人,一般都认为1024是数据容…

KB和KiB的区别是什么?

KB和KiB的区别是什么? 文章目录 KB和KiB的区别是什么?前言MB与MiB的区别:KB和KiB的区别为什么买到的硬盘容量总是会少一些? 前言 今天整理资料时发现使用windows自带的资源管理器查看文件夹大小时计算很缓慢, 机智的我想到了使用dir命令来查看 哈哈~…

KiB是什么单位

kiB1024byte kb1000byte

linux必备软件合集

Ubuntu常用软件合集 我用的使Ubuntu-Kylin14.04,原因呢主要是觉得使本土化的,自带了日历、输入法、优客助手等易于上手的应用。也省的每次安装完原生的系统再麻烦的安装,但是这些软件并不仅仅局限于ubuntu14.04 美化篇 刚装上ubuntu,看起来很朴素&…

软件测试周刊(第82期):其实所有纠结做选择的人心里早就有了答案,咨询只是想得到内心所倾向的选择。

欢迎来到第 82 期!这里记录过去一周我们看到的软件测试及周边的行业动态,周五发布。 本期看点:B站是如何建设移动真机测试集群的?百人测试团队的测试效能体系应该如何建设?闲鱼交易链路自动化回归测试是怎么做的&#…

傻瓜式安装stable diffusion图像生成软件

目录 1、打开:https://colab.research.google.com/ 2、复制一下代码: 3、粘贴到下方,按运行按钮。 4、打开安装好的软件。上框复制以下代码: 5、下框复制以下代码: 6、如下图设置及操作: 1、打开&#…

html如何用mp4做背景音乐,如何用相片制作mv配上流行mp3背景音乐 打造自己的mv

准备好自己的相片,支持的相片(图片)格式为office powerpoint支持的就可以。具体支持什么相片格式,如何用相片制作mv再配上背景音乐呢;整个操作步骤是很简单的,如果是刚开始学习并对相关制作不太了解的朋友可能要多认真花点时间了解…

软件工程复习笔记

文章目录 1、软件工程概论(1)背景:软件危机表现方法软件工程管理软件工程技术 原因 (2)软件工程定义三要素生命周期软件定义软件开发运行维护 2、过程模型(1)瀑布模型特点优点缺点适用场合 &…