Spark大数据系列教程持续更新

article/2025/9/15 9:38:33

Spark大数据系列教程

想学习大数据的福利来了，由于近期工作繁忙，本人已将自己学习大数据的过程陆续开始更新：

Spark大数据系列：一、RDD详解
Spark大数据系列二、Spark入门程序WordCount详解(Scala版本)
Spark大数据系列：三、Java版本WordCount详解(Java版本)
Spark大数据系列四、Java Lambda表达式实现WordCount详解
Spark大数据系列：五、安装配置JDK1.8
Spark大数据系列：六、安装配置Zookeeper集群
Spark大数据系列：七、Spark基于standalone集群搭建
Spark大数据系列：八、Tranformation算子详解<一>
Spark大数据系列：九、图解算子aggregateByKey
Spark大数据系列：十、常用Action类算子详解
Spark大数据系列：十一、RDD的缓存机制详解
Spark大数据系列：十二、Spark基于Standalone提交任务的两种方式
Spark大数据系列：十三、Hadoop全分布式HA集群的搭建
Spark大数据系列：十四、HDFS常见操作命令
Spark大数据系列：十五、Spark基于yarn提交任务的两种方式
Spark大数据系列：十六、Spark中的专业术语
Spark大数据系列：十七、Spark管道pipeline计算模式

持续更新中 …

该系列文章更新在头条的公众号中, 大家可搜索“数据致美”用户，或者扫描下面二维码，欢迎大家过来指点：
在这里插入图片描述

http://chatgpt.dhexx.cn/article/47n9bK0j.shtml

相关文章

大数据面试题——spark

大数据面试题——spark

文章目录讲一下spark 的运行架构一个spark程序的执行流程讲一下宽依赖和窄依赖spark的stage是如何划分的Spark的 RDD容错机制。checkpoint 检查点机制？RDD、DAG、 Stage、 Task 、 Job Spark的shuffle介绍Spark为什么快，Spark SQL 一定比 Hive 快吗Spar…

阅读更多...

引爆Spark大数据引擎的七大工具

引爆Spark大数据引擎的七大工具

原文名称：7 tools to fire up Sparks big data engine Spark正在数据处理领域卷起一场风暴。让我们通过本篇文章，看看为Spark的大数据平台起到推波助澜的几个重要工具。 Spark生态系统众生相 Apache Spark不仅仅让大数据处理起来更快，还让大…

阅读更多...

大数据面试题Spark篇（1）

大数据面试题Spark篇（1）

目录 1.spark数据倾斜 2.Spark为什么比mapreduce快？ 3.hadoop和spark使用场景？ 4.spark宕机怎么迅速恢复？ 5. RDD持久化原理？ 6.checkpoint检查点机制 7.checkpoint和持久化的区别 8.说一下RDD的血缘 9.宽依赖函数&#…

阅读更多...

大数据_Spark常见组件

大数据_Spark常见组件

Spark 是一个分布式数据处理引擎，其各种组件在一个集群上协同工作，下面是各个组件之间的关系图。 Spark驱动器作为 Spark 应用中负责初始化 SparkSession 的部分，Spark 驱动器扮演着多个角色：它与集群管理器打交道；它…

阅读更多...

大数据Spark框架

大数据Spark框架

Spark 是一种基于内存快速、通用、可扩展的大数据分析计算引擎。 Spark 优势： Spark核心单元RDD适合并行计算和重复使用；RDD模型丰富，使用灵活；多个任务之间基于内存相互通信（除了shuffle会把数据写入磁盘&#xff0…

阅读更多...

Windows下的Spark环境配置（含IDEA创建工程--《Spark大数据技术与应用》第九章-菜品推荐项目）

Windows下的Spark环境配置（含IDEA创建工程--《Spark大数据技术与应用》第九章-菜品推荐项目）

文章目录前言一、下载资源二、本地配置步骤1.解压2.引入本地环境3.启动HADOOP文件4.进行Spark测试三、IDEA引入Spark项目1.idea按照scala插件2.新建scala项目3.配置项目4.新建scala类前言本文适用于《Spark大数据技术与应用》第九章-菜品推荐项目环境配置： 跟…

阅读更多...

Spark开发：Spark大数据开发编程示例

Spark开发：Spark大数据开发编程示例

大数据开发人员，根据企业大数据处理的需求，进行大数据平台系统的搭建，比如说Hadoop，比如说Spark，而不同的大数据处理框架，采取不同的编程语言和编程模型，这就需要技术开发人员要掌握相关的技术。…

阅读更多...

《Spark大数据技术与应用》肖芳张良均著——课后习题

《Spark大数据技术与应用》肖芳张良均著——课后习题

目录教材知识汇总课后习题第一章 Spark概述Spark的特点Spark生态圈Spark应用场景第二章 Scala基础匿名函数SetMapmapflatMapgroupBy课后习题第三章 Spark编程教材52页任务3.2及之后的任务重点复习sortBy排序collect查询distinct去重zip实训题实训1实训2选择题编程题第四章…

阅读更多...

Spark大数据技术与应用第一章Spark简介与运行原理

Spark大数据技术与应用第一章Spark简介与运行原理

Spark大数据技术与应用第一章Spark简介与运行原理 1.Spark是2009年由马泰扎哈里亚在美国加州大学伯克利分校的AMPLab实验室开发的子项目，经过开源后捐赠给Aspache软件基金会，成为了Apache Spark。由Scala语言实现的专门为大规模数据处理而设计的快速通用…

阅读更多...

大数据之Spark:Spark 基础

大数据之Spark:Spark 基础

目录 1、Spark 发展史2、Spark 为什么会流行3、Spark 特点4、Spark 运行模式 1、Spark 发展史 2009 年诞生于美国加州大学伯克利分校 AMP 实验室； 2014 年 2 月，Spark 成为 Apache 的顶级项目； Spark 成功构建起了一体化、多元化的大数据处…

阅读更多...

大数据之spark详解

大数据之spark详解

目录什么是spark： 功能历史上和hadoop的区别： spark的五大核心模块： ➢ Spark Core 什么是spark： 简单一点Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。属于mapreduce的加强版本，结合了其优点…

阅读更多...

09.大数据技术之Spark

09.大数据技术之Spark

文章目录一、Spark概述1、概述2、Spark特点二、Spark角色介绍及运行模式1、集群角色2、运行模式三、Spark集群安装1.Local模式1.下载文件2.解压缩3、修改配置文件4.配置环境变量5.启动服务6.启动客户端 2.Standalone模式1.停止服务2.修改配置文件spark-env.sh3.修改配置文件…

阅读更多...

大数据框架之Spark详解

大数据框架之Spark详解

目录 1 Spark概述1.1 Spark是什么？1.2 Spark内置模块1.3 Spark 特点 2 RDD概述2.1 什么是RDD？2.2 RDD的属性2.3 RDD特点2.4 弹性体现在哪？2.5 分区2.6 分区2.7 依赖2.8 缓存2.9 CheckPoint 1 Spark概述 1.1 Spark是什么？ Spark是…

阅读更多...

大数据学习之 Spark 概述

大数据学习之 Spark 概述

文章目录一、Spark简介Spark与Hadoop的区别部署模式二、 Spark架构1.Driver2.Executor3.Master & Worker4.Cluster manager5.ApplicationMaster补充点：Stage执行过程三、Shuffle机制shuffle介绍Shuffle的影响导致Shuffle的操作四、RDD（弹性分布式…

阅读更多...

大数据技术---Spark

大数据技术---Spark

一、Spark简介 1、Spark概述 Spark：由美国加州伯克利大学的AMP实验室于2009年开发，基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。三大分布式计算系统开源项目：Hadoop、Spark、Storm。 Spark的…

阅读更多...

KB、MB、GB等和KiB、MiB、GiB等的区别

KB、MB、GB等和KiB、MiB、GiB等的区别

今天装系统RHEL7.7，在分区时发现单位变成MiB、GiB了，有点奇怪就查了查。区别： KB、MB、GB等单位以10为底数的指数 KiB、MiB、GiB等单位是以2为底数的指数如：1KB10^31000, 1MB10^610000001000KB,1GB10^910000000001000MB,而 …

阅读更多...

asset size limit: The following asset(s) exceed the recommended size limit (244 KiB).

asset size limit: The following asset(s) exceed the recommended size limit (244 KiB).

webpack打包提示文件体积过大导致： The following asset(s) exceed the recommended size limit (244 KiB). This can impact web performance. entrypoint size limit: The following entrypoint(s) combined asset size exceeds the recommended limit (244 Ki…

阅读更多...

当git clone遇到client_loop:send disconnect: Connection reset by peer00 Kib/s

当git clone遇到client_loop:send disconnect: Connection reset by peer00 Kib/s

当git clone遇到client_loop:send disconnect: Connection reset by peer00 Kib/s 1. 问题描述2.问题解决3.原因分析 1. 问题描述刚换了新电脑，重新配置了下git仓库的ssh后，迫不及待想 git clone 先项目。发现遇到个问题： 在执行 git clone…

阅读更多...

Kibana

Kibana

Kibana是一个开源的分析和可视化平台，设计用于和Elasticsearch一起工作。你用Kibana来搜索，查看，并和存储在Elasticsearch索引中的数据进行交互。你可以轻松地执行高级数据分析，并且以各种图标、表格和地图的形式可视化数据。…

阅读更多...

WARNING in asset size limit: The following asset(s) exceed the recommended size limit (244 KiB)

WARNING in asset size limit: The following asset(s) exceed the recommended size limit (244 KiB)

Taro打包h5体积限制警告： WARNING in asset size limit: The following asset(s) exceed the recommended size limit (244 KiB). 可以使用webpack-bundle-analyzer插件对打包体积进行分析，参考代码： webpackChain (chain) {chain.plug…

阅读更多...

推荐文章