Spark中cache、persist、checkpoint三者的比较

article/2025/10/9 18:10:05

  在Spark的数据处理过程中我们可以通过cachepersistcheckpoint这三个算子将中间的结果数据进行保存,这里主要就是介绍这三个算子的使用方式和使用场景

1. 三者的使用

1.1 cache的讲解与使用

  cache算子可以将spark任务的中间结果数据缓存到内存当中,用以优化数据处理的时效性,这里结合代码进行讲解。
  首先这里准备好数据文件

# 通过命令我们可以看到数据文件有4592639 行
[root@lx01 bin]# wc -l /root/log-t.txt
4592639 /root/log-t.txt
# 将数据文件上传至hdfs,并对文件重命名
[root@lx01 ~]# hdfs dfs -put /root/log-t.txt /log/log01
[root@lx01 ~]# hdfs dfs -put /root/log-t.txt /log/log02
[root@lx01 ~]# hdfs dfs -put /root/log-t.txt /log/log03
[root@lx01 ~]# hdfs dfs -put /root/log-t.txt /log/log04
[root@lx01 ~]# hdfs dfs -put /root/log-t.txt /log/log05
[root@lx01 ~]# hdfs dfs -put /root/log-t.txt /log/log06
[root@lx01 ~]# hdfs dfs -put /root/log-t.txt /log/log07

在这里插入图片描述
这里可以看到文件的大小是65.7MB

# 这里为了方便直接启动spark-shell对数据进行处理
[root@lx01 bin]# ./spark-shell --master spark://lx01:7077 --executor-memory 4G --total-executor-cores 2

进入spark-shell后,我们对文件简单的做一个行数统计,然后看一下耗时时间

Welcome to____              __/ __/__  ___ _____/ /___\ \/ _ \/ _ `/ __/  '_//___/ .__/\_,_/_/ /_/\_\   version 3.0.0/_/Using Scala version 2.12.10 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_231)
Type in expressions to have them evaluated.
Type :help for more information.scala>  val lines = sc.textFile("hdfs://lx01:8020/log")
lines: org.apache.spark.rdd.RDD[String] = hdfs://lx01:8020/log MapPartitionsRDD[1] at textFile at <console>:24scala> lines.count
res0: Long = 32148480scala> lines.count
res1: Long = 32148480scala> lines.count
res2: Long = 32148480scala> lines.count
res3: Long = 32148480

统计完可以看到是32148480,这里我们看一下时间
在这里插入图片描述
通过上图我们可以看到查询这里数据总耗时最快可达到2s,这里我们开始使用cache算子,将数据缓存到内存当中,然后再查询数据的总行数,这里要注意cache算子并非action算子,所以要执行一次action算子cache算子才会生效。

# 这里我们还是使用的action算子还是count
scala> lines.cache
res4: lines.type = hdfs://lx01:8020/log MapPartitionsRDD[1] at textFile at <console>:24scala> lines.count
res5: Long = 32148480

我们先砍一下将数据存储到内存中,然后在使用count算子计算总行数的耗时时长
在这里插入图片描述

通过上图我们可以看到,这次使用cache算子后,比未使用cache算子的耗时时长还要多5s,这是因为我们在执行count时不仅要从hdfs中读取数据计算行数,还要将数据存储到内存中,所以时间更长,下面我们在直接执行一次count并看一下耗时时长

scala> lines.count
res3: Long = 18370560

在这里插入图片描述
通过上图我们可以看到,数据存储到内存中后我们再直接使用count时,计算速度提高了几十倍,从这里也说明了一个问题,只有中间结果的数据被重复利用的时候,我们使用cache算子才有意义,如果整个spark程序对同一数据只执行一次action算子,我们将数据存储到内存中不仅没有任何意义,还会降低数据处理的时效性,并且浪费资源,这里为什么说浪费资源,因为cache算子是将数据以java对象的形式存储,作为开发人员我们都清楚以java对象进行存储的方式是很重的,这里我读取的文件每个都是65.7MB,一共读取了7个,我们看一下数据存储到内存中后的大小
在这里插入图片描述

通过上图我们可以看到,459.9MB的数据存储到内存中后就变成了2.3GB,从这里就可以看出,cache算子对内存的开销是极大的,如果不对脏数据进行处理,或者进行一些数据筛选,直接将数据存储到内存中,是很浪费资源的,再就是上面提到的,只有一次action不要使用cache算子,其实persist也是一样的。

1.2 persist的讲解与使用

  persist算子相对于cache算子要更加的灵活,persist可以配置中间结果数据存储级别,存储数据的副本数据量等。而且通过翻看源码我们可以看到cache算子底层调用的就是persist算子

  /*** Persist this RDD with the default storage level (`MEMORY_ONLY`).*/def cache(): this.type = persist()

通过上面的源码我们可以看到cache算子使用的就是persist算子的MEMORY_ONLY,这里我们官网看一下persist的存储级别都有哪些
在这里插入图片描述
通过上图我们可以看到persist的存储级别是很丰富的,这里我们可以根据具体的需求选择对应的存储级别。
这里我们重新开启一个spark-shell,用以测试persist算子

[root@lx01 bin]# ./spark-shell --master spark://lx01:7077 --executor-memory 4G --total-executor-cores 2
Welcome to____              __/ __/__  ___ _____/ /___\ \/ _ \/ _ `/ __/  '_//___/ .__/\_,_/_/ /_/\_\   version 3.0.0/_/Using Scala version 2.12.10 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_231)
Type in expressions to have them evaluated.
Type :help for more information.scala>

这里我们先测试persistDISK_ONLY的效率,还是以相同的文件

# 这里还是先测试直接做count的时效
scala> val lines = sc.textFile("hdfs://lx01:8020/log")
lines: org.apache.spark.rdd.RDD[String] = hdfs://lx01:8020/log MapPartitionsRDD[1] at textFile at <console>:24scala> lines.count
res0: Long = 32148480scala> lines.count
res1: Long = 32148480scala> lines.count
res2: Long = 32148480scala> lines.count
res3: Long = 32148480

在这里插入图片描述
可以看到最高时效还是2s
这里我们再将数据以DISK_ONLY的方式进行存储

# 因为这里使用的是spark-shell,我们要先进行导包
scala> import org.apache.spark.storage.StorageLevel
import org.apache.spark.storage.StorageLevelscala> lines.persist(StorageLevel.DISK_ONLY)
res4: lines.type = hdfs://lx01:8020/log MapPartitionsRDD[1] at textFile at <console>:24scala> lines.count
res5: Long = 32148480

在这里插入图片描述
通过上图我们可以看到,使用persist算子的DISK_ONLY存储耗时为6s,和使用cache算子时的原理是相同的,不仅要从hdfs读取数据做count计算,还要将数据存储到本地磁盘,但是我们可以看到,将数据存储到本地磁盘比存储到内存的总耗时小,我们在使用cache的时候耗时7s,使用persistDISK_ONLY存储耗时6s,造成这样的原因就是存储到本地磁盘的数据是从hdfs读取的原始数据文件,而存储到内存中的数据是以java对象的形式存储,多了很多附加信息,如下图
在这里插入图片描述
每个文件为65.7MB,7个文件正好是459.9MB
这里我们再测试一下,存储到磁盘后的数据计算时效性

scala> lines.count
res3: Long = 18370560

在这里插入图片描述
通过上图可以看到,将数据存储到本地磁盘后,在做count计算用时1s,相对于直接做count的计算速度还是翻倍的,但是相对于存储到内存中还是慢了不少,比直接做count快是因为做计算时是从本地磁盘读取的数据,而不从hdfs上读取的数据,而且数据量越大,时效性的差距越明显.
使用本地磁盘的存储方式和内存存储相比,虽然时效性下降,但是可利用的存储资源更多,而且比内存存储更节约资源.
这里我们在测试一下内存和磁盘并用,重复的代码这里就省略了

scala> lines.persist(StorageLevel.MEMORY_AND_DISK)
res0: lines.type = hdfs://lx01:8020/log MapPartitionsRDD[1] at textFile at <console>:24scala> lines.count
res1: Long = 32148480

在这里插入图片描述
这里可以看到将数据做count计算的同时,并将数据存储到内存和本地磁盘中总耗时19s

这里我们在直接执行一次count计算,看一下耗时

scala> lines.count
res2: Long = 32148480

在这里插入图片描述
可以看到总耗时为0.1s,和直接将数据存储到内存后再进行计算的速度是相同的,这是因为我们将数据同时存储到内存和本地磁盘中后,再重复利用这些数据时,会优先读取内存中的数据.当内存中的数据丢失时才会读取本地磁盘中存储的数据.

1.3checkpoint 的讲解与使用

  checkpoint算子同样是将中间结果数据进行存储,不过它是将数据存储到高可靠,高可用的文件系统HDFS,相对于cache和persist是更加安全的.

# 使用checkpoint的时候注意,一定要先设置checkpoint在hdfs存储数据的路径
scala> sc.setCheckpointDir("hdfs://lx01:8020/check")scala> val lines = sc.textFile("hdfs://lx01:8020/log")
lines: org.apache.spark.rdd.RDD[String] = hdfs://lx01:8020/log MapPartitionsRDD[1] at textFile at <console>:24scala> lines.checkpointscala> lines.count
res2: Long = 32148480

这里我们先看一下已经配置好的checkpointHDFS路径是否有数据
在这里插入图片描述
用过上图可以看到在check路径下已经有了7个数据块
在这里插入图片描述
这里执行了6s,比直接执行count算子要多出4s,就是因为我们在计算数据的同时也在将数据存储到HDFS上.

2. 三者的比较

2.1 优缺点

  • cache
    优点: 对相同的数据进行处理是,时效性最高,可以大大提高spark程序的时效性能
    缺点: 很耗费内存资源,如果数据量较大并不适用cache
  • persist
    优点: 可以进行灵活的配置,如果内存不够大,可以将中间结果数据存储到本地磁盘,同cache相比时效性降低,但是同样比直接从hdfs读取数据做计算要高出几倍的效率,而且如果将数据存储到本地磁盘相对于只将数据存储到内存中要更加安全
    缺点: 虽然persist可以将数据存储到内存或者磁盘,但是对单节点的磁盘和内存资源存在一定的限制性
  • checkpoint
    优点: 将中间结果数据存储到HDFS中能更加能确保中间结果数据的安全性
    缺点: 重复利用中间结果数据时,还是和HDFS进行交互,时效性相对于内存存储和本地磁盘存储较低

2.2 使用场景

  • cache
    当中间结果数据的数据量较小,并且要求的时效性较高时比较适合使用cache算子
  • persist
    当单一的内存存储无法满足业务需求时,或者中间结果数据给内存造成很大压力时,可以使用persist算子
  • checkpoint
    当中间结果数据极其宝贵,对数据的安全要求较高时,比如使用机器学习可能程序执行几天才的到的模型数据,这一类数据的安全性能要求相对较高,就比较适用于checkpoint算子.

以上就是对cache,persist,checkpoint的介绍,这三者有一个共同点,就是数据的重复利用,如果对相同的中间结果数据只执行一次action算子是没有必要使用这三个算子的,读取中间结果数据的优先级:内存<–磁盘<–hdfs,对于这三者的介绍就结束了,相对来说比较齐浅显,希望对有疑问的朋友有所帮助.


http://chatgpt.dhexx.cn/article/AABAXneM.shtml

相关文章

Vue3 使用pinia+pinia-plugin-persist setup写法

最近项目技术更新&#xff0c;决定用vitejsvue3pinia重写项目。我们决定一步到位直接script setup方式来写&#xff0c;边学边写边记录&#xff1a; 1、先安装 npm i pinia-plugin-persist 2、引入 import {createPinia} from pinia import App from ./App.vue import rout…

【REACT-@reduxjs/toolkit+react-redux+redux-persist状态管理】

REACT-reduxjs/toolkitreact-reduxredux-persist状态管理 1. 依赖包安装2. 目录结构3. 创建store.js 和 修改Index.js3.1 创建store.js3.2 创建修改Index.js 4. createSlice&#xff08;&#xff09;4.1 action处理4.1.1 创建collapsedSlice4.1.2 使用collapsedSlice 4.2 异步a…

detached entity passed to persist问题与解决方案

JPA save对象的时候有时候会遇到如题的错误&#xff0c;可能有两种原因&#xff1a; 1.该对象定义的是自动生成id的方式&#xff0c;insert的时候写入的id在数据库中已存在。 网上搜到的比较多的都是这种情况&#xff0c;但个人认为&#xff0c;实际项目中这么玩的情况很少&am…

谈谈Persistent属性

文章目录 1. 背景2. 开机自启动流程3. adb kill -9 杀进程后会自动重启4. 小结 1. 背景 在应用AndroidManifest文件下添加 android:persistent“true” 关键字&#xff0c;并把Apk预置到system/app目录下&#xff0c;可以给应用实现开机自启动和保活效果。 从以下两个疑问去找…

cache和persist区别

cache()是persist()的特例&#xff0c;persist可以指定一个StorageLevel(缓存级别) cache的缓存级别是memory_only 区别就是cache默认是在内存中存储的&#xff0c;而persist可以设置存储的级别&#xff1a; 如何选择一种最合适的持久化策略 默认情况下&#xff0c;性能最高…

安卓机型传感器分区故障persist的相关说明 修复步骤

手机的分区很多。有些分区刷机不管是卡刷还是底层9008刷写等等默认是不会刷写的。其中包括基带分区 persist分区等等这些。这类分区一般也不会出问题&#xff0c;当然也有个例。例如更新降级或者刷写第三方或者全部檫除分区或者格机软件等等会导致这些分区出问题。今天这个帖子…

Android Q - Signature|privileged permissions not in privapp-permissions whitelist(卡在开机logo无法开机)

简单记录下&#xff0c;我是在 launcher3 里进行修改&#xff0c;添加了几个权限后&#xff0c;替换应用正常运行&#xff0c;但是在重新编译软件时无法开机&#xff0c;Android studio 提示错误如下&#xff1a; system_process E/AndroidRuntime: *** FATAL EXCEPTION IN SYS…

Failed to get D-Bus connection: Operation not permitted一个关于--privileged=true失效并不能进入root权限的大坑

一个关于--privilegedtrue失效并不能进入root权限的大坑&#xff0c;坑了我一晚上。。。 先上连接解决这个问题 感谢这位大佬可以用 https://blog.csdn.net/zhenliang8/article/details/78330658 我的问题出在哪儿了&#xff1f; 这里并不是/bin/bash 而是/usr/sbin/init 不按…

【错误记录】手机应用无法联网 ( 添加 READ_PRIVILEGED_PHONE_STATE 权限导致手机应用网络不可用 )

文章目录 一、报错信息二、解决方案 一、报错信息 在应用的首界面 , 连接 WebSocket 服务器 , 调用了 WebSocketClient # connectBlocking() 方法 , 阻塞连接 WebSocket , 但是网络没有相应 , 导致了 ANR 异常 ; 参考 【Android WebSocket】Android 端 WebSocket 基本用法 ( 添…

k8s设置pod privileged权限(特权):securityContext.privileged=true

k8s部署es的时候需要初始化很多linux的内核参数。 但是文件系统挂载到pod容器中就会变成read-only&#xff0c;难以进行操作实现需求。 所以需要给POD privileged权限&#xff0c;然后在容器的初始化脚本或代码中去修改sysctl参数。 创建POD/deployment/daemonset等对象时&…

ARM基础(2):模式和特权等级(User/Thread mode和Privileged level)

Cortex-M3处理器支持两种模式和两种特权级别。 如下图所示&#xff0c;当处理器运行于Thread mode时&#xff0c;它可以处于Privileged或User级别&#xff1b;而Handler mode下&#xff0c;只能处于Privileged级别。当处理器复位完毕后&#xff0c;处于Thread mode。 在User级…

【云原生 | Kubernetes 系列】K8s 实战 实施Pod 容器标准的两种方式

实施Pod 容器标准的两种方式 前言一、通过名字空间标签来要求实施 baseline Pod 容器标准1.1、使用 kubectl label 为现有名字空间添加标签1.2、应用到所有名字空间1.3、应用到单个名字空间 二、通过配置内置准入控制器实施 Pod 安全标准总结 前言 上一节学习了 PodSecurity &a…

privilege_role

本文章为网络笔记&#xff0c;看了warehouse老师的视频受益匪浅&#xff0c;更是感觉自己技术太过初级&#xff0c;特写了本笔记&#xff0c;方便以后反复学习&#xff01; 如有任何不妥&#xff0c;请发邮件至102448567qq.com删除文章&#xff01; 关于warehouse&#xff1a; …

docker --privileged=true 参数作用

大约在0.6版&#xff0c;privileged被引入docker。使用该参数&#xff0c;container内的root拥有真正的root权限。否则&#xff0c;container内的root只是外部的一个普通用户权限。privileged启动的容器&#xff0c;可以看到很多host上的设备&#xff0c;并且可以执行mount。甚…

docker--privileged

一、 privilegedtrue|false 介绍 true container内的root拥有真正的root权限。 false container内的root只是外部的一个普通用户权限。默认false privileged启动的容器 可以看到很多host上的设备可以执行mount。可以在docker容器中启动docker容器。 二、测试验证 2.1、未设…

(十二)docker --privileged

1. privileged参数作用 --privileged Give extended privileges to this container 大约在0.6版&#xff0c;privileged被引入docker。使用该参数&#xff0c;container内的root拥有真正的root权限。否则&#xff0c;container内的root只是外部的一个普通用…

TDL、CDL信道模型简述

主要参考&#xff1a;3GPP TR 38.811 TDL&#xff08;Tapped Delay Line&#xff09;抽头延时线模型 TDL模型主要针对多径时延参数和反映信道时变特性的多普勒参数进行研究&#xff0c;主要有TDL-A、TDL-B、TDL-B、TDL-D、TDL-E五种。其中前三者为NLOS传输的多径信道模拟&…

无线信道模型分类和建模方法介绍--附思维导图

目录 1 统计性模型&#xff08;经验模型&#xff09;1.1 模型分类&#xff08;1&#xff09;按衰落分类&#xff08;2&#xff09;按路径损耗和延迟拓展分类&#xff08;3&#xff09;按IO数量分类 1.2 建模方法&#xff08;1&#xff09;方法一分类&#xff08;2&#xff09;方…

【S-V信道】基于毫米波的5G通信S-V信道模型仿真

1.软件版本 MATLAB2021a 2.本算法理论知识 由于大气中存在一定含量的极化氧分子和水汽&#xff08;如图3.1所示&#xff09;&#xff0c;因此毫米波在传输过程中容易被大气吸收&#xff0c;从而导致信号衰减&#xff0c;影响通信质量[13,14]。根据相关研究发现&#xff0c;在…

m无线通信信道matlab仿真,包括自由空间损耗模型,Okumura-Hata模型,COST231 Hata模型,SUI信道模型

目录 1.算法概述 2.仿真效果预览 3.MATLAB部分代码预览 4.完整MATLAB程序 1.算法概述 无线信道是移动通信的传输媒体&#xff0c;所有的信息都在这个信道中传输。信道性能的好坏直接决定着人们通信的质量&#xff0c;因此要想在有限的频谱资源上尽可能地高质量、大容量传输…