livy部署及应用

article/2025/10/13 10:48:55

一、介绍

Livy把spark交互式批处理都搬到了web上,提供restful接口,Livy一方面接收并解析客户端提交的REST请求,转换成相应的操作,另一方面它管理着客户端所启动的spark集群

Livy会为用户运行多个session,每个session就是一个常驻的spark context也可以成为一个spark集群。用户通过restful接口在对应的spark context执行代码,Livy服务端通过RPC协议与Spark集群进行通信。根据交互方式不同,Livy将会话分成两种类型:

交互式会话(interactive session):交互式会话在其启动后可以接收用户所提交的代码片段,在远端spark集群中编译并执行。

批处理会话(batch session):用户可以通过Livy以批处理的方式启动Spark应用。

这两种方式与原生spark是类似的,其中交互式会话它们的主要不同点是,spark-shell会在当前节点上启动REPL来接收用户的输入,而Livy交互式会话则是在远端的Spark集群中启动REPL,所有的代码、数据都需要通过网络来传输。

二、安装部署

1、下载

Livy - Downloads

解压即可。

2、安装配置

livy只需要配置两个文件(livy-env.sh,livy.conf):

1、livy-env.sh

cp livy-env.sh.template livy-env.sh :

export JAVA_HOME=/home/work/tools/jdk1.8.0_151
export HADOOP_CONF_DIR=/home/work/hadoop3/hadoop-3.3.5/etc/hadoop
export SPARK_HOME=/home/work/hadoop3/spark-3.3.2-bin-hadoop3
export LIVY_SERVER_JAVA_OPTS="-Xmx2g"#export LIVY_HOME=/home/work/hadoop3/apache-livy-0.7.1-incubating-bin#export  HADOOP_USER_NAME=hdfs

2、livy.conf

cp livy.conf.template livy.conf :

livy.spark.master = yarn
livy.spark.deploy-mode = cluster
livy.server.session.timeout = 1hlivy.repl.jars = local:/home/work/hadoop3/apache-livy-0.7.1-incubating-bin/repl_2.11-jars/commons-codec-1.9.jar,local:/home/work/hadoop3/apache-livy-0.7.1-incubating-bin/repl_2.11-jars/livy-core_2.11-0.7.1-incubating.jar,local:/home/work/hadoop3/apache-livy-0.7.1-incubating-bin/repl_2.11-jars/livy-repl_2.11-0.7.1-incubating.jarlivy.server.yarn.poll-interval = 5s# 配置 recovery 
livy.server.recovery.mode = recovery
livy.server.recovery.state-store = filesystem
livy.server.recovery.state-store.url = hdfs://hadoop01:9000/user/livy/recovery

配置参考:Apache Spark 和 Apache Hadoop 配置属性 - SQL Server Big Data Clusters | Microsoft Learn

3、spark-blacklist.conf

cp spark-blacklist.conf.template spark-blacklist.conf :

# Disallow overriding the master and the deploy mode.
spark.master
spark.submit.deployMode# Disallow overriding the location of Spark cached jars.
spark.yarn.jar
spark.yarn.jars
spark.yarn.archive# Don't allow users to override the RSC timeout.
livy.rsc.server.idle-timeout

4、log4j.properties

cp log4j.properties.template log4j.properties

3、启动

bin/livy-server start

查看启动日志: cat livy-work-server.out

访问:http://ip:8998/ui

三、同类产品对比

Livy结合了spark job server和Zeppelin的优点,并解决了spark job server和Zeppelin的缺点:

四、Livy执行流程

Livy server启动相应的session,然后提交作业到Yarn集群,当Yarn拉起ApplicationMaster进程后启动SparkContext,并连接到Livy Server进行通信。

后续执行的代码会通过Livy server发送到Application进程执行。

具体执行流程说明:

  • live-server启动,启动BatchSessionManagerInteractiveSessionManager

  • 初始化WebServer,通过ServletContextListener启动InteractiveSessionServletBatchSessionServlet

  • 通过http调用SessionServletcreateSession接口,创建session并注册到sessionManagerInteractiveSessionBatchSession会创建SparkYarnAppSparkYarnApp负责启动Spark作业,并维护yarnclient,获取作业信息、状态或kill作业。

  • BatchSession是以jar包的方式提交作业,运行结束后session作业就结束。

  • InteractiveSession会启动com.cloudera.livy.repl.ReplDriverReplDriver继承RSCDriver,初始化期间会通过RPC连接到livy-server,并启动RpcServer;其次会初始化Interpreter(支持PythonInterpreterSparkInterpreterSparkRInterpreter)。接收来自livy-server,并启动RpcServer;其次会初始化Interpreter(支持PythonInterpreterSparkInterpreterSparkRInterpreter)。接收来自livy-server的信息(代码),然后通过Interpreter执行,livy-server通过RPC请求作业结果。

五、应用实战

Livy的三套接口:

Livy提供三套管理任务的接口分别是:

  • 使用Using the Programmatic API,通过程序接口提交作业。需要继承com.cloudera.livy.Job接口编程,通过LivyClient提交;

  • 使用RestAPI的session接口提交代码段方式运行;

  • 使用RestAPI的batch接口提交jar包方式运行。

1、查看session

curl 'http://hadoop01.com:8998/sessions'

参考:

1)、https://michealkz.blog.csdn.net/article/details/123822382


http://chatgpt.dhexx.cn/article/9b4Ulo0x.shtml

相关文章

C/C++ 实现字符串IP与整数型IP的相互转换

#include <stdio.h> int main() {char ip[32] "192.168.1.151"; //IP值char scIPAddress[32] ""; //存储字符串IPunsigned int nIPAddress 0; //存储整形IPint nTmpIP[4] {0}; //分割IPint i0;//字符串转整形sscanf(ip,"%d.%d.%d.%…

数字字符串转化成 IP 地址

数字字符串转化成 IP 地址 1、参考资料 https://www.nowcoder.com/practice/ce73540d47374dbe85b3125f57727e1e 2、题目要求 题目描述 现在有一个只包含数字的字符串&#xff0c;将该字符串转化成IP地址的形式&#xff0c;返回所有可能的情况。 例如&#xff1a; 给出的字…

IP地址(IPV6)与long数组之间的转换

IP地址&#xff08;IPV6&#xff09;与long数组之间的转换 《IP地址&#xff08;IPV4&#xff09;与int类型之间的转换》《IP地址&#xff08;IPV6&#xff09;与long数组之间的转换》 一、前言 IPv6是英文“Internet Protocol Version 6”&#xff08;互联网协议第6版&#…

如何将字符数串和IP地址进行转换?

这一部分主要是网络编程中会使用&#xff0c;将数串和IP地址进行转换&#xff0c;在进行转换之前&#xff0c;我们需要知道IP地址在linux系统中的结构体定义 地址类型结构体 具体如下表&#xff1a; 结构体功能特性struct sockaddr套接字地址结构IPv4/IPv6通用struct sockad…

如何将IP地址字符串转换为数字数组

如何将IP地址字符串转换为数字数组 最近在做一个项目用到LWIP&#xff0c;通过触摸屏幕上的数字键盘输入要设置的IP地址和网关地址&#xff0c;然后再用输入的地址去设置重新设置lwip。那么问题就来了&#xff0c;输入的IP地址字符串应该怎么去转换成 ip[4] 数组呢&#xff1f…

IP地址字符串和数组相互转换

需求描述&#xff1a; 将字符串“192.168.2.126”&#xff0c;转成Byte类型&#xff0c;存放在字节数组中。数组内容为 192,168,2&#xff0c;126。反之亦然。 实现方法&#xff1a; 通过C# 库中的IPAddress类完成。 IPAddress类 对应的命名空间是using System.Net; 实现代…

花3个月面过华为测开岗,拿个30K不过分吧?

计算机专业&#xff0c;代码能力一般&#xff0c;之前有过两段实习以及一个学校项目经历。第一份实习是大二暑期在深圳的一家互联网公司做前端开发&#xff0c;第二份实习由于大三暑假回国的时间比较短&#xff08;小于两个月&#xff09;&#xff0c;于是找的实习是在一家初创…

华为OD德科面试+机试记录

一、机试&#xff08;6.25&#xff09; 三道编程题&#xff0c;难度偏中。由于时间久远&#xff0c;只记得其中两道题目 1、找车位&#xff08;动态规划&#xff09; 2、题目不记得了&#xff0c;后面如果找到会补充&#xff08;双指针&#xff09; 3、高效的任务规划&#x…

准备4个月过华为测试岗,拿个23k应该不多吧

我大学是学的编程专业&#xff0c;写代码能力非常一般&#xff0c;之前有一个学校项目经验和两段实习。第一份实习是在进大三之前的暑假在广州一家软件公司做前端&#xff0c;第二份实习时大三暑假两个月在一家刚创业的公司做全栈。 我面试的是测试开发&#xff0c;在2022年初…

vSphere Client连接主机提示远程服务器响应时间过长

问题现象 使用VMware vSphere Client连接EXSi主机时&#xff0c;提示“由于远程服务器响应时间过长&#xff0c;请求失败&#xff08;操作超时&#xff09;”。 解决方法 打开Windows注册表&#xff0c;找到HKEY_CURRENT_USER\Software\VMware\VMware Infrastructure Clien…

官网下载eclipse出现mirror.kakao.com 的响应时间过长+解决方法

Eclipse官网:https://www.eclipse.org/downloads/ 问题&#xff1a;官网下载eclipse出现mirror.kakao.com 的响应时间过长 原因&#xff1a;防火墙导致 解决:选择下载国内的镜像 详细过程如下&#xff1a; 每次下载都出现类似下图这样无法访问页面的界面 出现这个的原因大概…

火狐浏览器打开网页显示服务器响应时间过长,网站测试响应时间太长怎么办

有时候通过第三方工具测试服务器的响应时间会很长&#xff0c;而单独创建一个测试站点响应时间又很短。 如用户在http://seo.chinaz.com/ 这里测试的结果。 以下为一个测试出来响应时间较长的站点&#xff1a; 这种情况该怎么办呢&#xff0c;一般来说这种情况并不是网络原因&a…

阿里云服务器部署SpringBoot项目访问响应时间过长的解决

重在解决项目部署完成后的浏览器访问响应时间过长的问题&#xff0c;供SpringBoot项目运行在Centos7的linux系统参考。 安全组 想要在输入地址www.xxxx.top或者ip地址访问不加&#xff1a;[端口] 需要在阿里云的服务器控制台设置安全组&#xff1a; 1.首先点击你的控制台服务…

一次线上java应用响应时间过长问题的排查

最近接手一个老java应用&#xff0c;没多久接到响应时间太长的报警&#xff0c;整个排查过程还是挺有意思的&#xff0c;记录一下。 整个过程中&#xff0c;设计到cpu&#xff0c;内存&#xff0c;垃圾回收&#xff0c;引用&#xff0c;spring, 单例 等等知识&#xff0c;整个下…

阿里云服务器部署项目正常启动,但是访问项目时报响应时间过长

目录 1.问题描述 2.解决办法 1.问题描述 本人使用阿里云部署项目时&#xff0c;将jar包传到服务器中并成功启动后&#xff0c;访问项目时一直报响应时间过长 2.解决办法 这种情况可能是因为阿里云服务器中安全组策略的对应端口没有开放&#xff0c;修改一下就行了&#xff0…

asp.net MVC项目,localhost响应时间过长解决办法

1、vs打开很慢&#xff0c;浏览器如下&#xff1a; 2、那就很可能是IIS问题嘛&#xff0c;IIS重启了一下&#xff0c;还是不行&#xff0c;在地址栏输入localhost&#xff0c;如下图(本人win10系统)&#xff0c;明显IIS也没问题。 3、我们的项目没问题&#xff0c;IIS也没问题&…

解决Chrome 账户登录时,网页显示响应时间过长

解决Chrome 账户登录时&#xff0c;网页显示响应时间过长 chrome 想要开启同步功能&#xff0c;登录Chrome账户时网页显示 响应时间过长 通过此文章https://blog.csdn.net/m0_38020436/article/details/112859777解决了这个问题&#xff0c;于是顺手将过程记录下来。 一、下…

解决github.com 的响应时间过长

github.com 的响应时间过长 windows系统打开目录 C:\Windows\System32\drivers\etc 找到host文件&#xff0c;右键-属性&#xff0c;把只读取消勾选。 利用一下任一网站查询github.com的IP地址 站长之家 http://ip.tool.chinaz.com/github.com 便民查询网 https://ip.51240.co…

网站响应时间过长怎么回事 解决方法都有哪些

网站响应时间过长怎么回事?解决方法都有哪些?很多人在完成HTML5和CSS3部分的学习之后,都要独立完成网页制作项目实践,在这个过程中有部分同学发现网页打开很慢,即网站响应时间过长。针对这​个问题,千锋老师给大家分享几种比较好的解决方法。 网站响应时间是什么? 网站…