java oozie任务状态_Oozie工作流分析

article/2025/9/16 20:26:50

我们在实际的生成操作中经常需要将一些任务在晚上开启进行定时执行,或者多个作业,例如hive,mapreduce,shell等任务的组合调用。

我们可以使用linux的contab + spervisor + inotify-tool进行任务的配值,但是操作起来麻烦,而且没有可视化的参数返回界面。也不能保证任务的可靠性。

在hadoop技术栈中我们可以使用oozie做为任务的调度与定时触发的工具。可以方便的帮助我们进行管理和调度我们常见的9中作业调度。

oozie基本架构

是一个工作流调度系统工作流的调度是DAG(有向无环图)-Directed Acyclical Graphs

Coordinator job可以通过时间和数据集的可用性触发

集成了Hadoop生态系统的其它任务,如mr,pig,hive,sqoop,distcp

可扩展:一个Oozie就是一个mr程序,但是仅仅是map,没有reduce

可靠性:任务失败后的重试

AAffA0nNPuCLAAAAAElFTkSuQmCC

oozie.png

workflow,coordinator,bundle

Workflow:工作流,由我们需要处理的每个工作组成,进行需求的流式处理。

Coordinator:协调器,可以理解为工作流的协调器,可以将多个工作流协调成一个工作流来进行处理。

Bundle:捆,束。将一堆的coordinator进行汇总处理。

简单来说,workflow是对要进行的顺序化工作的抽象,coordinator是对要进行的顺序化的workflow的抽象,bundle是对一堆coordiantor的抽象。层级关系层层包裹。

Oozie的作业有三部分组成,分别是job.properties,workflow.xml,lib文件夹。

Job.properties

配值需要的参数

nameNode hdfs地址

jobTracker jobTracker(ResourceManager)地址

queueName Oozie队列(默认填写default)

examplesRoot 全局目录(默认填写examples)

oozie.usr.system.libpath 是否加载用户lib目录(true/false)

oozie.libpath 用户lib库所在的位置

oozie.wf.application.path

Oozie流程所在hdfs地址(workflow.xml所在的地址)

user.name 当前用户

Coordinator:oozie.coord.application.path

Coordinator.xml地址(没有可以不写)

Bundle:oozie.bundle.application.path

Bundle.xml地址(没有可以不写)nameNode=hdfs://cm1:8020jobTracker=cm1:8032queueName=defaultexamplesRoot=examples

oozie.wf.application.path=${nameNode}/user/workflow/oozie/shell

workflow.xml  2.        3.

4.        5.            6.  ${fs:exists(concat(concat("/xxx/output/xxxList/",

7.       task_id),"/_SUCCESS"))}  8.    9.            10.       11.

12.       13.           14.             ${fs:exists(concat(concat(“/xxx/output/", task_id),"/_SUCCESS"))}  15.               16.           17.       18.

19.       20.           21.             ${jobTracker}  22.             ${namenode}  23.               24.                   25.                     mapreduce.job.queuename  26.                     ${queueName}  27.                   28.               29.            com.xxx.Main       30.          31.        32.        33.     34.     35.         Map/Reduce failed.error message[${wf:errorMessage(wf:lastErrorNode())}]36.     37.     38. 

Oozie的节点分成两种,流程控制节点和动作节点。所谓的节点实际就是一组标签。两种节点分别如下:

流程控制节点——定义workflow的开始——定义workflow的结束——实现switch功能标签连用——调用子workflow——程序出错后跳转到这个节点执行相关操作——并发执行workflow——并发执行结束(与fork一起使用)

动作节点——表示运行的是shell操作——表示运行的java程序——表示是对hdfs进行操作——表示进行的是MR操作——表示进程的是hive操作——表示进行的是sqoop的相关操作

文件需要被放在HDFS上才能被oozie调度,如果在启动需要调动MR任务,jar包同样需要在hdfs上。

lib文件夹

在workflow工作流定义的同级目录下,需要有一个lib目录,在lib目录中存在java节点MapReduce使用的jar包。需要注意的是,oozie并不是使用指定jar包的名称来启动任务的,而是通过制定主类来启动任务的。在lib包中绝对不能存在某个jar包的不同版本,不能够出现多个相同主类。

oozie cli

l  启动任务

oozie job -oozie oozie_url -config job.properties_address-run

l  停止任务oozie job -oozie oozie_url -kill jobId -oozie-oozi-W

l  提交任务oozie job -oozie oozie_url -config job.properties_address -submit

l  开始任务oozie job -oozie oozie_url -config job.properties_address -startJobId -oozie-oozi-W

l  查看任务执行情况oozie job -oozieoozie_url -config job.properties_address -info jobId -oozie-oozi-W

说明: 所有的命令都是以oozie job -oozie oozie_url 开头的-config 制定job.properties文件夹的位置,-run 文件启动后会返回一个唯一的jobId,供之后使用。

Oozie Coordinator job 定时任务

修改时区

.修改 core-site.xml

oozie.processing.timezone

GMT+0800

修改 $OOZIE_HOME/oozie-server/webapps/oozie/oozie-console.jsfunction getTimeZone() {

Ext.state.Manager.setProvider(new Ext.state.CookieProvider());return Ext.state.Manager.get("TimezoneId","GMT+0800");

}

1.编辑job.propertiesnameNode=hdfs://cen-ubuntu.cenzhongman.com:8020

jobTracker=localhost:8032

queueName=default

oozieAppsRoot=oozie-apps

oozie.coord.application.path=${nameNode}/user/cen/${oozieAppsRoot}/cron-schedule

start=2017-07-30T14:40+0800

end=2017-07-30T14:59+0800

workflowAppUri=${nameNode}/user/cen/${oozieAppsRoot}/cron-schedule

2.编辑 workflow.xml 文件

3.编辑coordinator.xml 文件

xmlns="uri:oozie:coordinator:0.4">

${workflowAppUri}

jobTracker

${jobTracker}

nameNode

${nameNode}

queueName

${queueName}

4.上传文件至 HDFS

5.执行任务export OOZIE_URL=http://cen-ubuntu:11000/oozie/bin/oozie job --config oozie-apps/cron-schedule/job.properties -run

oozie JAVA API

直接将oozie下的oozie-client.jar包拷贝带eclipse中,就可以使用java进行启动oozie任务了,这也方便了项目的集成。public class UserProxy {

public static void main(String[] args) throws Exception {

HadoopLogin login = new HadoopLogin();        final Configuration conf = login.loginHdfs("ibdc","C:/Program Files (x86)/Java/newhadoop_oozieweb_conf/ibdc.keytab");

UserGroupInformation.getLoginUser().doAs(new PrivilegedExceptionAction(){

public Void run() throws Exception {

submitJob();                return null;

}

});

}

private static void submitJob() throws OozieClientException, InterruptedException    {         // get a OozieClient for local Oozie

XOozieClient  wc =new AuthOozieClient("http://hadoop7:11000/oozie/");//       OozieClient wc = new OozieClient("http://hadoop7:11000/oozie/v1/job/");//       AuthOozieClient wc = new AuthOozieClient("http://hadoop7:11000/oozie/", AuthOozieClient.AuthType.KERBEROS.toString());

try {

System.out.println(UserGroupInformation.getLoginUser());

} catch (IOException e) {

e.printStackTrace();

}         // create a workflow job configuration and set the workflow application path

Properties conf = wc.createConfiguration();

conf.setProperty(OozieClient.APP_PATH, "hdfs://nameservice1/user/oozieweb/oozie-app/oozieweb/workflow/antest2");

// setting workflow parameters

conf.setProperty("jobTracker", "hadoop7:8032");

conf.setProperty("nameNode", "hdfs://nameservice1");//       conf.setProperty("examplesRoot", EXAMPLE_DIR);

conf.setProperty("queueName", "cdrapp");//       conf.setProperty("outputDir", OUTPUT_DIR);//       conf.setProperty("oozie.wf.rerun.failnodes", "true");

conf.setProperty("hdfs.keytab.file", "C:/Program Files (x86)/Java/newhadoop_oozieweb_conf/oozieweb.keytab");

conf.setProperty("hdfs.kerberos.principal", "oozieweb");

conf.setProperty("mapred.mapper.new-api", "true");

conf.setProperty("mapred.reducer.new-api", "true");

conf.setProperty("oozie.use.system.libpath", "true");

// submit and start the workflow job

String jobId = wc.run(conf);

System.out.println("Workflow job submitted");

// wait until the workflow job finishes printing the status every 10 seconds

while (wc.getJobInfo(jobId).getStatus() == WorkflowJob.Status.RUNNING) {

System.out.println("Workflow job running ...");

Thread.sleep(10 * 1000);

}

// print the final status of the workflow job

System.out.println("Workflow job completed ...");

System.out.println(wc.getJobInfo(jobId));

}

}

oozie和azkaban 区别

工作流定义:Oozie是通过xml定义的而Azkaban为properties来定义。

部署过程:  Oozie的部署太虐心了。有点难。同时它是从Yarn上拉任务日志。

Azkaban中如果有任务出现失败,只要进程有效执行,那么任务就算执行成功,这是BUG,但是Oozie能有效的检测任务的成功与失败。

操作工作流:Azkaban使用Web操作。Oozie支持Web,RestApi,Java API操作。

权限控制:   Oozie基本无权限控制,Azkaban有较完善的权限控制,入用户对工作流读写执行操作。

Oozie的action主要运行在hadoop中而Azkaban的actions运行在Azkaban的服务器中。

记录workflow的状态:Azkaban将正在执行的workflow状态保存在内存中,Oozie将其保存在Mysql中。

出现失败的情况:Azkaban会丢失所有的工作流,但是Oozie可以在继续失败的工作流运行。

作者:张晓天a

链接:https://www.jianshu.com/p/b0a82baa19a7


http://chatgpt.dhexx.cn/article/1EcAvJga.shtml

相关文章

Oozie--安装部署

Oozie的部署 1、上传解压2、配置Hadoop代理用户3、重启Hadoop集群4、解压lib包5、引入extjs6、修改oozie配置文件7、创建oozie元数据库8、初始化oozie为什么要将oozie的这些jar包放到hdfs上? 9、生成web项目10、配置环境变量11、Oozie的启动与关闭12、修改界面默认时区 参考&a…

【Oozie】CDH集群的oozie手把手快速入门

背景 在今天中午,本人快乐的干饭的时候,领导打电话过来询问oozie是个什么样的东西,能不能有个用例?在本人的理解里面,oozie主要是个调度工具。所以本篇为CDH集群的oozie的快速入门教程 环境准备 CDH集群一套CDH集群…

Oozie5.2.1源码编译及安装部署

Oozie5.2.1源码编译 一、准备工作二、开始编译三、安装部署四、运行测试五、总结六、编译后得版本 说明: 官网下载最新版本:https://oozie.apache.org/依赖环境:CentOS7JDK1.8maven-3.6.3pig-0.17.0参考官网 一、准备工作 下载maven、安装、修改setting…

关于oozie

一、定义 1.oozie是一个管理apache hadoop作业的工作调度系统 2.oozie的workflow jobs是由actions组成的有向无环图(DAG) 3.oozie的coordinate jobs是由时间(频率)和数据可用性的重复的workflow jobs . 4.oozie 与hadoop生态圈的其他部分及车鞥在一起,支持多种类型…

任务调度之Oozie详解

利用shell脚本通过crontab进行定时执行,这样实现的话比较简单,但是随着多个job复杂度的提升,无论是协调工作还是任务监控都变得麻烦,我们选择使用oozie来对工作流进行调度监控。 1. Oozie的特点 Oozie是管理hadoop作业的调度系统…

Oozie简介

在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起,这样才能够达到目的。[1]在Hadoop生态圈中,有一种相对比较新的组件叫做Oozie[2],它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中,从而完成更大型的任务…

Oozie

文章目录 **一、** **Apache Oozie****1.** **Oozie概述****2.** **Oozie的架构****3.** **Oozie**基本原理**3.1.** **流程节点** **4.** **Oozie工作流类型****4.1.** **Work**Flow**4.2.** *…

工作流调度工具--Oozie

一、背景 一个完整的数据分析系统通常是由大量的任务单元组成,Shell脚本、Java程序、MapReduce程序、Hive脚本等等,各个任务单元之间存在时间先后及前后依赖关系。 为了很好的组织这样的复杂执行计划,需要一个工作流调度系统来调用执行。 简…

Oozie基础入门

前言: 因为工作需要用到oozie,但是网上的资料越看越迷茫,经过很大的努力,终于折腾清楚了,这里,做一个总结,帮助后来者更好地进行入门,当然,粗鄙之言,难免疏漏…

大数据调度工具oozie详细介绍

背景: 之前项目中的sqoop等离线数据迁移job都是利用shell脚本通过crontab进行定时执行,这样实现的话比较简单,但是随着多个job复杂度的提升,无论是协调工作还是任务监控都变得麻烦,我们选择使用oozie来对工作流进行调…

oozie详解

1、什么是Oozie Oozie是一种java web应用程序,它运行在java servlet容器中,并使用数据库来存储一下内容: ①工作流定义 ②当前运行的工作流实例,包括实例的状态和变量 Oozie工作流失放置在控制依赖DAG(有向无环图)中的一组动作&am…

大数据Hadoop之——任务调度器Oozie(Oozie环境部署)

文章目录 一、概述二、Oozie架构三、Oozie环境部署(Oozie与CDH集成)1)添加服务2)将 Oozie 服务添加到 CDH3)自定义角色分配4)数据库设置5)审核更改6)开始自动安装并自启 四、CDH的 H…

Java并发编程(一):多线程与并发原理回顾

今天来聊一聊经典的Java技术,并发编程。并发是程序的灵魂,一个优秀的Java程序一定会支持高并发,并且,并发编程也是面试环节中经常会问到的一个问题,那么今天我们以一道经典的Java面试题回顾一下Java的并发编程。废话不…

java并发编程的艺术和并发编程这一篇就够了

java并发编程的艺术(精华提炼) 通常我们在使用编发编程时,主要目的是为了程序能够更快的处理,但是并不是说更多的线程就一定能够让程序变得足够快,有时候太多的线程反而消耗了更多的资源,反而让程序执行得更缓慢 一.CPU的上下文切换 就算是单核CPU是能够处理多线程任务的,它只…

JAVA并发编程总结

一、基础知识 1.1 线程安全 当多个线程访问某个类时,这个类始终都能表现出正确的行为,那么就称这个类是线程安全的。 CAP理论 原子性 我们把一个或者多个操作在CPU执行的过程中不被中断的特性称为原子性. 可见性 当一个线程修改了对象状态后&#xf…

Java并发:整理自《Java并发编程实战》和《Java并发编程的艺术》

声明:Java并发的内容是自己阅读《Java并发编程实战》和《Java并发编程的艺术》整理来的。 图文并茂请戳 思维导图下载请戳 目录 (1)基础概念 (2)线程 (3)锁 (4)同步器 (5)并发容器和框架 (6)Java并发工具类 (7)原子操作类 (8)Executor框架(执行机制) (9)…

Java并发编程的艺术-并发编程基础

Java从诞生开始就明智地选择了内置对多线程的支持,这使得Java语言相比同一时期的其他语言具有明显的优势。线程作为操作系统调度的最小单元,多个线程能够同时执行,这将显著提升程序性能,在多核环境中表现得更加明显。但是&#xf…

java并发编程(下篇)

java里的阻塞队列 ArrayBlockingQueue 数组结构组成的有界阻塞队列 LinkedBlockingQeque 链表结构的无界阻塞队列 PriorityBlockingQueue 支持优先级排序的无界阻塞队列 DelayQueue 使用优先级队列实现的无界阻塞队列 LinkedBlockingDeque 链表结构组成的双向队列 并发工具…

Java并发编程之美——第一章 Java并发编程基础

文章目录 Time 2021-12-26——Hireek什么是线程线程的等待和通知等待线程终止的join方法让线程睡眠的sleep方法让出CPU执行权的yield方法线程中断demo 线程上下文切换线程死锁什么是死锁如何避免死锁 用户线程与守护线程ThreadLocalintroduction,下文只阐述重要的se…

Java并发编程入门这一篇就够了(文章很长,但很好哦)

Java并发编程入门这一篇就够了 一、进程与线程1. 进程2. 线程3. 二者对比 二、并行与并发三、Java线程1. 创建和运行线程2. 线程运行原理3. 常见方法4. 常用方法详解及异同区分5. 两阶段终止模式(使得线程优雅的退出)6.主线程与守护线程7. 线程五种状态8…