跟我一起学Oozie之――入门

匿名 (未验证) 提交于 2019-12-02 23:34:01

Oozie概要:

Oozie是用于 Hadoop 平台的开源的工作流调度引擎
管理Hadoop作业
web应用程序,由Oozie clientOozie Server两个组件构成。
Oozie Server运行于Java Servlet容器(Tomcat)中的web程序。

Oozie的工作流必须是一个有向无环图,实际上Oozie就相当于Hadoop的一个客户端,当用户需要执行多个关联的MR任务时,只需要将MR执行顺序写入workflow.xml,然后使用Oozie提交本次任务,Oozie会托管此任务流。

 <workflow-app xmlns="uri:oozie:workflow:0.3" name="shell-wf"> <start to="shell-node"/> <action name="shell-node"> <shell xmlns="uri:oozie:shell-action:0.1"> <job-tracker>${jobTracker}</job-tracker> <name-node>${nameNode}</name-node> <configuration> <property> <name>mapred.job.queue.name</name> <value>${queueName}</value> </property> </configuration> <exec>echo</exec> <argument>hi shell in oozie</argument> </shell> <ok to="end"/> <error to="fail"/> </action> <kill name="fail"> <message>Map/Reduce failed, error message[${wf:errorMessage(wf:lastErrorNode())}]</message> </kill> <end name="end"/> </workflow-app>

现实业务中处理数据时不可能只包含一个MR操作,一般都是多个MR,并且中间还可能包含多个Java或HDFS,甚至是shell的操作,利用Oozie可以完成这些任务。

实际上Oozie不是仅用来配置多个MR工作流的,它可以是各种程序夹杂在一起的工作流,比如执行一个MR1后,接着执行一个java脚本,再执行一个shell脚本,接着是Hive脚本,然后又是Pig脚本,最后又执行了一个MR2,使用Oozie可以轻松完成这种多样的工作流。使用Oozie时,若前一个任务执行失败,后一个任务将不会被调度

Oozie 是什么?

它由两部分组成:

  • 工作流引擎:一个工作流引擎的职责是存储和运行工作流程,由 Hadoop 作业组成:MapReduce, Pig, Hive.

  • 协调器引擎:它运行基于预定义的时间表和数据的可用性工作流程作业。

Oozie可扩展性和可管理及时执行成千上万的工作流程(每个由几十个作业)的Hadoop集群。

Oozie 也非常灵活。人们可以很容易启动,停止,暂停和重新运行作业。Oozie 可以很容易地重新运行失败的工作流。可以很容易重做因宕机或故障错过或失败的作业。甚至有可能跳过一个特定故障节点。

为什么要使用 Oozie ?

使用Oozie的主要目的是为了管理不同类型的作业在Hadoop系统中处理。

作业之间的依赖关系是由有向无环图的形式指定。Oozie 的消费信息以及在工作流中指定负责其执行的顺序正确。这样,用户同时管理保存整个工作流程。此外 Oozie 有指定执行特定工作频率规定。

Oozie的特点

  • Oozie 客户端 API 以及命令行界面可以用来启动,控制和监视Java应用程序作业
  • 使用其Web服务的API可以从任何位置控制作业
  • Oozie有规定执行这些计划定期来运行作业
  • Oozie 有规定作业完成后可发送电子邮件通知

Oozie 如何工作?

Oozie 运行作为集群服务,客户端提交的工作流定义:立即或以后处理。

Oozie 工作流由动作节点和控制流的节点组成。

一个操作节点代表一个工作流任务,例如,移动文件到HDFS,运行 MapReduce,Pig 或 Hive 作业,使用 Sqoop 导入数据或 运行Java 编写程序的 shell 脚本。

一个控制流节点通过允许像条件逻辑结构,不同的分支可以根据较早动作节点的结果,随后执行动作工作流程。

开始节点,终端节点和错误节点属于这一类节点。

在执行工作流的结束, HTTP 回调用于通过 Oozie 更新客户端与工作流状态。入门或出口,从动作节点还可能会触发回调。

工作流程图示例

Oozie 常用命令文章跳转

Hue官方文档:http://gethue.com/hadoop-tutorials-ii-2-execute-hive-queries-and/

Oozie官方文档:http://oozie.apache.org/docs/5.0.0/index.html

Cloudera:https://community.cloudera.com/t5/Batch-Processing-and-Workflow/Oozie-Connection-refused/td-p/32469

原文链接:

https://www.yiibai.com/hadoop/oozie-in-5-minutes.html

https://www.cnblogs.com/zlslch/p/6117672.html

文章来源: https://blog.csdn.net/SunWuKong_Hadoop/article/details/90289119
标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!