Oozie

Apache Oozie failed loading ShareLib

我的梦境 提交于 2019-11-29 11:11:13
i got the following oozie.log : org.apache.oozie.service.ServiceException: E0104: Could not fully initialize service [org.apache.oozie.service.ShareLibService], Not able to cache sharelib. An Admin needs to install the sharelib with oozie-setup.sh and issue the 'oozie admin' CLI command to update the sharelib i run the following command: oozie-setup.sh sharelib create -fs hdfs://localhost:54310 oozied.sh start hdfs dfs -ls /user/hduser/share/lib 15/02/24 18:05:03 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

Azkaban 简介

流过昼夜 提交于 2019-11-29 03:11:28
一、Azkaban 介绍 1.1 背景 一个完整的大数据分析系统,必然由很多任务单元 (如数据收集、数据清洗、数据存储、数据分析等) 组成,所有的任务单元及其之间的依赖关系组成了复杂的工作流。复杂的工作流管理涉及到很多问题: 如何定时调度某个任务? 如何在某个任务执行完成后再去执行另一个任务? 如何在任务失败时候发出预警? ...... 面对这些问题,工作流调度系统应运而生。Azkaban 就是其中之一。 1.2 功能 Azkaban 产生于 LinkedIn,并经过多年生产环境的检验,它具备以下功能: 兼容任何版本的 Hadoop 易于使用的 Web UI 可以使用简单的 Web 页面进行工作流上传 支持按项目进行独立管理 定时任务调度 模块化和可插入 身份验证和授权 跟踪用户操作 支持失败和成功的电子邮件提醒 SLA 警报和自动查杀失败任务 重试失败的任务 Azkaban 的设计理念是在保证功能实现的基础上兼顾易用性,其页面风格清晰明朗,下面是其 WEB UI 界面: 二、Azkaban 和 Oozie Azkaban 和 Oozie 都是目前使用最为广泛的工作流调度程序,其主要区别如下: 功能对比 两者均可以调度 Linux 命令、MapReduce、Spark、Pig、Java、Hive 等工作流任务; 两者均可以定时执行工作流任务。 工作流定义 Azkaban 使用

launching a spark program using oozie workflow

安稳与你 提交于 2019-11-29 02:29:28
I am working with a scala program using spark packages. Currently I run the program using the bash command from the gateway: /homes/spark/bin/spark-submit --master yarn-cluster --class "com.xxx.yyy.zzz" --driver-java-options "-Dyyy.num=5" a.jar arg1 arg2 I would like to start using oozie for running this job. I have a few setbacks: Where should I put the spark-submit executable? on the hfs? How do I define the spark action? where should the --driver-java-options appear? How should the oozie action look like? is it similar to the one appearing here ? If you have a new enough version of oozie

OOzie调度sqoop1 Action 从mysql导入数据到hive

空扰寡人 提交于 2019-11-29 00:54:12
: 1、安装好mysql、Hadoop、oozie、hive 2、上面安装的软件皆可正确执行 开始: 用oozie调度sqoop1 Action 需要准备三个基本文件,workflow.xml、job.properties、hive-site.xml(其实也可以不要,后面会说)文件 1、在HDFS创建一个oozie的工作流应用保存路径,我创建的是/user/oozieDemo/workflows/sq2hiveDemo,在此路径下再创建一个lib目录,如下图所示 2、将mysql的驱动程序上传到lib目录下 3、编写job.properties文件,文件内容如下: oozie.wf.application.path=hdfs://NODE3:8020/user/oozieDemo/workflows/sq2hiveDemo #Shell Script to run EXEC=sq2hive.sh jobTracker=NODE3:8032 nameNode=hdfs://NODE3:8020 queueName=default oozie.use.system.libpath=true oozie.libpath=/user/oozie/share/lib/lib_20150708191612 user.name=root 4、编写workflow.xml文件

sqoop1.4.6 to hbase1.2 in hue4.1躺坑总结

蓝咒 提交于 2019-11-29 00:54:00
一、sqoop1.4.6 to hbase1.2 in hue4.1 CM安装 cdh 5.15.x, 因想用简单的sqoop1所以parce装的sqoop1 client,经测试报:SQOOP_CONF_DIR找不到,mysql drive no find ,检查发现安装目录和classpath都有,依然如此,后找文档说是cdh只支持sqoop2,sqoop1需要手配置 oozie/libext并上传到hdfs下,链接https://www.cloudera.com/documentation/enterprise/latest/topics/cdh_oozie_sqoop_jdbc.html,翻译如下 : 在Oozie中使用Sqoop动作 Sqoop 1不附带第三方JDBC驱动程序。您必须单独下载它们并将它们保存到在/ var / lib中/ sqoop /Oozie服务器上的目录。有关更多信息,请参阅 使用命令行设置Apache Sqoop 。 建议 Cloudera建议您不要将Sqoop CLI命令与Oozie Shell Action一起使用。此类部署不可靠,并且在升级和配置更改期间容易中断。 要将数据导入Hive,请使用Sqoop Action和Hive2 Action的组合。 SQoop Action简单地将数据摄入HDFS。 Hive2

hue oozie再踩坑,workflow,coordinator终于都可以跑了

安稳与你 提交于 2019-11-29 00:53:31
前边总结 了些hue下sqoop1,oozie,hbase的一些坑,今日项目到期,一定要搞定oozie工作流和定时调度执行,以是skr skr skr .... 1.前边 的sqoop mysql 导入出的坑已都踩过了,后来发现除了cdh(5.15)没有自动配置好sqoop1之外也无关紧要,手动配置后,按装sharelib后在拷些不全的包(如 sqoop,hbase,mysql,oozie等),基本是也可以在hue里跑的(hue 用oozie跑sqoop ,python写的xml 转义bug不能带引号之类),开始一直找不到驱动,后边按网上OOZIE 下各lib libext libtools 和其它sqoop lib的目录下加了mysql驱动后依然不行,后来改了下hdfs 下的 core-site.xml 的代理用户后就好了: <property><name>hadoop.proxyuser.hue.hosts</name><value>*</value></property> <property><name>hadoop.proxyuser.hue.groups</name><value>*</value></property> <property><name>hadoop.proxyuser.oozie.hosts</name><value>*</value><

Getting E0902: Exception occured: [User: oozie is not allowed to impersonate oozie]

时间秒杀一切 提交于 2019-11-29 00:17:21
Hi i am new to Oozie and i am getting this error E0902: Exception occured: [User: pramod is not allowed to impersonate pramod] when i run the following command ./oozie job -oozie htt p://localhost:11000/oozie/ -config ~/Desktop/map-reduce /job.properties -run. My hadoop version is 1.0.3 and oozie version is 3.3.2 and running in a pseudo mode The following is the content of my core-site.xml <configuration> <property> <name>hadoop.tmp.dir</name> <value>/home/pramod/hadoop-${user.name}</value> </property> <property> <name>fs.default.name</name> <value>hdfs://localhost:54310</value> </property>

Why do my application level logs disappear when executed in oozie?

北城以北 提交于 2019-11-28 14:27:46
I'm using oozie in CDH5 environment. I'm also using the oozie web-console. I'm not able to see any of the logs from my application. I can see hadoop logs, spark logs, etc; but I see no application specific logs. In my application I've included src/main/resources/log4j.properties # Root logger option log4j.rootLogger=INFO, stdout # Direct log messages to stdout log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.Target=System.out log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appender.stdout.layout.ConversionPattern=%d{yyyy-MM-dd HH:mm:ss} %-5p %c{1}:

Cloudera Manager卸载笔记

吃可爱长大的小学妹 提交于 2019-11-28 07:06:57
1、通过管理平台分别停止组件服务和Cloudera Management Service 2、通过管理平台注销并移除Parcles (在控制台注销并移除,无论是安装的Parcles还是未安装的Parcles) 3、停止后台服务   sudo service cloudera-scm-agent stop sudo service cloudera-scm-server stop   sudo service cloudera-scm-server-db stop sudo service mysqld stop 4、卸载Cloudera Manager Server 执行命令:sudo /usr/share/cmf/uninstall-cloudera-manager.sh 5、清理配置和缓存信息 在所有agent上执行:sudo umount -v /var/run/cloudera-scm-agent/process 在所有主机上执行:sudo rm -rf /usr/share/cmf; sudo rm -rf /var/lib/cloudera*;            sudo rm -rf /var/cache/yum/x86_64/6/cloudera*;            sudo rm -rf /var/log/cloudera*;           

Oozie Workflow failed due to error JA017

…衆ロ難τιáo~ 提交于 2019-11-28 05:37:02
问题 I am using the version of Apache Oozie 4.3.0 along with Hadoop 2.7.3 I have developed a very simple Oozie workflow, which simply has a sqoop action to export system events to a MySQL table. <workflow-app name="WorkflowWithSqoopAction" xmlns="uri:oozie:workflow:0.1"> <start to="sqoopAction"/> <action name="sqoopAction"> <sqoop xmlns="uri:oozie:sqoop-action:0.2"> <job-tracker>${jobTracker}</job-tracker> <name-node>${nameNode}</name-node> <command>export --connect jdbc:mysql://localhost/airawat