Azkaban

Hive数据仓库实战

霸气de小男生 提交于 2020-12-07 11:34:13
文章目录 前言 一、Hive原理和功能介绍 二、Hive安装部署 三、Hive SQL操作 UDF函数 Hive 数据仓库模型设计 总结 前言 Hive作为大数据平台Hadoop之上的主流应用,公司一般都是用它作为公司的数据仓库,分布式机器学习的训练数据和数据处理也经常用它来处理,下面介绍下它的常用功能。 一、Hive原理和功能介绍 Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能, Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。 Hive可以将SQL语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。同时,这个Hive也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和reducer无法完成的复杂的分析工作。比如UDF函数。 简单来讲,Hive从表面看来

xxl-job总体还可以,轻量级,应能满足需求,有几个关键的能力

▼魔方 西西 提交于 2020-10-14 22:57:51
xxl-job总体还可以,轻量级,应能满足需求,有几个关键的能力 1、内部多线程,多任务可在单个执行器上并发执行 2、支持简单的任务依赖关系,工作流 3、支持多语言Java、Shell、Python等 4、支持单实例调度(可以解决业务中台多实例部署的分布式锁问题)、分片调度 5、有界面,支持多租户隔离,每个租户管理自己的执行器,互相不影响 6、问题:普通用户没有权限管理自己的执行器,做成多租户模式需要提前向admin申请分配执行器名称 其他的工作流调度系统,Argo、Airflow、ooize、AZKaban、Luigi、elastic-job、quartz等 其中 Argo是K8S生态的工作流调度新秀,功能非常完善,git活跃度非常高 来源: oschina 链接: https://my.oschina.net/u/4332858/blog/4279865

项目介绍

烂漫一生 提交于 2020-08-19 17:33:34
项目介绍 项目整体介绍 1.项目模型搭建 此项目为数据仓库项目,主要是做离线计算的 项目模型:项目分为流量域和业务域两个主题域,为了方便管理这么多数据,又将每个主题域划分为五个层级,分别是ODS层,DWD层,DWS层,ADS层及DIM层,分层的原因为解耦,复用,便于管理,下面我分别介绍一下项目中他们的应用场景 1.1 ODS层 ODS层:源数据层,分为流量域ODS层及业务域ODS层 流量域ODS层:数据来源于日志服务器(用户行为日志数据(APP端和WEB端)),日志服务器将数据生产到Kafka,然后使用Flume日志采集工具消费Kafka中的数据并将数据采集到Hdfs集群,在Hive中将数据加载到ODS层的Hive表中,这样就完成了原始数据的采集 业务域ODS层:数据来源于业务系统中的关系型数据库mysql,采用sqoop抽取工具将数据从mysql导入到Hdfs中,再在Hive中将数据加载到ODS层相应的表中 1.2 DWD层 DWD层:数据明细层,同样分为流量域DWD层及业务域DWD层 流量域DWD层:将数据在ODS层进行ETL操作(先对ODS层数据进行清洗,过滤(过滤掉缺失重要字段信息,重要字段信息为空或者json格式不正确的数据),降维等操作),再抽取到DWD层 业务域DWD层:抽取ODS层每天的增量数据,与DWD层每天的全量数据进行合并

WeBank/Schedulis

瘦欲@ 提交于 2020-08-09 15:55:25
简介 Schedulis 是一个基于 LinkedIn 的开源项目 Azkaban 开发的工作流任务调度系统。该调度系统具备高性能,高可用(去中心化多调度中心和多执行器)和多租户资源隔离等金融级特性;现已被集成到数据应用开发门户 DataSphere Studio 。 Schedulis 支持常规的 Command Shell 和 Linkis(HadoopMR、 Hive、Spark、Sqoop、 Python)大数据任务;同时还支持特色的数据检查和工作流之间的依赖任务;支持完善的告警和工作流执行策略;提供多种类型的参数设置,动态全局变量和简单易用的 UI。 与 DataSphere Studio 和 Linkis 的对接 DataSphere Studio 可以将编辑好的工作流一键发布到 Schedulis 进行调度,而 Schedulis 也实现了 Linkis 插件,用于向 Linkis 提交任务,这样使得 Schedulis 与 DataSphere Studio 和 Linkis 能够无缝衔接,从而实现数据应用开发全流程的连贯顺滑用户体验。 与业界现有调度系统的比较 下面将 Schedulis 和业界现有的调度系统做了个对比,包括:Azkaban, Dolphin, Airflow 和 Xxl-job 模块 描述 Schedulis Azkaban Dolphin

玩转热门框架 用企业级思维 开发通用够硬的大数据平台

蓝咒 提交于 2020-08-08 05:58:44
课程分析了主流企业的大数据架构、带领大家构建自己的通用型大数据平台。从企业需求入手,构建集数据采集、数据存储、数据处理与分析、BI应用、权限管理、系统监控等于一体的大数据应用平台,内容涵盖各类开源组件基础知识、优化技巧、应用场景和常见面试问题等,帮助我们快速掌握大数据平台开发技术,迅速建立大数据技术的宏观的认识。最后实现了可视化展示。非常适合想要通揽大数据全貌、了解企业级开发的你 第1章 课程导学与学习指南 本章中将向大家介绍课程能学到什么、解决什么实际问题、项目成果展示,课程整体安排以及如何学习更高效。 第2章 认识企业中的大数据平台 为什么要有大数据平台?大数据平台究竟是为了解决什么问题产生的?如何判断一个大数据平台的好坏?在设计一个数据平台时,需要注意哪些,有什么步骤。各大企业现有的解决方案有哪些,常见的技术栈有哪些,我们自己设计的这个通用的大数据平台是什么结构。... 第3章 大数据平台 —— 数据仓库之离线&实时 你真的理解数据仓库是什么吗?数据仓库如何进行分层,为什么要分层呢?分层一定好吗?带你理解数据仓库,逐步掌握离线数仓工具Hive。对比离线数仓和实时数仓,了解实时数仓常见架构。 第4章 大数据平台——数据仓库之权限管理 解决三大问题:数仓安全问题,对比常见权限认证框架,使用Ranger开发数仓权限模块;数据来源问题,对常用数据采集工具进行介绍

Azkaban日志中文乱码问题解决

主宰稳场 提交于 2020-04-28 22:31:00
  Azkaban作为LinkedIn开源的任务流式管理工具,在工作中很大程度上被用到。但是,由于非国人开发,对中文的支持性很不好。大多数情况下,会出现几种乱码现象: - 执行内置脚本生成log乱码 - 直接command执行中文乱码 - 中文包名乱码等,其中对日常使用影响最大的就是日志乱码问题。不管是调度Hive、DataX还是Java程序,只要日志抛出来中文,中文都是乱码显示,将日志文件拷贝出来查看文件格式为GB2312,但是Linux系统编码和Azkaban日志编码明明设置的都是UTF-8,很疑惑,摸索许久,决定从源码入手开始层层解惑。   文中大部分内容从源码一步步进入解析,有经验的朋友可以跳至文末见具体解决方法。   根据页面获取日志的接口可以知道方法在 azkaban-web-server项目下package azkaban.webapp.servlet 下的方法handleAJAXAction,如下图 请求参数是fetchExecJobLogs    对应的处理方法为 ajaxFetchJobLogs(req, resp, ret, session.getUser(), exFlow)和ajaxFetchExecFlowLogs(req, resp, ret, session.getUser(), exFlow)   进入该方法后可以发现返回的data为经过

五分钟学后端技术:一篇文章教你读懂大数据技术栈!

青春壹個敷衍的年華 提交于 2020-04-06 08:22:52
作者:网易云 链接: https://www.zhihu.com/question/27696290/answer/381993207 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 什么是大数据 近几年,市场上出现了很多和大数据相关的岗位,不管是数据分析、数据挖掘,或者是数据研发,都是围绕着大数据来做事情,那么,到底什么是大数据,就是我们每一个要学习大数据技术的朋友要了解的事情了,根据百度百科的介绍 大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 [1] 中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。 [2] 思维导图 大数据方面核心技术有哪些? 大数据的概念比较抽象,而大数据技术栈的庞大程度将让你叹为观止。 大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算

CentOS中安装Azkaban 2.5

陌路散爱 提交于 2020-04-01 01:02:17
必备软件 yum install git -y 单机安装步骤 git clone https://github.com/azkaban/azkaban.git cd azkaban; ./gradlew build installDist cd azkaban-solo-server/build/install/azkaban-solo-server; bin/start-solo.sh # open http://localhost:8081/ bin/shutdown-solo.sh # 当然,这个也需要你的网络环境比较好,如果是公司网络限制比较多的话,可能出现无法编译的情况,比如无法访问gradle的plugin站点等。 多执行器模式安装 文件下载 方法1:下载azkaban代码,编译。 git clone https://github.com/azkaban/azkaban.git or git clone https://gitee.com/mirrors/azkaban.git cd azkaban; ./gradlew build installDist cd azkaban-db; ../gradlew build installDist # 当然,这个也需要你的网络环境比较好,如果是公司网络限制比较多的话,可能出现无法编译的情况

Hadoop - Azkaban 作业调度

杀马特。学长 韩版系。学妹 提交于 2020-03-30 04:50:46
1.概述   在调度 Hadoop 的相关作业时,有以下几种方式: 基于 Linux 系统级别的 Crontab。 Java 应用级别的 Quartz。 第三方的调度系统。 自行开发 Hadoop 应用调度系统。   对于前两种,使用 Crontab 和 Quartz 是基本可以满足业务需求,但有其弊端。在 Job 数量庞大的情况下,Crontab 脚本的编写,变得异常复杂。其调度的过程也不能透明化,让管理变得困难。Quartz 虽然不用编写脚本,实现对应的调度 API 即可,然其调度过程不透明,不涵盖 Job 运行详情。需自行开发其功能。   因而,第三方的调度系统便应运而生了。在《 Hadoop - 任务调度系统比较 》一文中,介绍第三方调度系统之间的差异。这里笔者就不多赘述了。本篇博文,笔者给大家介绍 Azkaban 的相关使用心得,以及在使用中遇到的种种问题和解决思路。 2.内容   Azkaban 托管在 Github 上,属于开源产品。它由以下几部分组成: Web Server Executor Server MySQL Plugins(HDFS,JobType,HadoopSecurityManager,JobSummary,PigVisualizer,Reportal)   其各个模块的功能,在《 Hadoop - 任务调度系统比较 》中有对应的介绍

azkaban编译以及安装(调度系统)

余生长醉 提交于 2020-03-23 11:03:36
编译源码 下载azkaban源码 git clone https://github.com/azkaban/azkaban.git jdk要求是1.8以上版本 export JAVA_HOME=/home/work/app/presto-admin/package/jdk1.8.0_74 export PATH=$JAVA_HOME/bin:$PATH 编译 # Build Azkaban ./gradlew build # Clean the build ./gradlew clean # Build and install distributions ./gradlew installDist # Run tests ./gradlew test # Build without running tests ./gradlew build -x tes 安装 安装包路径 ls azkaban/azkaban-solo-server/build/distributions azkaban-solo-server-3.33.0-25-g3318803.tar.gz azkaban-solo-server-3.33.0-25-g3318803.zip 解压 tar -zxvf azkaban-solo-server-3.33.0-25-g3318803.tar.gz 采用默认数据库启动