Hive

Saas 应用12个架构规范

孤人 提交于 2020-08-19 03:26:52
引言 如今,软件通常会作为一种服务来交付,它们被称为网络应用程序,或软件即服务(SaaS)。12-Factor 为构建如下的 SaaS 应用提供了方法论: 使用 标准化 流程自动配置,从而使新的开发者花费最少的学习成本加入这个项目。 和操作系统之间尽可能的 划清界限 ,在各个系统中提供 最大的可移植性 。 适合 部署 在现代的 云计算平台 ,从而在服务器和系统管理方面节省资源。 将开发环境和生产环境的 差异降至最低 ,并使用 持续交付 实施敏捷开发。 可以在工具、架构和开发流程不发生明显变化的前提下实现 扩展 。 这套理论适用于任意语言和后端服务(数据库、消息队列、缓存等)开发的应用程序。 特别声明 本文转自国外一篇文章,由Adam Wiggins所著,原文地址: https://12factor.net/ 在此文基础上增加个人的理解以及部分图解。 统一源代码管理系统 一份基准代码(Codebase),多份部署(depl o y) 在类似 SVN 这样的集中式版本控制系统中, 基准代码 就是指控制系统中的这一份代码库;而在 Git 那样的分布式版本控制系统中, 基准代码 则是指最上游的那份代码库。 基准代码和应用之间总是保持一一对应的关系: 一旦有多个基准代码,就不能称为一个应用,而是一个分布式系统。分布式系统中的每一个组件都是一个应用,每一个应用可以分别使用 12-Factor

环境篇:Atlas2.0.0兼容CDH6.2.0部署

萝らか妹 提交于 2020-08-19 03:17:06
环境篇:Atlas2.0.0兼容CDH6.2.0部署 Atlas 是什么? Atlas是一组可扩展和可扩展的核心基础治理服务,使企业能够有效地满足Hadoop中的合规性要求,并允许与整个企业数据生态系统集成。 Apache Atlas为组织提供了开放的元数据管理和治理功能,以建立其数据资产的目录,对这些资产进行分类和治理,并为数据科学家,分析师和数据治理团队提供围绕这些数据资产的协作功能。 如果没有Atlas 大数据表依赖问题不好解决,元数据管理需要自行开发,如:hive血缘依赖图 对于表依赖问题,没有一个可以查询的工具,不方便错误定位,即业务sql开发 官网: http://atlas.apache.org 表与表之间的血缘依赖 字段与字段之间的血缘依赖 1 Atlas 架构原理 2 Atlas 安装及使用 安装需要组件,HDFS、Yarn、Zookeeper、Kafka、Hbase、Solr、Hive,Python2.7环境 需要Maven3.5.0以上,jdk_151以上,python2.7。 2.1 下载源码包2.0.0,IDEA打开 2.2 修改相关版本与CDH版本对应 <hadoop.version>3.0.0</hadoop.version> <hbase.version>2.1.0</hbase.version> <kafka.version>2.1.0<

数据工程师必备的8项技能,不要只知道Python!

一世执手 提交于 2020-08-18 08:41:12
原作 :Mohammed M Jubapu 译者 :机器学习算法与Python实战(公众号ID:tjxj666) 英文 : https://www.linkedin.com/pulse/skills-build-data-engineering-mohammed-m-jubapu/ 数据工程师是当今市场上最受欢迎的工作之一。数据无处不在,被认为是新时代的能源。公司从不同来源生成大量数据,数据工程师的任务是组织数据信息的收集,处理和存储。但是,要成为一名数据工程师,您需要具备一些出色的技能,例如数据库,大数据,ETL和数据仓库,云计算以及编程语言。但是问题来了,您是否想拥有所有这些技能,或者您想使用所有工具?为简化此操作,让我们抓住机会,直接深入研究数据工程人才市场中的最新技能,这肯定会增加您现有的职业生涯或协助您开始数据工程之旅。 1-精通一种编程语言 是的,编程语言是数据工程的必备技能。多数职位概况要求精通至少一种编程语言。这些语言是ETL或数据管道框架所必需的。通用编程语言是总体上掌握数据工程和管道所需的核心编程技能。比如, Java和Scala 用于在Hadoop上编写MapReduce作业。 Python 是数据分析和管道的流行选择,而 Ruby 也是广泛流行的应用程序粘合剂。 2- Python是最受关注的技能 Python!Python!Python!是的,大约70

环境篇:Atlas2.0.0兼容CDH6.2.0部署

生来就可爱ヽ(ⅴ<●) 提交于 2020-08-18 04:27:32
环境篇:Atlas2.0.0兼容CDH6.2.0部署 Atlas 是什么? Atlas是一组可扩展和可扩展的核心基础治理服务,使企业能够有效地满足Hadoop中的合规性要求,并允许与整个企业数据生态系统集成。 Apache Atlas为组织提供了开放的元数据管理和治理功能,以建立其数据资产的目录,对这些资产进行分类和治理,并为数据科学家,分析师和数据治理团队提供围绕这些数据资产的协作功能。 如果没有Atlas 大数据表依赖问题不好解决,元数据管理需要自行开发,如:hive血缘依赖图 对于表依赖问题,没有一个可以查询的工具,不方便错误定位,即业务sql开发 官网: http://atlas.apache.org 表与表之间的血缘依赖 字段与字段之间的血缘依赖 1 Atlas 架构原理 2 Atlas 安装及使用 安装需要组件,HDFS、Yarn、Zookeeper、Kafka、Hbase、Solr、Hive,Python2.7环境 需要Maven3.5.0以上,jdk_151以上,python2.7。 2.1 下载源码包2.0.0,IDEA打开 2.2 修改相关版本与CDH版本对应 <hadoop.version>3.0.0</hadoop.version> <hbase.version>2.1.0</hbase.version> <kafka.version>2.1.0<

Ranger 简介与安装

孤者浪人 提交于 2020-08-18 01:24:00
目录 一、Ranger是什么 1、Ranger介绍 2、Ranger模块 二、基于Ambari安装Ranger 一、Ranger是什么 1、Ranger介绍 Ranger是Hadoop平台的集中式安全管理框架,能够为hadoop平台组件提供细粒度的访问控制。通过Ranger, Hadoop管理员能够轻松地管理各种安全策略,包括:访问文件/文件夹,数据库,Hive表,列, Hbase, YARN等。此外,Ranger还能进行审计管理,以及策略分析,从而为Hadoop环境的深层次分析提供支持。 目前,Ranger支持对以下的Hadoop组件:HDFS, HBase, Hive, Yarn, Knox, Storm, Solr, Kafka。 HDP整合kerberos以及ranger进行细粒度权限控制 : https://mp.csdn.net/console/editor/html/106575381 2、Ranger模块 Apache Ranger目前是Apache下的顶级项目,目的是通过制定策略(policies)实现对Hadoop组件的集中式安全管理。用户可以通过Ranager实现对集群中数据的安全访问。 Ranger由三个模块组成: Ranger portal: 提供给用户进行安全管理的界面 Ranger plugin: 嵌入在需要安全控制的组件进程中,提供两种功能: (1

hive工作常用语句

孤街浪徒 提交于 2020-08-17 20:21:44
hive工作常用语句 1.查看hadoop任务 yarn application -list |grep 用户名 yarn application -kill application_1443009203033_86621 2.liunx nohup命令 nohup ./label_driver.sh > /home/disk4/bi/driver_label/label_driver20150325.log 2>&1 & nohup ./testpass.sh > logs/testpass_20150323.log 2>&1 & 3.hive添加字段 ALTER TABLE label_driver_z add columns(total_miss_cnt int comment '累积爽约订单数'); 4.hive修改表分隔方式、修改空值描述符 ALTER TABLE city SET SERDEPROPERTIES ('field.delim' = '\t'); ALTER TABLE city SET SERDEPROPERTIES('serialization.format' = '\t'); ALTER TABLE city SET SERDEPROPERTIES('serialization.null.format' = ''); ALTER TABLE dm

hive-3.1.2 整合进 hadoop-3.3.0 + hbase-2.2.4

前提是你 提交于 2020-08-17 16:11:15
一、下载匹配hadoop-3.x.y 版本的hive 3.1.2 下载地址 : http://mirror.bit.edu.cn/apache/hive/ 二、上传至安装目录 /home/apache-hive-3.1.2-bin.tar.gz 解压:tar -zxvf apache-hive-3.1.2-bin.tar.gz 后重命名目录:/home/hive-3.1.2 三、编辑 /etc/profile 文件 ...... if [ -n "${BASH_VERSION-}" ] ; then if [ -f /etc/bashrc ] ; then # Bash login shells run only /etc/profile # Bash non-login shells run only /etc/bashrc # Check for double sourcing is done in /etc/bashrc. . /etc/bashrc fi fi export JAVA_HOME =/usr/java/jdk1.8.0_131 export JRE_HOME = ${JAVA_HOME}/jre export HADOOP_HOME =/home/hadoop-3.3.0 export HIVE_HOME=/home/hive-3.1.2 export

Spark之Spark Session、Dataframe、Dataset

风流意气都作罢 提交于 2020-08-17 15:52:38
Spark SQL简介 Spark SQL架构: Spark SQL是Spark的核心组件之一(2014.4 Spark1.0) 能够直接访问现存的Hive数据 提供JDBC/ODBC接口供第三方工具借助Spark进行数据处理 提供了更高层级的接口方便地处理数据 支持多种操作方式:SQL、API编程 支持多种外部数据源:Parquet、JSON、RDBMS等 Spark SQL是Spark的一个模块,主要用于处理结构化的数据。与基础的Spark RDD API不同的是,Spark SQL的接口会向提供更多的信息,包括数据结构以及要执行的计算操作等。在Spark SQL内部,会使用这些信息执行一些额外的优化。使用Spark SQL有两种方式,包括SQL语句以及Dataset API。 但是在计算的时候,无论你是用哪种接口去进行计算,它们使用的底层执行引擎是完全一模一样的。这种底层执行机制的统一,就意味着我们可以在不同的方式之间任意来回切换,只要我们可以灵活地运用不同的方式来最自然地表达我们要执行的计算操作就可以了。 对其中SQL的解释 Spark SQL的一个主要的功能就是执行SQL查询语句。Spark 2.0开始,最大的一个改变,就是支持了SQL 2003标准语法,还有就是支持子查询。 Spark SQL也可以用来从Hive中查询数据

AI 时代,还不了解大数据?

寵の児 提交于 2020-08-17 12:25:23
如果要问最近几年,IT行业哪个技术方向最火?一定属于ABC,即AI + Big Data + Cloud,也就是人工智能、大数据和云计算。 这几年,随着互联网大潮走向低谷,同时传统企业纷纷进行数字化转型,基本各个公司都在考虑如何进一步挖掘数据价值,提高企业的运营效率。在这种趋势下,大数据技术越来越重要。所以,AI时代,还不了解大数据就真的OUT了! 相比较AI和云计算,大数据的技术门槛更低一些,而且跟业务的相关性更大。我个人感觉再过几年,大数据技术将会像当前的分布式技术一样,变成一项基本的技能要求。 前几天,我在团队内进行了一次大数据的技术分享,重点是对大数据知识做一次扫盲,同时提供一份学习指南。这篇文章,我基于分享的内容再做一次系统性整理,希望对大数据方向感兴趣的同学有所帮助,内容分成以下5个部分: 1、大数据的发展历史 2、大数据的核心概念 3、大数据平台的通用架构和技术体系 4、大数据的通用处理流程 5、大数据下的数仓体系架构 01 大数据的发展历史 在解释「大数据」这个概念之前,先带大家了解下大数据将近30年的发展历史,共经历了5个阶段。那在每个阶段中,大数据的历史定位是怎样的?又遇到了哪些痛点呢? 1.1 启蒙阶段:数据仓库的出现 20世纪90年代,商业智能(也就是我们熟悉的BI系统)诞生,它将企业已有的业务数据转化成为知识,帮助老板们进行经营决策。比如零售场景中

Python数据分析师分析自己前程,他仿佛看到了悲惨的未来

微笑、不失礼 提交于 2020-08-17 08:23:33
前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 分析背景 随着近年来人工智能和大数据的火热,越来越多的人想要从事或转行数据分析师,大家对于此行业如此的热爱,主要原因就是薪资客观,有发展前景。 以我浅薄的工作经验,来谈谈对数据分析师的看法,此行业一直存在一个争议,到底是工具重要还是业务水平重要,即工具党和业务党,先站队,我是业务党(以前是工具党)。虽然我大部分时间都在做数据处理工作,这个能力也是必须的,无论是简单的EXCEL,SQL,PPT还是复杂的R,Python,finebi,finereport,HIve都有涉及,但是市面上有太多的分析工具,你不能全部掌握完,而各行业的业务知识是基本相同的。一个业务知识经验的数据分析师看见一堆数据,会清楚地知道从什么角度来分析,数据呈现状况如何,数据是否异常,出现异常原因在那,数据可以解决那些问题,数据适用于那些场景,他会有一个完整的数据分析思路。所以说一个合格的数据分析师是能从一堆数据中找出有价值的信息。 回到正题,数据分析的‘钱’景到底如何呢,本文将从BOOS招聘网站上近期招聘的数据分析师岗位来进行分析,涉及到工作城市,工作经验,薪资水平,技能要求等内容。 数据分析 本次获取的岗位数据量为17485,只保留数据分析岗位的数据量为5616,