Hadoop

How to list file keys in Databricks dbfs **without** dbutils

…衆ロ難τιáo~ 提交于 2021-01-07 01:21:08
问题 Apparently dbutils cannot be used in cmd-line spark-submits, you must use Jar Jobs for that, but I MUST use spark-submit style jobs due to other requirements, yet still have a need to list and iterate over file keys in dbfs to make some decisions about which files to use as input to a process... Using scala, what lib in spark or hadoop can I use to retrieve a list of dbfs:/filekeys of a particular pattern? import org.apache.hadoop.fs.Path import org.apache.spark.sql.SparkSession def ls

Spark学习一:Spark概述

对着背影说爱祢 提交于 2021-01-07 00:58:42
1.1 什么是Spark ​ Apache Spark 是专为大规模数据处理而设计的 快速通用 的计算引擎。 ​ 一站式管理大数据的所有场景(批处理,流处理,sql) ​ spark不涉及到数据的存储,只做数据的计算 ​ Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架,Spark拥有Hadoop MapReduce所具有的优点; ​ 但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。 注意:spark框架不能替代Hadoop,只能替代MR,spark的存在完善了Hadoop的生态系统. ​ Spark是Scala编写,方便快速编程。 ​ 学习spark的三个网站 ​ 1) http://spark.apache.org/ ​ 2) https://databricks.com/spark/about ​ 3) https://github.com/apache/spark ​ 官网: http://spark.apache.org Apache Spark™ is a fast and general engine for large-scale data

Atlas 介绍

≯℡__Kan透↙ 提交于 2021-01-06 09:24:46
一、Atlas是什么? 在当今大数据的应用越来越广泛的情况下,数据治理一直是企业面临的巨大问题。 大部分公司只是单纯的对数据进行了处理,而数据的血缘,分类等等却很难实现,市场上也急需要一个专注于数据治理的技术框架,这时Atlas应运而生。 Atlas官网地址: https://atlas.apache.org/ Atlas是Hadoop的数据治理和元数据框架。 Atlas是一组可扩展和可扩展的核心基础治理服务,使企业能够有效,高效地满足Hadoop中的合规性要求,并允许与整个企业数据生态系统集成。 Apache Atlas为组织提供了开放的元数据管理和治理功能,以建立其数据资产的目录,对这些资产进行分类和治理,并为数据科学家,分析师和数据治理团队提供围绕这些数据资产的协作功能。 Atlas支持各种Hadoop和非Hadoop元数据类型 提供了丰富的REST API进行集成 对数据血缘的追溯达到了字段级别,这种技术还没有其实类似框架可以实现 对权限也有很好的控制 ​ 二、架构原理 Atlas包括以下组件: 采用Hbase存储元数据 采用Solr实现索引 Ingest/Export 采集导出组件 Type System类型系统 Graph Engine图形引擎 共同构成Atlas的核心机制 所有功能通过API向用户提供,也可以通过Kafka消息系统进行集成

【spark系列7】spark delta写操作ACID事务实现分析

只愿长相守 提交于 2021-01-05 16:11:30
背景 本文基于delta 0.7.0 spark 3.0.1 我们之前的 spark delta写操作ACID事务前传--写文件基础类FileFormat/FileCommitProtocol分析 分析了delta写数据的流程,但是还没分析deltalog 写数据的流程,这部分也是实现ACID的核心部分。 ##分析 直接到 WriteIntoDelta.run override def run(sparkSession: SparkSession): Seq[Row] = { deltaLog.withNewTransaction { txn => val actions = write(txn, sparkSession) val operation = DeltaOperations.Write(mode, Option(partitionColumns), options.replaceWhere, options.userMetadata) txn.commit(actions, operation) } Seq.empty } 我们来看一下 deltaLog.withNewTrancation 方法 : def withNewTransaction[T](thunk: OptimisticTransaction => T): T = { try { update()

漫谈数据仓库之维度建模

喜你入骨 提交于 2021-01-05 14:00:05
点击上方蓝色字关注我们~ 0x00 前言 下面的内容,是笔者在学习和工作中的一些总结,其中概念性的内容大多来自书中,实践性的内容大多来自自己的工作和个人理解。由于资历尚浅,难免会有很多错误,望批评指正! 概述 数据仓库包含的内容很多,它可以包括架构、建模和方法论。对应到具体工作中的话,它可以包含下面的这些内容: 以Hadoop、Spark、Hive等组建为中心的数据架构体系。 各种数据建模方法,如维度建模。 调度系统、元数据系统、ETL系统、可视化系统这类辅助系统。 我们暂且不管数据仓库的范围到底有多大,在数据仓库体系中,数据模型的核心地位是不可替代的。 因此,下面的将详细地阐述数据建模中的典型代表:维度建模,对它的的相关理论以及实际使用做深入的分析。 文章结构 本文将按照下面的顺序进行阐述: 先介绍比较经典和常用的数据仓库模型,并分析其优缺点。 详细介绍维度建模的基本概念以及相关理论。 为了能更真切地理解什么是维度建模,我将模拟一个大家都十分熟悉的电商场景,运用前面讲到的理论进行建模。 理论和现实的工作场景毕竟会有所差距,这一块,我会分享一下企业在实际的应用中所做出的取舍。 0x01 经典数据仓库模型 下面将分别介绍四种数据仓库模型,其中前三种模型分别对应了三本书:《数据仓库》、《数据仓库工具箱》和《数据架构 大数据 数据仓库以及Data Vault》,这三本书都有中文版

Hadoop map reduce example stuck on Running job

狂风中的少年 提交于 2021-01-05 12:21:10
问题 I am trying to run a mapreduce example in hadoop. I am using version 2.7.2. I tried running bin/hadoop jar libexec/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+' and the mapreduce stuck at running job and does not advance any further. it shows How to resolve this? 回答1: I got it guys. It as the space problem. My HDD is 500 GB capacity. The used space should not exceed 90%. In my case there was only 30GB left. I cleaned up some spce by deleting Apps

Hadoop map reduce example stuck on Running job

你。 提交于 2021-01-05 12:19:43
问题 I am trying to run a mapreduce example in hadoop. I am using version 2.7.2. I tried running bin/hadoop jar libexec/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+' and the mapreduce stuck at running job and does not advance any further. it shows How to resolve this? 回答1: I got it guys. It as the space problem. My HDD is 500 GB capacity. The used space should not exceed 90%. In my case there was only 30GB left. I cleaned up some spce by deleting Apps

Hadoop map reduce example stuck on Running job

半城伤御伤魂 提交于 2021-01-05 12:19:21
问题 I am trying to run a mapreduce example in hadoop. I am using version 2.7.2. I tried running bin/hadoop jar libexec/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+' and the mapreduce stuck at running job and does not advance any further. it shows How to resolve this? 回答1: I got it guys. It as the space problem. My HDD is 500 GB capacity. The used space should not exceed 90%. In my case there was only 30GB left. I cleaned up some spce by deleting Apps

每个大数据工程师都应该知道的OLAP 核心知识点

陌路散爱 提交于 2021-01-05 12:00:36
OLAP 系统广泛应用于 BI, Reporting, Ad-hoc, ETL 数仓分析等场景,本文主要从体系化的角度来分析 OLAP 系统的核心技术点,从业界已有的 OLAP 中萃取其共性,分为谈存储,谈计算,谈优化器,谈趋势 4 个章节。 01 谈储存 列存的数据组织形式 行存,可以看做 NSM (N-ary Storage Model) 组织形式,一直伴随着关系型数据库,对于 OLTP 场景友好,例如 innodb[1] 的 B+ 树聚簇索引,每个 Page 中包含若干排序好的行,可以很好的支持 tuple-at-a-time 式的点查以及更新等;而列存 (Column-oriented Storage),经历了早期的 DSM (Decomposition Storage Model) [2],以及后来提出的 PAX (Partition Attributes Cross) 尝试混合 NSM 和 DSM,在 C-Store 论文 [3] 后逐渐被人熟知,用于 OLAP,分析型不同于交易场景,存储 IO 往往是瓶颈,而列存可以只读取需要的列,跳过无用数据,避免 IO 放大,同质数据存储更紧凑,编码压缩友好,这些优势可以减少 IO,进而提高性能。 列存的数据组织形式 对于基本类型,例如数值、string 等,列存可以使用合适的编码,减少数据体积,在 C-Store

如何在CDH6.0中启用Kerberos

柔情痞子 提交于 2021-01-05 03:00:41
温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。 Fayson的github: https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 在前面的文章中,Fayson介绍了《 如何在Redhat7.4安装CDH6.0 》,这里我们基于这个环境开始安装Kerberos。关于CDH启用Kerberos的文章,前面Fayson也介绍过《 如何在CDH集群启用Kerberos 》、《 如何在Redhat7.3的CDH5.14中启用Kerberos 》、《 如何在Redhat7.4的CDH5.15中启用Kerberos 》和《 如何在CDH6.0.0-beta1中启用Kerberos 》,通过本文,我们也可以来看看CDH6启用Kerberos有哪些不一样的地方。 内容概述: 1.如何安装及配置KDC服务 2.如何通过CDH启用Kerberos 3.如何登录Kerberos并访问Hadoop相关服务 4.总结 测试环境: 1.操作系统:Redhat7.4 2.CDH6.0 3.采用root用户进行操作 2.KDC服务安装及配置 本文档中将KDC服务安装在Cloudera Manager Server所在服务器上(KDC服务可根据自己需要安装在其他服务器) 1.在Cloudera