Hadoop | 易学教程

How to list file keys in Databricks dbfs without dbutils

阅读更多关于 How to list file keys in Databricks dbfs **without** dbutils

问题 Apparently dbutils cannot be used in cmd-line spark-submits, you must use Jar Jobs for that, but I MUST use spark-submit style jobs due to other requirements, yet still have a need to list and iterate over file keys in dbfs to make some decisions about which files to use as input to a process... Using scala, what lib in spark or hadoop can I use to retrieve a list of dbfs:/filekeys of a particular pattern? import org.apache.hadoop.fs.Path import org.apache.spark.sql.SparkSession def ls

Spark学习一:Spark概述

阅读更多关于 Spark学习一:Spark概述

1.1 什么是Spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。一站式管理大数据的所有场景(批处理,流处理,sql) spark不涉及到数据的存储,只做数据的计算 Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架，Spark拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。注意:spark框架不能替代Hadoop,只能替代MR,spark的存在完善了Hadoop的生态系统. Spark是Scala编写，方便快速编程。学习spark的三个网站 1) http://spark.apache.org/ 2) https://databricks.com/spark/about 3) https://github.com/apache/spark 官网： http://spark.apache.org Apache Spark™ is a fast and general engine for large-scale data

Atlas 介绍

阅读更多关于 Atlas 介绍

一、Atlas是什么？在当今大数据的应用越来越广泛的情况下，数据治理一直是企业面临的巨大问题。大部分公司只是单纯的对数据进行了处理，而数据的血缘，分类等等却很难实现，市场上也急需要一个专注于数据治理的技术框架，这时Atlas应运而生。 Atlas官网地址： https://atlas.apache.org/ Atlas是Hadoop的数据治理和元数据框架。 Atlas是一组可扩展和可扩展的核心基础治理服务，使企业能够有效，高效地满足Hadoop中的合规性要求，并允许与整个企业数据生态系统集成。 Apache Atlas为组织提供了开放的元数据管理和治理功能，以建立其数据资产的目录，对这些资产进行分类和治理，并为数据科学家，分析师和数据治理团队提供围绕这些数据资产的协作功能。 Atlas支持各种Hadoop和非Hadoop元数据类型提供了丰富的REST API进行集成对数据血缘的追溯达到了字段级别，这种技术还没有其实类似框架可以实现对权限也有很好的控制二、架构原理 Atlas包括以下组件：采用Hbase存储元数据采用Solr实现索引 Ingest/Export 采集导出组件 Type System类型系统 Graph Engine图形引擎共同构成Atlas的核心机制所有功能通过API向用户提供，也可以通过Kafka消息系统进行集成

【spark系列7】spark delta写操作ACID事务实现分析

阅读更多关于【spark系列7】spark delta写操作ACID事务实现分析

背景本文基于delta 0.7.0 spark 3.0.1 我们之前的 spark delta写操作ACID事务前传--写文件基础类FileFormat/FileCommitProtocol分析分析了delta写数据的流程，但是还没分析deltalog 写数据的流程，这部分也是实现ACID的核心部分。 ##分析直接到 WriteIntoDelta.run override def run(sparkSession: SparkSession): Seq[Row] = { deltaLog.withNewTransaction { txn => val actions = write(txn, sparkSession) val operation = DeltaOperations.Write(mode, Option(partitionColumns), options.replaceWhere, options.userMetadata) txn.commit(actions, operation) } Seq.empty } 我们来看一下 deltaLog.withNewTrancation 方法： def withNewTransaction[T](thunk: OptimisticTransaction => T): T = { try { update()

漫谈数据仓库之维度建模

阅读更多关于漫谈数据仓库之维度建模

点击上方蓝色字关注我们~ 0x00 前言下面的内容，是笔者在学习和工作中的一些总结，其中概念性的内容大多来自书中，实践性的内容大多来自自己的工作和个人理解。由于资历尚浅，难免会有很多错误，望批评指正！概述数据仓库包含的内容很多，它可以包括架构、建模和方法论。对应到具体工作中的话，它可以包含下面的这些内容：以Hadoop、Spark、Hive等组建为中心的数据架构体系。各种数据建模方法，如维度建模。调度系统、元数据系统、ETL系统、可视化系统这类辅助系统。我们暂且不管数据仓库的范围到底有多大，在数据仓库体系中，数据模型的核心地位是不可替代的。因此，下面的将详细地阐述数据建模中的典型代表：维度建模，对它的的相关理论以及实际使用做深入的分析。文章结构本文将按照下面的顺序进行阐述：先介绍比较经典和常用的数据仓库模型，并分析其优缺点。详细介绍维度建模的基本概念以及相关理论。为了能更真切地理解什么是维度建模，我将模拟一个大家都十分熟悉的电商场景，运用前面讲到的理论进行建模。理论和现实的工作场景毕竟会有所差距，这一块，我会分享一下企业在实际的应用中所做出的取舍。 0x01 经典数据仓库模型下面将分别介绍四种数据仓库模型，其中前三种模型分别对应了三本书：《数据仓库》、《数据仓库工具箱》和《数据架构大数据数据仓库以及Data Vault》，这三本书都有中文版

Hadoop map reduce example stuck on Running job

阅读更多关于 Hadoop map reduce example stuck on Running job

问题 I am trying to run a mapreduce example in hadoop. I am using version 2.7.2. I tried running bin/hadoop jar libexec/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+' and the mapreduce stuck at running job and does not advance any further. it shows How to resolve this? 回答1: I got it guys. It as the space problem. My HDD is 500 GB capacity. The used space should not exceed 90%. In my case there was only 30GB left. I cleaned up some spce by deleting Apps

Hadoop map reduce example stuck on Running job

阅读更多关于 Hadoop map reduce example stuck on Running job

Hadoop map reduce example stuck on Running job

阅读更多关于 Hadoop map reduce example stuck on Running job

每个大数据工程师都应该知道的OLAP 核心知识点

阅读更多关于每个大数据工程师都应该知道的OLAP 核心知识点

OLAP 系统广泛应用于 BI, Reporting, Ad-hoc, ETL 数仓分析等场景，本文主要从体系化的角度来分析 OLAP 系统的核心技术点，从业界已有的 OLAP 中萃取其共性，分为谈存储，谈计算，谈优化器，谈趋势 4 个章节。 01 谈储存列存的数据组织形式行存，可以看做 NSM (N-ary Storage Model) 组织形式，一直伴随着关系型数据库，对于 OLTP 场景友好，例如 innodb[1] 的 B+ 树聚簇索引，每个 Page 中包含若干排序好的行，可以很好的支持 tuple-at-a-time 式的点查以及更新等；而列存 (Column-oriented Storage)，经历了早期的 DSM (Decomposition Storage Model) [2]，以及后来提出的 PAX (Partition Attributes Cross) 尝试混合 NSM 和 DSM，在 C-Store 论文 [3] 后逐渐被人熟知，用于 OLAP，分析型不同于交易场景，存储 IO 往往是瓶颈，而列存可以只读取需要的列，跳过无用数据，避免 IO 放大，同质数据存储更紧凑，编码压缩友好，这些优势可以减少 IO，进而提高性能。列存的数据组织形式对于基本类型，例如数值、string 等，列存可以使用合适的编码，减少数据体积，在 C-Store

如何在CDH6.0中启用Kerberos

阅读更多关于如何在CDH6.0中启用Kerberos

温馨提示：如果使用电脑查看图片不清晰，可以使用手机打开文章单击文中的图片放大查看高清原图。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的在前面的文章中，Fayson介绍了《如何在Redhat7.4安装CDH6.0 》，这里我们基于这个环境开始安装Kerberos。关于CDH启用Kerberos的文章，前面Fayson也介绍过《如何在CDH集群启用Kerberos 》、《如何在Redhat7.3的CDH5.14中启用Kerberos 》、《如何在Redhat7.4的CDH5.15中启用Kerberos 》和《如何在CDH6.0.0-beta1中启用Kerberos 》，通过本文，我们也可以来看看CDH6启用Kerberos有哪些不一样的地方。内容概述： 1.如何安装及配置KDC服务 2.如何通过CDH启用Kerberos 3.如何登录Kerberos并访问Hadoop相关服务 4.总结测试环境： 1.操作系统：Redhat7.4 2.CDH6.0 3.采用root用户进行操作 2.KDC服务安装及配置本文档中将KDC服务安装在Cloudera Manager Server所在服务器上（KDC服务可根据自己需要安装在其他服务器） 1.在Cloudera

订阅 Hadoop