HDFS

Hadoop ViewFs允许hdfs schema的重载

蹲街弑〆低调 提交于 2020-05-04 19:07:07
文章目录 前言 Hadoop ViewFs的问题痛点 Hadoop ViewFs的重载hdfs schema方式 ViewFs的mount point中心化管理问题 引用 前言 在大数据时代,随着业务的迅速扩张,很多大公司往往内部会有多cluster模式来支撑其内部的数据体量。在这期间就会涉及到一个多集群管理协调的问题,比如典型的HDFS的多集群管理。社区在早期实现的ViewFs以及后来的Router-based的功能在一定程度上能优化这块的管理。但是上述2个方案还不能完全cover住HDFS的多cluster管理的痛点问题,比如在一些用户写死在code中的地址,如何能做到纹丝不动的适配到viewfs多集群模式?本文我们来谈论谈论这个话题以及目前社区对此的解决方案。 Hadoop ViewFs的问题痛点 Hadoop ViewFs功能实现的时间可以说是非常早的了,当时最初解决的问题是在client端构建一个视图逻辑上统一的文件系统,ViewFs下不同的路径实际指向的具体的物理cluster地址。简单来说,就是我们在client端添加了一个类似mount point的映射表mapping关系。 因为是基于client side的改动,因此这会导致一个很容易出现的问题,ViewFs的重新部署更新会变得极为的麻烦,在这里面至少会涉及到如下相关服务的变更:

SparkSQL配置和使用初探

本小妞迷上赌 提交于 2020-05-04 17:36:13
1.环境 OS:Red Hat Enterprise Linux Server release 6.4 (Santiago) Hadoop:Hadoop 2.4.1 Hive:0.11.0 JDK:1.7.0_60 Spark:1.1.0(内置SparkSQL) Scala:2.11.2 2.Spark集群规划 账户:ebupt master:eb174 slaves:eb174、eb175、eb176 3.SparkSQL发展历史 2014年9月11日,发布Spark1.1.0。Spark从1.0开始引入SparkSQL。Spark1.1.0变化较大是SparkSQL和MLlib。具体参见 release note 。 SparkSQL的前身是Shark。由于Shark自身的不完善,2014年6月1日Reynold Xin宣布:停止对Shark的开发。SparkSQL抛弃原有Shark的代码,汲取了Shark的一些优点,如内存列存储(In-Memory Columnar Storage)、Hive兼容性等,重新开发SparkSQL。 4.配置 安装配置同Spark-0.9.1(参见博文: Spark、Shark集群安装部署及遇到的问题解决 ) 将$HIVE_HOME/conf/hive-site.xml配置文件拷贝到$SPARK_HOME/conf目录下。 将$HADOOP

Hive 教程(二)-认知hive

你。 提交于 2020-05-04 04:27:40
在大数据领域,hive 的位置非常重要,排名前三的大数据工具为 spark、hive、kafka 什么是hive 在大数据领域有 3 种需求场景:传输、存储、计算; hive 是一个处理海量的结构化数据的 计算 引擎; hive 是基于 hadoop 的一个数据仓库工具,他将结构化的数据 数据文件 映射为一张表,并且提供了类 sql 的查询功能; hive 提供的 sql 叫 HQL,本质是把 HQL 转换成 mapreduce; 认识 hive 需要搞清楚以下几点: 1. hive 虽然是大数据工具,但是 hive 并非分布式的,它只安装在一台机器上,当然你可以在多台机器上都安装 hive,但彼此之间没有联系; 2. 我们可以把 hive 看做 hadoop 的客户端,通过使用 hive 来使用 hadoop; 3. hive 是个计算引擎,他没有存储功能,虽然有一张表,但是我们可以认为那是一张虚拟表,表的数据存储在 hdfs,表的元数据存在 mysql 等数据库,hive 查询时通过元数据找到数据在 hdfs 中的位置,并启动 mapreduce 进行计算; hive 的工作逻辑 1. hive 的数据存储在 hdfs 2. hive 的计算通过 hadoop 完成 hive 的架构 Client:客户端,需要 jdbc 数据库; Metastore: 元数据 ,存储在

spark成长之路(1)spark究竟是什么?

人盡茶涼 提交于 2020-05-04 04:27:28
今年6月毕业,来到公司前前后后各种事情折腾下来,8月中旬才入职。本以为终于可以静下心来研究技术了,但是又把我分配到了一个几乎不做技术的解决方案部门,导致现在写代码的时间都几乎没有了,所以只能在每天下班后留在公司研究一下自己喜欢的技术,搞得特别晚才回,身心俱疲。 唉~以前天天写代码时觉得苦逼,现在没得代码写了,反而更累了。。。 言归正传,这次准备利用空余的时间,好好研究下大数据相关的技术,也算是弥补下自己的技术短板吧。这一个系列的文章是我从一个大数据小白开始学习的过程,不知道我究竟能学到哪个程度,也不清楚自己是否会半途而废,但是希望能尽量坚持下去,也希望看到这一系列博客的读者能更我一起努力,一起进步! 首先我们来看一下spark究竟是什么。相信很多读者跟我一样,听说过hadoop,也知道spark,更知道spark是现在最火的大数据技术,所以一直有一个疑问:spark是不是替代能够hadoop的下一代大数据技术?答案是:不是! 首先我们看看spark的官网介绍:Apache Spark is a fast and general-purpose cluster computing system. It provides high-level APIs in Java, Scala, Python and R, and an optimized engine that supports

大数据之路week07--day05 (一个基于Hadoop的数据仓库建模工具之一 HIve)

╄→гoц情女王★ 提交于 2020-05-04 03:05:34
什么是Hive? 我来一个短而精悍的总结( 面试常问 ) 1:hive是基于hadoop的数据仓库建模工具之一(后面还有TEZ,Spark)。 2:hive可以使用类sql方言,对存储在hdfs上的数据进行分析和管理。 Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL ,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。 Hive是SQL解析引擎,它将SQL语句转译成M/R Job然后在Hadoop执行。 Hive的表其实就是HDFS的目录,按表名把文件夹分开。如果是分区表,则分区值是子文件夹,可以直接在M/R Job里使用这些数据。 Hive相当于hadoop的客户端工具,部署时不一定放在集群管理节点中,可以放在某个节点上。 Hive与传统数据库比较 Hive与传统数据库比较 1. 查询语言。类 SQL 的查询语言 HQL。熟悉 SQL 开发的开发者可以很方便的使用 Hive 进行开发。 2. 数据存储位置。所有 Hive

hive与数据库的比较

风格不统一 提交于 2020-05-04 01:41:47
除了类似的sql语句,没什么类似之处 1.查询语言:hive的查询语言是类sql 2.数据存储的位置:hive存储在hdfs上,数据库存储在本地文件中 3.数据的更新:hive是针对数仓设计,读多写少,一般不进行数据的更新操作,而数据库要经常进行增删改查的操作 4.索引:数据库有索引,hive无索引,多余少量数据,数据库的时延较低,但是对于大量数据,hive才会体现出其优势 5.执行:hive的执行依赖于mapreduce,而数据路依赖自身的执行引擎 6.执行延迟:看数据量大小 7.可扩展性 8.数据规模 来源: oschina 链接: https://my.oschina.net/u/4434424/blog/4263644

PowerBI系列之什么是PowerBI

三世轮回 提交于 2020-05-03 22:46:09
大家好,我是小黎子!一个专注于数据分析整体数据仓库解决方案的程序猿!今天小黎子就给大家介绍一个数据分析工具由Microsoft出品的全新数据可视化工具Power BI。微软Excel很早就支持了数据透视表,并基于Excel开发了相关BI插件,如Power Query,PowerPrivot,Power View和Power Map等。这些插件让Excel如同装上了翅膀,瞬间高大上。由于Excel的普及和可操作性简单,加上数据透视表技术已经深入人心,所以全新的Power BI数据可视化工具呼之欲出,相比Qlik,Tableau等产品,有着无可比拟的天然优势。我们看一下最新2019数据分析魔力象限: 我们可以看到在2019年PowerBI已经是领导者地位了,Power BI是软件服务、应用和连接器的集合,它们协同工作以将相关数据来源转换为连贯的视觉逼真的交互式见解。无论你的数据是简单的 Excel电子表格,还是基于云和本地混合数据仓库的集合, Power BI都可以让你轻松地连接到数据源,直观看到或发现数据的价值,与任何所希望的人进行共享。PowerBI产品下载地址:https://powerbi.microsoft.com/zh-cn/what-is-power-bi/ Power BI 简单且快速,能够从 Excel电子表格或本地数据库创建图表。 同时Power BI也是可靠的

从0开始部署hadoop HA集群,使用zk实现自动容灾

青春壹個敷衍的年華 提交于 2020-05-03 22:04:04
1.停掉所有hadoop进程 2删除所有节点的日志和本地数据 $xcall.sh "rm -rf /soft/hadoop/logs/ "//这个操作实现删除所有节点的数据 $xcall.sh "rm -rf /home/centos/hadoop/ " 3.改换hadoop的符号连接为ha 4.登录每台JN节点主机,启动JN(journalNode)节点 [s201-s203 $>hadoop-daemon.sh start journalnode; 5.登录其中一个NN节点,格式化文件系统(s200) $>hadoop namenode -format 6.复制s200目录下面nn的元数据到s206 $>scp -r ~/hadoop/* centos@s206:/home/centos/hadoop 7.在未格式化的NN(s206)节点上做standby引导 7.1)需要保证201的NN节点启动 $>hadoop-daemon.sh start namenode 7.2)登录s206上做节点引导 $>hdfs namenode -bootstrapStandby 7.3登录到s200将s200的edit日志初始化到JN节点 $>hdfs namenode -initializeSharedEdits 8.启动s206的名称节点和数据节点 $>hadoop-daemons.sh

Oozie知识点学习总结(一)

爷,独闯天下 提交于 2020-05-03 21:14:36
Oozie知识框架: 理性认知: Oozie (驯象人) 2、Oozie简介: 一个基于工作流引擎的开源框架,有Cloudera公司贡献给apache,提供对hadoop、Mapreduce、Pig jobs 的任务调度和协调 oozie需要部署到java servlet容器中运行 3、oozie在集群中扮演的角色: 定时调度任务,多任务可以按照执行的逻辑顺序调度 4、oozie的功能模块:4.1: workflow 顺序执行流程节点,支持fork(分支多个节点),join(合并多个节点为一个) 4.2: coordinator 定时触发workflow 4.3: bundle job 绑定多个coordinator 5、Oozie的节点:5.1: 控制流节点(control Flow Nodes)控制流节点一般都是定义在工作流开始或者结束的地方,比如start、end、kill等,以及提供工作流的执行路径机制,如decision,fork,jioin等 5.2、动作节点(Action,Nodes) 就是执行具体任务调度的节点 6、Oozie的安装与部署 6.1、解压Oozie $ tar -zxf /opt/softwares/oozie-4.0.0-cdh5.3.6.tar.gz -C /opt/modules/cdh/ 6.2、Hadoop配置文件修改

什么是Spark RDD以及我们为什么需要它?

蹲街弑〆低调 提交于 2020-05-03 20:34:34
随着时间的推移,大数据分析已达到一个新的程度,反过来又改变了其运作模式和期望。 今天的大数据分析不仅处理大量数据,而且还具有快速周转时间的既定目标。 虽然Hadoop是大数据分析背后无与伦比的技术,但它在快速处理方面存在一些不足。 但是,随着Spark的出现,数据处理速度便有了更大的期望。 当我们谈到Spark时,我们想到的第一个术语是弹性分布式数据集(RDD)或Spark RDD,它使数据处理更快。此外,这也是Spark的关键特性,它支持在计算期间对数据集进行逻辑分区。 在此文中,我们将讨论Spark RDD的技术方面,进一步了解Spark RDD的底层技术细节。除此之外,还将概述RDD在Spark中的使用。 Spark RDD及其特性 RDD定义为 Resilient Distributed Dataset (弹性分布式数据集),其中每个术语都表示其特性。 Resilient: 通过使用RDD谱系图(DAG)实现容错。因此,当节点发生故障时,可以进行重新计算。 Distributed: Spark RDD的数据集驻留在多个节点中。 Dataset: 您将使用的数据记录。 在Hadoop设计中,RDD是一个挑战。然而,使用Spark RDD解决方案似乎非常高效,这取决于它的惰性计算。Spark中的RDDs按需工作。因此,它节省了大量的数据处理时间和整个过程的效率。 Hadoop