HDFS

Hadoop记录-Federation联邦机制

冷暖自知 提交于 2020-04-25 22:37:44
在Hadoop2.0之前,HDFS的单NameNode设计带来诸多问题: 单点故障、内存受限,制约集群扩展性和缺乏隔离机制(不同业务使用同一个NameNode导致业务相互影响)等 为了解决这些问题,除了用基于共享存储的HA解决方案我们还可以用HDFS的Federation机制来解决这个问题。 【单机namenode的瓶颈大约是在4000台集群,而后则需要使用联邦机制】 什么是Federation机制 Federation是指HDFS集群可使用多个独立的NameSpace(NameNode节点管理)来满足HDFS命名空间的水平扩展 这些NameNode分别管理一部分数据,且共享所有DataNode的存储资源。 NameSpace之间在逻辑上是完全相互独立的(即任意两个NameSpace可以有完全相同的文件名)。在物理上可以完全独立(每个NameNode节点管理不同的DataNode)也可以有联系(共享存储节点DataNode)。一个NameNode节点只能管理一个Namespace Federation机制解决单NameNode存在的以下几个问题 (1)HDFS集群扩展性。每个NameNode分管一部分namespace,相当于namenode是一个分布式的。 (2)性能更高效。多个NameNode同时对外提供服务,提供更高的读写吞吐率。 (3)良好的隔离性

大数据技术之_07_Hadoop学习_HDFS_HA(高可用)_HA概述+HDFS-HA工作机制+HDFS-HA集群配置+YARN-HA配置+HDFS Federation(联邦) 架构设计

这一生的挚爱 提交于 2020-04-25 17:07:25
第8章 HDFS HA 高可用 8.1 HA概述 8.2 HDFS-HA工作机制 8.2.1 HDFS-HA工作要点 8.2.2 HDFS-HA手动故障转移工作机制 8.2.3 HDFS-HA自动故障转移工作机制 8.3 HDFS-HA集群配置 8.3.1 环境准备 8.3.2 规划集群 8.3.3 配置Zookeeper集群 8.3.4 配置HDFS-HA集群 8.3.5 启动HDFS-HA集群 8.3.6 配置HDFS-HA自动故障转移 8.4 YARN-HA配置 8.4.1 YARN-HA工作机制 8.4.2 配置YARN-HA集群 8.5 HDFS Federation(联邦) 架构设计 第8章 HDFS HA 高可用 8.1 HA概述 1)所谓HA(High Available),即高可用(7*24小时不中断服务)。 2)实现高可用最关键的策略是 消除单点故障 。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。 3)Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF)。 4)NameNode主要在以下两个方面影响HDFS集群: NameNode机器发生意外,如宕机,集群将无法使用,直到管理员重启。 NameNode机器需要升级,包括软件、硬件升级,此时集群也将无法使用。 HDFS HA功能通过配置 Active

阿里云ECS服务器部署HADOOP集群(二):HBase完全分布式集群搭建(使用外置ZooKeeper)

天大地大妈咪最大 提交于 2020-04-25 15:01:59
本篇将在 阿里云ECS服务器部署HADOOP集群(一):Hadoop完全分布式集群环境搭建 的基础上搭建,多添加了一个 datanode 节点 。 1 节点环境介绍: 1.1 环境介绍: 服务器:三台阿里云ECS服务器:master, slave1, slave2 操作系统: CentOS 7.3 Hadoop: hadoop-2.7.3.tar.gz Java: jdk-8u77-linux-x64.tar.gz HBase: hbase-1.2.6-bin.tar.gz ZooKeeper: zookeeper-3.4.14.tar.gz 1.2 各节点角色分配 master: NameNode、SecondaryNameNode、HMaster、QuorumPeerMain slave1: DataNode、HMaster(候补节点)、HRegionServer、QuorumPeerMain slave2: DataNode、HRegionServer、QuorumPeerMain 2 HBase 下载 下载 hbase-1.2.6-bin.tar.gz 并在合适的位置解压缩,笔者这里解压缩的路径为: /usr/local 将解压得到的目录改名为 hbase 1 cd /usr/ local 2 mv hbase- 1.2 . 6 / hbase/ 3 添加 HBase

hbase 性能优化 (转载)

大兔子大兔子 提交于 2020-04-25 13:28:33
一、服务端调优 1、参数配置 1)、hbase.regionserver.handler.count:该设置决定了处理RPC的线程数量,默认值是10,通常可以调大,比如:150,当请求内容很大(上MB,比如大的put、使用缓存的scans)的时候,如果该值设置过大则会占用过多的内存,导致频繁的GC,或者出现OutOfMemory,因此该值不是越大越好。 2)、hbase.hregion.max.filesize : 配置region大小,0.94.12版本默认是10G,region的大小与集群支持的总数据量有关系,如果总数据量小,则单个region太大,不利于并行的数据处理,如果集群需支持的总数据量比较大,region太小,则会导致region的个数过多,导致region的管理等成本过高,如果一个RS配置的磁盘总量为3T*12=36T数据量,数据复制3份,则一台RS服务器可以存储10T的数据,如果每个region最大为10G,则最多1000个region,如此看,94.12的这个默认配置还是比较合适的,不过如果要自己管理split,则应该调大该值,并且在建表时规划好region数量和rowkey设计,进行region预建,做到一定时间内,每个region的数据大小在一定的数据量之下,当发现有大的region,或者需要对整个表进行region扩充时再进行split操作

linux 用户及用户组管理

爷,独闯天下 提交于 2020-04-25 08:06:50
主要分为以下三部分: 1. 用户账号的添加、修改及删除 2. 用户口令的管理 3. 用户组管理 用户管理 1.添加新用户账号 $ useradd 选项 用户名 选项: -c comment 指定一段注释性描述。 -d 目录 指定用户主目录,如果此目录不存在,则同时使用-m选项,可以创建主目录。 -g 用户组 指定用户所属的用户组。 -G 用户组,用户组 指定用户所属的附加组。 -s Shell文件 指定用户的登录Shell。 -u 用户号 指定用户的用户号,如果同时有-o选项,则可以重复使用其他用户的标识号。 $ useradd -d /home/hdfs -g hadoop hdfs 2.删除账号 $ userdel 选项 用户名 -r 把用户主目录一起删除 3.修改账号 $ usermod 选项 用户名 选项同创建 4.用户口令管理 选项 -l 锁定口令,即禁用账号。 -u 口令解锁。 -d 使账号无口令。 -f 强迫用户下次登录时修改口令。 实例: passwd hdfs 用户组管理 1. 增加一个新用户组 $ groupadd hadoop 2. 删除一个已有的用户组 $ groupdel hadoop 3. 修改用户组属性 $ groupmod 选项 用户组 来源: oschina 链接: https://my.oschina.net/u/4271842/blog

Spark学习(一)——Spark运行架构

时光总嘲笑我的痴心妄想 提交于 2020-04-25 01:41:10
基本概念 在具体讲解Spark运行架构之前,需要先了解几个重要的概念: RDD:是弹性分布式数据集(Resilient Distributed Dataset)的简称,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型; DAG:是Directed Acyclic Graph(有向无环图)的简称,反映RDD之间的依赖关系; Executor:是运行在工作节点(Worker Node)上的一个进程,负责运行任务,并为应用程序存储数据; 应用:用户编写的Spark应用程序; 任务:运行在Executor上的工作单元; 作业:一个作业包含多个RDD及作用于相应RDD上的各种操作; 阶段:是作业的基本调度单位,一个作业会分为多组任务,每组任务被称为“阶段”,或者也被称为“任务集”。 架构设计 如图9-5所示,Spark运行架构包括集群资源管理器(Cluster Manager)、运行作业任务的工作节点(Worker Node)、每个应用的任务控制节点(Driver)和每个工作节点上负责具体任务的执行进程(Executor)。其中,集群资源管理器可以是Spark自带的资源管理器,也可以是YARN或Mesos等资源管理框架。 与Hadoop MapReduce计算框架相比,Spark所采用的Executor有两个优点:一是利用多线程来执行具体的任务(Hadoop

大数据学习(一) | 初识 Hadoop

让人想犯罪 __ 提交于 2020-04-24 20:23:35
作者: seriouszyx 首发地址: https://seriouszyx.top/ 代码均可在 Github 上找到(求Star) 最近想要了解一些前沿技术,不能一门心思眼中只有 web,因为我目前对 Java 语言及其生态相对熟悉,所以在网上搜集了 Hadoop 相关文章,并做了整合。 本篇文章在于对大数据以及 Hadoop 有一个直观的概念,并上手简单体验。 Hadoop 基础概念 Hadoop 是一个用 Java 实现的开源框架,是一个分布式的解决方案,将大量的信息处理所带来的压力分摊到其他服务器上。 在了解各个名词之前,我们必须掌握一组概念。 结构化数据 vs 非结构化数据 结构化数据 即行数据,存储在数据库里,可以用二维表结构来表达,例如:名字、电话、家庭住址等。 常见的结构化数据库为 mysql、sqlserver。 非结构化数据库 是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库。无法用结构化的数据模型表示,例如:文档、图片、声音、视频等。在大数据时代,对非关系型数据库的需求日益增加,数据库技术相应地进入了“后关系数据库时代”。 非结构化数据库代表为 HBase、mongodb。 可以大致归纳,结构化数据是先有结构、再有数据;非结构化数据是先有数据、再有结构。 Hadoop 是大数据存储和计算的开山鼻祖

Flink学习笔记-新一代Flink计算引擎

最后都变了- 提交于 2020-04-24 20:22:10
说明:本文为《 Flink 大数据项目实战》学习笔记,想通过视频系统学习 Flink 这个最火爆的大数据计算框架的同学,推荐学习课程: Flink 大数据项目实战: http://t.cn/EJtKhaz 新一代 Flink 计算引擎 (1) Flink 概述 目前开源大数据计算引擎有很多的选择,比如流处理有 Storm 、 Samza 、 Flink 、 Spark 等,批处理有 Spark 、 Hive 、 Pig 、 Flink 等。既支持流处理又支持批处理的计算引擎只有 Apache Flink 和 Apache Spark 。 虽然 Spark 和 Flink 都支持流计算,但 Spark 是基于批来模拟流的计算,而 Flink 则完全相反,它采用的是基于流计算来模拟批计算。从技术的长远发展来看, Spark 用批来模拟流有一定的技术局限性,并且这个局限性可能很难突破。而 Flink 基于流来模拟批,在技术上有更好的扩展性。所以大家把 Flink 称之为下一代大数据计算引擎。 从长远发展来看,阿里已经使用 Flink 作为统一的通用的大数据引擎,并投入了大量的人力、财力、物力。目前阿里巴巴所有的业务,包括阿里巴巴所有子公司都采用了基于 Flink 搭建的实时计算平台。同时 Flink 计算平台运行在开源的 Hadoop 集群之上。采用 Hadoop 的 YARN

Hadoop大数据开发基础系列:一、初识Hadoop

喜你入骨 提交于 2020-04-24 18:08:00
目录结构 1.Hadoop概述 1.1 Hadoop简介 1.2 Hadoop发展史 1.3 Hadoop特点 2.Hadoop核心 2.1 分布式文件系统——HDFS 2.2 分布式计算框架——MapReduce 2.3 集群资源管理器——YARN 3.Hadoop生态系统 4.Hadoop应用场景 5.小结 一、Hadoop介绍 1.Hadoop概述 两大核心 :HDFS和MapReduce 用于资源与任务调度的框架 :YARN 1.1 Hadoop简介 Hadoop是一个由Apache基金会所开发的 分布式系统基础架构 。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。它的目的是从单一的服务器扩展到成千上万的机器,将集群部署在多台机器,每个机器提供本地计算和存储,并且将存储的数据备份在多个节点,由此提高集群的可用性,而不是通过硬件的提升,当一台机器宕机时,其他节点仍可以提供备份数据和计算服务,Hadoop框架最核心的设计是HDFS和MapReduce。 1.2 Hadoop发展史(转自百度百科) Hadoop原本来自于谷歌一款名为MapReduce的编程模型包。谷歌的MapReduce框架可以把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集。使用该框架的一个典型例子就是在网络数据上运行的搜索算法

hadoop记录-[Flink]Flink三种运行模式安装部署以及实现WordCount(转载)

岁酱吖の 提交于 2020-04-24 17:58:11
[Flink]Flink三种运行模式安装部署以及实现WordCount 前言 Flink三种运行方式:Local、Standalone、On Yarn。成功部署后分别用Scala和Java实现wordcount 环境 版本:Flink 1.6.2 集群环境:Hadoop2.6 开发工具: IntelliJ IDEA 一.Local模式 解压:tar -zxvf flink-1.6.2-bin-hadoop26-scala_2.11.tgz cd flink-1.6.2 启动:./bin/start-cluster.sh 停止:./bin/stop-cluster.sh 可以通过master:8081监控集群状态 二.Standalone模式 集群安装 1:修改conf/flink-conf.yaml jobmanager.rpc.address: hadoop100 2:修改conf/slaves hadoop101 hadoop102 3:拷贝到其他节点 scp -rq /usr/local/flink-1.6.2 hadoop101:/usr/local scp -rq /usr/local/flink-1.6.2 hadoop102:/usr/local 4:在hadoop100(master)节点启动 bin/start-cluster.sh 5:访问http:/