yarn

HDFS 和YARN HA 简介

扶醉桌前 提交于 2020-03-20 07:35:09
HDFS: 基础架构 1、NameNode(Master) 1)命名空间管理:命名空间支持对HDFS中的目录、文件和块做类似文件系统的创建、修改、删除、列表文件和目录等基本操作。 2)块存储管理。 使用Active NameNode,Standby NameNode 两个节点可以解决单点问题,两个节点通过JounalNode共享状态,通过ZKFC 选举Active ,监控状态,自动备份。 1、Active NameNode 接受client的RPC请求并处理,同时写自己的Editlog和共享存储上的Editlog,接收DataNode的Block report, block location updates和heartbeat。 2、Standby NameNode 同样会接到来自DataNode的Block report, block location updates和heartbeat,同时会从共享存储的Editlog上读取并执行这些log操作,保持自己NameNode中的元数据(Namespcae information + Block locations map)和Active NameNode中的元数据是同步的。所以说Standby模式的NameNode是一个热备(Hot Standby NameNode),一旦切换成Active模式,马上就可以提供NameNode服务。

Yarn详细的工作流程

淺唱寂寞╮ 提交于 2020-03-17 09:19:50
yarn详细工作流程 第一步:客户端向ResourceManager 申请运行程序 第二步:ResourceManager 检查是否有运行权限,如果有就会返回jobid和程序提交的资源路径 第三步:根据ResourceManager返回的信息,然后执行 第四步:客户端提交程序的资源到tmp/hadoop-yarn-staging/job_id目录下(jar程序本身,job.split逻辑切规划文件,job.xml mr配置文件) 第五步:申请程序运行的资源 第六步:RM根据请求结合mn 找出一台机器运行AppM 第七步:RM 返回MN位置给客户端 第八步:客服端到指定的NM上,通过NM启动container,运行MrAppMaster 第九步:MrAppMaster启动成功,向rm进行汇报并且注册自己 第十步:MrAppMaster读取tmp/hadoop-yarn-staging/job_id目录下job.split 数据(申请资源的多少) 第十一步: 申请与切片数量相应的container 第十二步:RM根据请求返回X台可以用的容器所在的位置 第十三步:APPM执行NM上启动容器运行maptask,监督程序执行 第十四步:maptask执行结束,APPM向RM汇报,回收资源 第十五步:reduce执行结束,APPM向RM汇报,回收资源 第十六步:所有的task结束后

阿里云远程MapReduce配置(使用外网)

人走茶凉 提交于 2020-03-16 17:47:53
1.hosts linux:内网ip widows hosts添加:外网ip 47.x.x.x 主机名 2. etc/hadoop/slaves linux主机名 3. 4个xml配置 把主机名“zs”改掉即可 yarn-site.xml 里面需配置0.0.0.0->外网访问8088端口yarn集群控制页面 复制到idea的resources时把0.0.0.0改为主机名“zs”(即外网ip) <configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>zs</value> </property> <property> <name>yarn.resourcemanager.address</name> <value>0.0.0.0:18040</value> </property> <property> <name>yarn.resourcemanager.scheduler.address</name> <value>0.0.0.0:18030</value> </property> <property> <name>yarn.resourcemanager.resource-tracker.address</name> <value>0.0.0.0:18025</value> <

Spark配置参数

ぐ巨炮叔叔 提交于 2020-03-14 21:37:56
以下是整理的Spark中的一些配置参数,官方文档请参考 Spark Configuration 。 Spark提供三个位置用来配置系统: Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者Java系统属性设置 环境变量:可以通过每个节点的 conf/spark-env.sh 脚本设置。例如IP地址、端口等信息 日志配置:可以通过log4j.properties配置 Spark属性 Spark属性控制大部分的应用程序设置,并且为每个应用程序分别配置它。这些属性可以直接在 SparkConf 上配置,然后传递给 SparkContext 。 SparkConf 允许你配置一些通用的属性(如master URL、应用程序名称等等)以及通过 set() 方法设置的任意键值对。例如,我们可以用如下方式创建一个拥有两个线程的应用程序。 val conf = new SparkConf() .setMaster("local[2]") .setAppName("CountingSheep") .set("spark.executor.memory", "1g") val sc = new SparkContext(conf) 动态加载Spark属性 在一些情况下,你可能想在 SparkConf 中避免硬编码确定的配置。例如

hadoop 3.0.0 安装配置

会有一股神秘感。 提交于 2020-03-13 14:58:30
环境描述 根据需求,部署hadoop-3.0.0基础功能架构,以三节点为安装环境,操作系统CentOS 7 x64; openstack创建三台虚拟机,开始部署; IP地址 主机名 10.10.204.31 master 10.10.204.32 node1 10.10.204.33 node2 功能节点规划 master node1 node2 NameNode DataNode DataNode DataNode HQuorumPeer NodeManager NodeManager ResourceManager SecondaryNameNode HMaster 三节点执行初始化操作; 1.更新系统环境; yum clean all && yum makecache fast && yum update -y && yum install -y wget vim net-tools git ftp zip unzip 2.根据规划修改主机名; hostnamectl set-hostname master hostnamectl set-hostname node1 hostnamectl set-hostname node2 3.添加hosts解析; vim /etc/hosts 10.10.204.31 master 10.10.204.32 node1 10.10

Hadoop WARN org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor: Exi

橙三吉。 提交于 2020-03-12 11:29:48
/Users/liuzhiwei/app/hadoop/logs > code yarn-liuzhiwei-nodemanager-lzw-mac.lan.log 2020-03-09 00:22:48,081 WARN org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor: Exit code from container container_1583684503567_0001_02_000001 is : 127 2020-03-09 00:22:48,081 WARN org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor: Exception from container-launch with container ID: container_1583684503567_0001_02_000001 and exit code: 127 ExitCodeException exitCode = 127: at org.apache.hadoop.util.Shell.runCommand ( Shell.java:585 ) at org.apache.hadoop.util.Shell.run ( Shell

Hadoop高可用集群

故事扮演 提交于 2020-03-12 07:51:16
1.简介 若HDFS集群中只配置了一个NameNode,那么当该NameNode所在的节点宕机,则整个HDFS就不能进行文件的上传和下载。 若YARN集群中只配置了一个ResourceManager,那么当该ResourceManager所在的节点宕机,则整个YARN就不能进行任务的计算。 * Hadoop依赖Zookeeper进行各个模块的HA配置,其中状态为Active的节点对外提供服务,而状态为StandBy的节点则只负责数据的同步,在必要时提供快速故障转移。 Hadoop各个模块剖析: https://www.cnblogs.com/funyoung/p/9889719.html Hadoop集群管理: https://www.cnblogs.com/funyoung/p/9920828.html 2.HDFS HA集群 2.1 模型 当有两个NameNode时,提供哪个NameNode地址给客户端? 1.Hadoop提供了NameService进程,其是NameNode的代理,维护NameNode列表并存储NameNode的状态,客户端直接访问的是NameService,NameService会将请求转发给当前状态为Active的NameNode。 2.当启动HDFS时,DataNode将同时向两个NameNode进行注册。

YARN总结

自古美人都是妖i 提交于 2020-03-12 02:20:10
觉得有帮助的,请多多支持博主, 点赞关注 哦~ 文章目录 Yarn 一、Yarn 概述 二、Yarn 基本架构 三、Yarn 工作机制 四、作业提交全过程 五、资源调度器 1、先进先出调度器(FIFO) 2、容量调度器(Capacity Scheduler) 3、公平调度器(Fair Scheduler) 六、任务的推测执行 1、作业完成时间取决于最慢的任务完成时间 2、推测执行机制: 3、执行推测任务的前提条件 4、不能启用推测执行机制情况 5、算法原理 Yarn 一、Yarn 概述 Yarn 是一个资源调度平台 , 负责为运算程序提供服务器运算资源 ,相当于一个 分布式的操作系统平台 ,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序 。 二、Yarn 基本架构 YARN 主要由 ResourceManager、NodeManager、ApplicationMaster 和 Container 等组件构成。 三、Yarn 工作机制 工作机制详解: (0)Mr 程序提交到客户端所在的节点。 (1)Yarnrunner 向 Resourcemanager 申请一个 Application。 (2)rm 将该应用程序的资源路径返回给 yarnrunner。 (3)该程序将运行所需资源提交到 HDFS 上。 (4)程序资源提交完毕后,申请运行

Apache Hadoop Yarn 入门(一)

跟風遠走 提交于 2020-03-11 02:38:16
1.Yarn的通俗介绍 Apache Hadoop Yarn (Yet Another Resource Negotiator,另一种资源协调者),是一种新的 Hadoop 资源管理器,它是一个 通用资源管理系统和调度平台 ,可为上层应用提供统一的资源管理和调度。 它的引入为集群在 利用率、资源统一管理和数据共享 等方面带来了巨大好处。 可以把yarn理解为相当于一个 分布式的操作系统平台 ,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序,Yarn为这些程序提供运算所需的资源(内存、cpu)。  yarn并不清楚用户提交的程序的运行机制  yarn只提供运算资源的调度(用户程序向yarn申请资源,yarn就负责分配资源)  yarn中的主管角色叫ResourceManager  yarn中具体提供运算资源的角色叫NodeManager  yarn与运行的用户程序完全解耦,意味着yarn上可以运行各种类型的分布式运算程序,比如mapreduce、storm,spark,tez ……  spark、storm等运算框架都可以整合在yarn上运行,只要他们各自的框架中有符合yarn规范的资源请求机制即可  yarn成为一个通用的资源调度平台.企业中以前存在的各种运算集群都可以整合在一个物理集群上,提高资源利用率,方便数据共享 2.Yarn的基本结构

Spark使用yarn提交任务式遇到Exception in thread "main" java.lang.AbstractMethodError

时间秒杀一切 提交于 2020-03-10 20:21:46
Spark使用yarn提交任务式遇到 Exception in thread "main" java.lang.AbstractMethodError 20/03/10 11:18:13 INFO Client: Setting up the launch environment for our AM container 20/03/10 11:18:13 INFO Client: Preparing resources for our AM container Exception in thread "main" java.lang.AbstractMethodError at org.apache.spark.internal.Logging$class.initializeLogIfNecessary(Logging.scala:99) at org.apache.spark.deploy.yarn.security.HBaseCredentialProvider.initializeLogIfNecessary(HBaseCredentialProvider.scala:31) at org.apache.spark.internal.Logging$class.log(Logging.scala:46) at org.apache.spark.deploy.yarn