yarn

开启Hadoop/Yarn的日志监控功能

余生长醉 提交于 2020-03-10 08:42:53
配置 yarn-site.xml 开启日志聚合 日志聚集是YARN提供的日志中央化管理功能,它能将运行完成的Container/任务日志上传到HDFS上,从而减轻NodeManager负载,且提供一个中央化存储和分析机制。默认情况下,Container/任务日志存在在各个NodeManager上 < ! -- Site specific YARN configuration properties -- > < configuration > < property > < name > yarn.nodemanager.aux-services < /name > < value > mapreduce_shuffle < /value > < /property > < ! -- 开启日志聚合 如果没有设置的话,会显示3个目录 -- > < property > < name > yarn.log-aggregation-enable < /name > < value > true < /value > < /property > < /configuration > 配置 mapred-site.xml < property > < ! -- 表示提交到hadoop中的任务采用yarn来运行,要是已经有该配置则无需重复配置 -- > < name > mapreduce

Hadoop完全分布式集群安装(完整版)

ε祈祈猫儿з 提交于 2020-03-10 00:13:05
在master 中 修改名字 配置网关(no改yes) 下载ntp等 重启 克隆 slave1 slave2 然后打开slave1 slave2 改名字 重启 三个机器重新启动后 ,查看ifconfig 查看ip 然后在Xshell中打开三台机器 配置host (三个) { vi /etc/hosts 写入ip+主机名 192.168.31.153 master 192.168.31.154 slave1 192.168.31.152 slave2 } 关闭防火墙 (三个) { 关闭防火墙:systemctl stop firewalld 查看状态:systemctl status firewalld 禁止防火墙自启:systemctl unenable firewalld } master·中·{选择时区:tzselect 5 9 1 1} master 作为 ntp 服务器,修改 ntp 配置文件。(master 上执行) { vi /etc/ntp.conf 写入 server 127.127.1.0 fudge 127.127.1.0 stratum 10 重启 ntp 服务: /bin/systemctl restart ntpd.service } 其他机器同步(slave1,slave2) ntpdate master 免密: ssh-keygen -t dsa -P

YARN

送分小仙女□ 提交于 2020-03-09 05:54:05
Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。 来源: https://www.cnblogs.com/hshy/p/12446569.html

spark在yarn上运行作业报错

若如初见. 提交于 2020-03-08 19:33:08
spark在yarn上运行作业报错: java.lang.RuntimeException: Error in configuring object at org.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:112) at org.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:78) at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:136) at org.apache.spark.rdd.HadoopRDD.getInputFormat(HadoopRDD.scala:188) at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:201) at org.apache.spark.rdd.RDD KaTeX parse error: Can't use function '$' in math mode at position 8: anonfun$̲partitions$2.ap… anonfun$partitions 2. a p p

大数据高可用集群环境安装与配置(06)——安装Hadoop高可用集群

坚强是说给别人听的谎言 提交于 2020-03-08 15:10:09
下载Hadoop安装包 登录 https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/ 镜像站,找到我们要安装的版本,点击进去复制下载链接 安装Hadoop时要注意版本与后续安装的HBase、Spark等相关组件的兼容,不要安装了不匹配的版本,而导致某些组件需要重装 输入命令进行安装操作 cd /usr/local/src/ wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz tar -zxvf hadoop-2.7.7.tar.gz mv hadoop-2.7.7 /usr/local/hadoop/ 修改服务器系统环境变量 所有服务器都需要按要求修改配置 vi /etc/profile 在尾部添加下面配置 export HADOOP_HOME=/usr/local/hadoop/ export PATH=$PATH:$HADOOP_HOME/bin 保存退出后,运行命令,让配置马上生效 source /etc/profile 创建Hadoop需要的文件夹 # 所有服务器都需要执行创建hadoop的tmp文件夹 mkdir -p /data/hadoop/ #

hadoop-2.6.0-cdh5.16.2编译

纵饮孤独 提交于 2020-03-07 21:40:55
centos7.4 新部署hadoop-2.6.0-cdh5.16.2集群,启动有警告,需要本地的hadoop库 [hadoop@node131 sbin]$ start-all.sh 20/03/07 18:27:03 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 根据网上命令确认无本地库 [hadoop@node131 sbin]$ hadoop checknative -a 20/03/07 18:36:04 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable Native library checking: hadoop: false zlib: false snappy: false lz4: false bzip2: false openssl: false 20/03/07 18:36:04 INFO util.ExitUtil: Exiting

Yarn框架和工作流程研究

青春壹個敷衍的年華 提交于 2020-03-07 14:34:52
一、概述 将公司集群升级到Yarn已经有一段时间,自己也对Yarn也研究了一段时间,现在开始记录一下自己在研究Yarn过程中的一些笔记。这篇blog主要主要从大体上说说Yarn的基本架构以及其各个组件的功能。另外,主要将Yarn和MRv1做详细对比,包括Yarn相对于MRv1的各种改进。最后,大概说说Yarn的工作流情况。 二、 Yarn和MRv1对比 (1)扩展性对比。 在MRv1中,JobTracker是个重量级组件,集中了资源管理分配、作业控制两大核心功能,随着集群规模的增大,JobTracker处理各种RPC请求负载过重,这也是系统的最大瓶颈,严重制约了Hadoop集群的扩展性。相比之下,Yarn将JobTracker功能进行了拆分,拆分为全局组件ResourceManager、应用组件ApplicationMaster和JobHistoryServer。其中,ResourceManager负载整个系统资源的管理和分配,ApplicationMaster负载单个应用程序的相关管理(job的管理),JobHistoryServer负载日志的展示和收集工作。Yarn的这种功能拆分,将减轻了master节点的负载,其处理的RPC请求的压力得到减少。其实换句话Yarn是将这种负载进行了横向转移到子节点,这个可以通过ApplicationMaster(简称APP Mstr)的机制体现

第 5 节 Flink on yarn的两种方式

余生长醉 提交于 2020-03-07 04:37:46
上篇: 第 4 节 Flink standalone集群安装部署 如图所示: 1、Flink on Yarn 的两种使用方式 第一种【yarn-session.sh(开辟资源)+flink run(提交任务)】 (1)修改etc/hadoop/yarn-site.xml //添加参数 < property > < name > yarn . nodemanager . vmem - check - enabled < / name > < value > false < / value > < / property > (2)修改后的文件,拷贝文件到其他机器上 [ root @Flink105 hadoop - 2.7 .2 ] # scp - rq etc / hadoop / yarn - site . xml flink106 : / opt / hadoop / module / hadoop - 2.7 .2 / etc / hadoop / [ root @Flink105 hadoop - 2.7 .2 ] # scp - rq etc / hadoop / yarn - site . xml flink107 : / opt / hadoop / module / hadoop - 2.7 .2 / etc / hadoop / (3)启动hadoop集群 [

YARN框架机制

我们两清 提交于 2020-03-06 22:38:52
YARN框架:资源调度 在执行job.waitforcompletion(true)时候会启动一个进程 Runjar ,相当于MapReduce程序提交客户端,靠这个与集群通信 1.Runjar向ResourceManager申请一个job 2.ResourceManager给Runjar返回一个job资源提交的路径(staging- dir)和为本job产生一个jobID 3.Runjar提交资源到HDFS上去 4.Runjar向ResourceManager汇报提交结果 5.ResourceManager把本job加入任务队列 6.NodeManager通过 心跳机制 向ResourceManager获取任务 7.NodeManage产生container,分配运行资源容器,包括CPU、内存等资源;同时也会把文件资源加载到容器 此时在container中代码、配置文件、资源都有了需要执行MapReduce,那么在哪台机器上运行,每个节点执行几个map,几个reduce,这些YARN就不知道了,YARN只做资源管理,它不能去启动mapreduce 由MapReduce框架封装的MRAPPMaster实现,就是mapreduce的应用程序的管理者,它是由YARN框架启动的 8.启动MRAPPMaster,到此YARN框架任务基本完成 9.MRAPPMaster向

大数据-yarn(一)

∥☆過路亽.° 提交于 2020-03-06 18:53:45
大数据-yarn(一) yarn(资源调度管理平台)的介绍 Apache Hadoop YARN(Yet Another Resource Negotiator)是Hadoop的子项目,为分离Hadoop2.0资源管理和计算组件而引入 YRAN具有足够的通用性,可以支持其它的分布式计算模式 yarn的架构 YARN是经典的 主从(master/slave)架构 YARN服务由一个ResourceManager(RM)和多个NodeManager(NM)构成 ResourceManager为主节点(master) NodeManager为从节点(slave) ApplicationMaster可以在容器内运行任何类型的任务。例如,MapReduce, ApplicationMaster请求容器启动map或reduce任务,而Giraph ApplicationMaster请求容器运行Giraph任务。 ResourceManager ResourceManager是YARN中的 master 角色 RM是一个全局的资源管理器,集群只有一个对外提供服务 负责整个系统的资源管理和分配 包括处理客户端请求 启动/监控 ApplicationMaster 监控 NodeManager、资源的分配与调度 RM主要由两个组件构成: 调度器(Scheduler) 应用程序管理器