yarn

开启Hadoop/Yarn的日志监控功能

阅读更多关于开启Hadoop/Yarn的日志监控功能

配置 yarn-site.xml 开启日志聚合日志聚集是YARN提供的日志中央化管理功能，它能将运行完成的Container/任务日志上传到HDFS上，从而减轻NodeManager负载，且提供一个中央化存储和分析机制。默认情况下，Container/任务日志存在在各个NodeManager上 < ! -- Site specific YARN configuration properties -- > < configuration > < property > < name > yarn.nodemanager.aux-services < /name > < value > mapreduce_shuffle < /value > < /property > < ! -- 开启日志聚合如果没有设置的话，会显示3个目录 -- > < property > < name > yarn.log-aggregation-enable < /name > < value > true < /value > < /property > < /configuration > 配置 mapred-site.xml < property > < ! -- 表示提交到hadoop中的任务采用yarn来运行，要是已经有该配置则无需重复配置 -- > < name > mapreduce

Hadoop完全分布式集群安装（完整版）

阅读更多关于 Hadoop完全分布式集群安装（完整版）

在master 中修改名字配置网关（no改yes）下载ntp等重启克隆 slave1 slave2 然后打开slave1 slave2 改名字重启三个机器重新启动后，查看ifconfig 查看ip 然后在Xshell中打开三台机器配置host （三个） { vi /etc/hosts 写入ip+主机名 192.168.31.153 master 192.168.31.154 slave1 192.168.31.152 slave2 } 关闭防火墙（三个） { 关闭防火墙：systemctl stop firewalld 查看状态：systemctl status firewalld 禁止防火墙自启：systemctl unenable firewalld } master·中·{选择时区：tzselect 5 9 1 1} master 作为 ntp 服务器，修改 ntp 配置文件。（master 上执行） { vi /etc/ntp.conf 写入 server 127.127.1.0 fudge 127.127.1.0 stratum 10 重启 ntp 服务： /bin/systemctl restart ntpd.service } 其他机器同步（slave1，slave2） ntpdate master 免密： ssh-keygen -t dsa -P

阅读更多关于 YARN

Apache Hadoop YARN （Yet Another Resource Negotiator，另一种资源协调者）是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。来源： https://www.cnblogs.com/hshy/p/12446569.html

spark在yarn上运行作业报错

阅读更多关于 spark在yarn上运行作业报错

spark在yarn上运行作业报错： java.lang.RuntimeException: Error in configuring object at org.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:112) at org.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:78) at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:136) at org.apache.spark.rdd.HadoopRDD.getInputFormat(HadoopRDD.scala:188) at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:201) at org.apache.spark.rdd.RDD KaTeX parse error: Can't use function '$' in math mode at position 8: anonfun$̲partitions$2.ap… anonfun$partitions 2. a p p

大数据高可用集群环境安装与配置（06）——安装Hadoop高可用集群

阅读更多关于大数据高可用集群环境安装与配置（06）——安装Hadoop高可用集群

下载Hadoop安装包登录 https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/ 镜像站，找到我们要安装的版本，点击进去复制下载链接安装Hadoop时要注意版本与后续安装的HBase、Spark等相关组件的兼容，不要安装了不匹配的版本，而导致某些组件需要重装输入命令进行安装操作 cd /usr/local/src/ wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz tar -zxvf hadoop-2.7.7.tar.gz mv hadoop-2.7.7 /usr/local/hadoop/ 修改服务器系统环境变量所有服务器都需要按要求修改配置 vi /etc/profile 在尾部添加下面配置 export HADOOP_HOME=/usr/local/hadoop/ export PATH=$PATH:$HADOOP_HOME/bin 保存退出后，运行命令，让配置马上生效 source /etc/profile 创建Hadoop需要的文件夹 # 所有服务器都需要执行创建hadoop的tmp文件夹 mkdir -p /data/hadoop/ #

hadoop-2.6.0-cdh5.16.2编译

阅读更多关于 hadoop-2.6.0-cdh5.16.2编译

centos7.4 新部署hadoop-2.6.0-cdh5.16.2集群，启动有警告，需要本地的hadoop库 [hadoop@node131 sbin]$ start-all.sh 20/03/07 18:27:03 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 根据网上命令确认无本地库 [hadoop@node131 sbin]$ hadoop checknative -a 20/03/07 18:36:04 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable Native library checking: hadoop: false zlib: false snappy: false lz4: false bzip2: false openssl: false 20/03/07 18:36:04 INFO util.ExitUtil: Exiting

Yarn框架和工作流程研究

阅读更多关于 Yarn框架和工作流程研究

一、概述将公司集群升级到Yarn已经有一段时间，自己也对Yarn也研究了一段时间，现在开始记录一下自己在研究Yarn过程中的一些笔记。这篇blog主要主要从大体上说说Yarn的基本架构以及其各个组件的功能。另外，主要将Yarn和MRv1做详细对比，包括Yarn相对于MRv1的各种改进。最后，大概说说Yarn的工作流情况。二、 Yarn和MRv1对比 (1)扩展性对比。在MRv1中，JobTracker是个重量级组件，集中了资源管理分配、作业控制两大核心功能，随着集群规模的增大，JobTracker处理各种RPC请求负载过重，这也是系统的最大瓶颈，严重制约了Hadoop集群的扩展性。相比之下，Yarn将JobTracker功能进行了拆分，拆分为全局组件ResourceManager、应用组件ApplicationMaster和JobHistoryServer。其中，ResourceManager负载整个系统资源的管理和分配，ApplicationMaster负载单个应用程序的相关管理(job的管理),JobHistoryServer负载日志的展示和收集工作。Yarn的这种功能拆分，将减轻了master节点的负载，其处理的RPC请求的压力得到减少。其实换句话Yarn是将这种负载进行了横向转移到子节点，这个可以通过ApplicationMaster(简称APP Mstr)的机制体现

第 5 节 Flink on yarn的两种方式

阅读更多关于第 5 节 Flink on yarn的两种方式

上篇：第 4 节 Flink standalone集群安装部署如图所示： 1、Flink on Yarn 的两种使用方式第一种【yarn-session.sh(开辟资源)+flink run(提交任务)】（1）修改etc/hadoop/yarn-site.xml //添加参数 < property > < name > yarn . nodemanager . vmem - check - enabled < / name > < value > false < / value > < / property > （2）修改后的文件，拷贝文件到其他机器上 [ root @Flink105 hadoop - 2.7 .2 ] # scp - rq etc / hadoop / yarn - site . xml flink106 : / opt / hadoop / module / hadoop - 2.7 .2 / etc / hadoop / [ root @Flink105 hadoop - 2.7 .2 ] # scp - rq etc / hadoop / yarn - site . xml flink107 : / opt / hadoop / module / hadoop - 2.7 .2 / etc / hadoop / （3）启动hadoop集群 [

YARN框架机制

阅读更多关于 YARN框架机制

YARN框架：资源调度在执行job.waitforcompletion(true)时候会启动一个进程 Runjar ，相当于MapReduce程序提交客户端，靠这个与集群通信 1.Runjar向ResourceManager申请一个job 2.ResourceManager给Runjar返回一个job资源提交的路径（staging- dir）和为本job产生一个jobID 3.Runjar提交资源到HDFS上去 4.Runjar向ResourceManager汇报提交结果 5.ResourceManager把本job加入任务队列 6.NodeManager通过心跳机制向ResourceManager获取任务 7.NodeManage产生container，分配运行资源容器，包括CPU、内存等资源；同时也会把文件资源加载到容器此时在container中代码、配置文件、资源都有了需要执行MapReduce，那么在哪台机器上运行，每个节点执行几个map，几个reduce，这些YARN就不知道了，YARN只做资源管理，它不能去启动mapreduce 由MapReduce框架封装的MRAPPMaster实现，就是mapreduce的应用程序的管理者，它是由YARN框架启动的 8.启动MRAPPMaster，到此YARN框架任务基本完成 9.MRAPPMaster向

大数据-yarn（一）

阅读更多关于大数据-yarn（一）

大数据-yarn（一） yarn（资源调度管理平台）的介绍 Apache Hadoop YARN(Yet Another Resource Negotiator)是Hadoop的子项目，为分离Hadoop2.0资源管理和计算组件而引入 YRAN具有足够的通用性，可以支持其它的分布式计算模式 yarn的架构 YARN是经典的主从（master/slave）架构 YARN服务由一个ResourceManager（RM）和多个NodeManager（NM）构成 ResourceManager为主节点（master） NodeManager为从节点（slave） ApplicationMaster可以在容器内运行任何类型的任务。例如，MapReduce, ApplicationMaster请求容器启动map或reduce任务，而Giraph ApplicationMaster请求容器运行Giraph任务。 ResourceManager ResourceManager是YARN中的 master 角色 RM是一个全局的资源管理器，集群只有一个对外提供服务负责整个系统的资源管理和分配包括处理客户端请求启动/监控 ApplicationMaster 监控 NodeManager、资源的分配与调度 RM主要由两个组件构成：调度器（Scheduler）应用程序管理器

订阅 yarn