yarn

Hadoop2- YARN - ApplicationMaster UI - Connection refused issue

浪尽此生 提交于 2021-02-19 05:26:45
问题 I'm getting below issue while accessing ApplicationMaster UI from the RM WebUI (hadoop 2.6.0). There is no standalone WebProxy server running. The Proxy is running as a part of ResourceManager. "HTTP ERROR 500 Problem accessing /proxy/application_1431357703844_0004/. Reason: Connection refused" Log entries in resourcemanager logs: 2015-05-11 19:25:01,837 INFO webproxy.WebAppProxyServlet (WebAppProxyServlet.java:doGet(330)) - ubuntu is accessing unchecked http://slave1:51704/ which is the app

Hadoop2- YARN - ApplicationMaster UI - Connection refused issue

眉间皱痕 提交于 2021-02-19 05:26:44
问题 I'm getting below issue while accessing ApplicationMaster UI from the RM WebUI (hadoop 2.6.0). There is no standalone WebProxy server running. The Proxy is running as a part of ResourceManager. "HTTP ERROR 500 Problem accessing /proxy/application_1431357703844_0004/. Reason: Connection refused" Log entries in resourcemanager logs: 2015-05-11 19:25:01,837 INFO webproxy.WebAppProxyServlet (WebAppProxyServlet.java:doGet(330)) - ubuntu is accessing unchecked http://slave1:51704/ which is the app

Getting “org.apache.spark.sql.AnalysisException: Path does not exist” from SparkSession.read() [duplicate]

人走茶凉 提交于 2021-02-18 17:44:26
问题 This question already has an answer here : How to get path to the uploaded file (1 answer) Closed 2 years ago . I am trying to read a file submitted by spark-submit to yarn cluster in client mode. Putting file in HDFS is not an option. Here's what I've done: def main(args: Array[String]) { if (args != null && args.length > 0) { val inputfile: String = args(0) //get filename: train.csv val input_filename = inputfile.split("/").toList.last val d = SparkSession.read .option("header", "true")

Hadoop 2.0 ApplicationMaster vs NodeManager

风流意气都作罢 提交于 2021-02-18 08:03:53
问题 I am having trouble identifying the differences between the ApplicationMaster and NodeManager in the Hadoop 2.0 architecture. I know that the ApplicationMaster is responsible for running the map and reduce tasks and it retrieves containers to run these tasks by coordinating with the ResourceManager. But I am confused on the purpose of the NodeManager. Does the NodeManager create the containers for the ApplicationMaster (to run those map and reduce tasks) or does the ResourceManager create the

Hadoop 2.0 ApplicationMaster vs NodeManager

谁都会走 提交于 2021-02-18 08:03:26
问题 I am having trouble identifying the differences between the ApplicationMaster and NodeManager in the Hadoop 2.0 architecture. I know that the ApplicationMaster is responsible for running the map and reduce tasks and it retrieves containers to run these tasks by coordinating with the ResourceManager. But I am confused on the purpose of the NodeManager. Does the NodeManager create the containers for the ApplicationMaster (to run those map and reduce tasks) or does the ResourceManager create the

HBase笔记(2)架构解析(未写完,改天写)

半世苍凉 提交于 2021-02-17 18:52:45
HBase基本架构: RegionServer的作用 Data (某一行或者几行数据的操作):get, put, delete (查、增、删,改是通过时间戳timestamp控制的) Region (相当于水平分表): splitRegion(切分), compactRegion(合并) Master的作用: Table:create, delete, alter RegionServer: 分配regions到每个RegionServer,监控每个RegionServer的状态。 注意:Mater挂掉的一段时间里面,对数据的增删改查,没问题;对表的操作,不能够了! 也就是说Master其实管两件事情: 1)Master管理的DDL操作,不管DML的事情。 2)Master根据负载情况,决定把数据给哪个region(region XXX),即当前表给谁维护。 Master存在单点故障。所以需要高可用。 (Hadoop1.0不带高可用,Hadoop2.0可以高可用但是相对比较麻烦,Hadoop3.0自带高可用) RegionServer管理DML操作,直接和数据操作。 搭建HBase环境需要启动的清单: 1)Zookeeper 2)Master 3)RegionServer 4)HDFS Yarn可以不启动。因为这部分和Yarn没关系,Yarn是调度资源做计算的

Vue入坑教程(一)——搭建vue-cli脚手架

一世执手 提交于 2021-02-17 12:46:21
1. Vue 简介 详细内容可以参考官网 Vue.js 1)兼容性 Vue 不支持 IE8 及以下版本 ,因为 Vue 使用了 IE8 无法模拟的 ECMAScript 5 特性。但它支持所有兼容 ECMAScript 5 的浏览器。 目前 ECMAScript 6 已经渐渐流行起来,但是有一些浏览器还不完全支持,所以在使用 ECMAScript 6 时,可以通过 Babel转码器 进行转换 2)使用方式 (1) 直接用 <script> 引入 直接在 html 页面中引入 <script> , Vue 会被注册为一个全局变量。 <script src="https://cdn.jsdelivr.net/npm/vue@2.5.16/dist/vue.js"></script> 这个适合单独的 H5 页面的使用 (2)命令行工具 vue-cli 适合构建大型应用,配合 npm , npm 能很好的和 webpack 等模块打包器配合使用。 # 全局安装vue最新版 $ npm install vue 2. 环境搭建 1)安装 node.js 傻瓜式安装,官网下载 node.js ,一路点击 下一步 安装。 打开 命令行工具 ,输入 node -v ,如果显示 node 版本号 ,则表示安装成功。 **注意:**官网安装的 node.js 后,就已经自带 包管理工具npm 2

Hadoop优化

蹲街弑〆低调 提交于 2021-02-16 23:18:44
MapReduce 跑的慢 的原因 Mapreduce 程序效率的瓶颈在于两点: 1)计算机性能 CPU、内存、磁盘健康、网络 2)I/O 操作优化 (1)数据倾斜 (2)map 和 reduce 数设置不合理 (3)map 运行时间太长,导致 reduce 等待过久 (4)小文件过多 (5)大量的不可分块的超大文件 (6)spill 次数过多 (7)merge 次数过多等。 MapReduce 优化方法 MapReduce 优化方法主要从六个方面考虑:数据输入、Map 阶段、Reduce 阶段、IO 传 输、数据倾斜问题和常用的调优参数。 数据输入 (1)合并小文件:在执行 mr 任务前将小文件进行合并,大量的小文件会产生大量的 map 任务,增大 map 任务装载次数,而任务的装载比较耗时,从而导致 mr 运行较慢。 (2)采用 CombineTextInputFormat 来作为输入,解决输入端大量小文件场景。 Map 阶段 1 )减少 溢写( (spill) ) 次数:通过调整 io.sort.mb 及 sort.spill.percent 参数值,增大触发 spill 的内存上限,减少 spill 次数,从而减少磁盘 IO。 2 )减少 合并( (merge) ) 次数:通过调整 io.sort.factor 参数,增大 merge 的文件数目,减 少 merge 的次数

spark checkpoint详解

纵饮孤独 提交于 2021-02-14 21:34:00
checkpoint在spark中主要有两块应用:一块是在spark core中对RDD做checkpoint,可以切断做checkpoint RDD的依赖关系,将RDD数据保存到可靠存储(如HDFS)以便数据恢复;另外一块是应用在spark streaming中,使用checkpoint用来保存DStreamGraph以及相关配置信息,以便在Driver崩溃重启的时候能够接着之前进度继续进行处理(如之前waiting batch的job会在重启后继续处理)。 本文主要将详细分析checkpoint在以上两种场景的读写过程。 1,spark core中checkpoint分析 1.1,checkpoint的使用方法 使用checkpoint对RDD做快照大体如下: sc.setCheckpointDir(checkpointDir.toString) val rdd = sc.makeRDD(1 to 20, numSlices = 1) rdd.checkpoint() 首先,设置checkpoint的目录(一般是hdfs目录),这个目录用来将RDD相关的数据(包括每个partition实际数据,以及partitioner(如果有的话))。然后在RDD上调用checkpoint的方法即可。 1.2,checkpoint写流程 可以看到checkpoint使用非常简单

spark streaming checkpoint

て烟熏妆下的殇ゞ 提交于 2021-02-14 21:33:38
一个 Streaming Application 往往需要7*24不间断的跑,所以需要有抵御意外的能力(比如机器或者系统挂掉,JVM crash等)。为了让这成为可能,Spark Streaming需要 checkpoint 足够多信息至一个具有容错设计的存储系统才能让 Application 从失败中恢复。Spark Streaming 会 checkpoint 两种类型的数据。 Metadata(元数据) checkpointing - 保存定义了 Streaming 计算逻辑至类似 HDFS 的支持容错的存储系统。用来恢复 driver,元数据包括: 配置 - 用于创建该 streaming application 的所有配置 DStream 操作 - DStream 一些列的操作 未完成的 batches - 那些提交了 job 但尚未执行或未完成的 batches Data checkpointing - 保存已生成的RDDs至可靠的存储。这在某些 stateful 转换中是需要的,在这种转换中,生成 RDD 需要依赖前面的 batches,会导致依赖链随着时间而变长。为了避免这种没有尽头的变长,要定期将中间生成的 RDDs 保存到可靠存储来切断依赖链 总之,metadata checkpointing 主要用来恢复 driver;而 RDD数据的