yarn | 易学教程

Hadoop2- YARN - ApplicationMaster UI - Connection refused issue

阅读更多关于 Hadoop2- YARN - ApplicationMaster UI - Connection refused issue

问题 I'm getting below issue while accessing ApplicationMaster UI from the RM WebUI (hadoop 2.6.0). There is no standalone WebProxy server running. The Proxy is running as a part of ResourceManager. "HTTP ERROR 500 Problem accessing /proxy/application_1431357703844_0004/. Reason: Connection refused" Log entries in resourcemanager logs: 2015-05-11 19:25:01,837 INFO webproxy.WebAppProxyServlet (WebAppProxyServlet.java:doGet(330)) - ubuntu is accessing unchecked http://slave1:51704/ which is the app

Hadoop2- YARN - ApplicationMaster UI - Connection refused issue

阅读更多关于 Hadoop2- YARN - ApplicationMaster UI - Connection refused issue

Getting “org.apache.spark.sql.AnalysisException: Path does not exist” from SparkSession.read() [duplicate]

阅读更多关于 Getting “org.apache.spark.sql.AnalysisException: Path does not exist” from SparkSession.read() [duplicate]

问题 This question already has an answer here : How to get path to the uploaded file (1 answer) Closed 2 years ago . I am trying to read a file submitted by spark-submit to yarn cluster in client mode. Putting file in HDFS is not an option. Here's what I've done: def main(args: Array[String]) { if (args != null && args.length > 0) { val inputfile: String = args(0) //get filename: train.csv val input_filename = inputfile.split("/").toList.last val d = SparkSession.read .option("header", "true")

Hadoop 2.0 ApplicationMaster vs NodeManager

阅读更多关于 Hadoop 2.0 ApplicationMaster vs NodeManager

问题 I am having trouble identifying the differences between the ApplicationMaster and NodeManager in the Hadoop 2.0 architecture. I know that the ApplicationMaster is responsible for running the map and reduce tasks and it retrieves containers to run these tasks by coordinating with the ResourceManager. But I am confused on the purpose of the NodeManager. Does the NodeManager create the containers for the ApplicationMaster (to run those map and reduce tasks) or does the ResourceManager create the

Hadoop 2.0 ApplicationMaster vs NodeManager

阅读更多关于 Hadoop 2.0 ApplicationMaster vs NodeManager

HBase笔记（2）架构解析（未写完，改天写）

阅读更多关于 HBase笔记（2）架构解析（未写完，改天写）

HBase基本架构： RegionServer的作用 Data （某一行或者几行数据的操作）：get, put, delete （查、增、删，改是通过时间戳timestamp控制的） Region （相当于水平分表）: splitRegion（切分）, compactRegion（合并） Master的作用： Table：create, delete, alter RegionServer: 分配regions到每个RegionServer，监控每个RegionServer的状态。注意：Mater挂掉的一段时间里面，对数据的增删改查，没问题；对表的操作，不能够了！也就是说Master其实管两件事情： 1）Master管理的DDL操作，不管DML的事情。 2）Master根据负载情况，决定把数据给哪个region（region XXX），即当前表给谁维护。 Master存在单点故障。所以需要高可用。（Hadoop1.0不带高可用，Hadoop2.0可以高可用但是相对比较麻烦，Hadoop3.0自带高可用） RegionServer管理DML操作，直接和数据操作。搭建HBase环境需要启动的清单： 1）Zookeeper 2）Master 3）RegionServer 4）HDFS Yarn可以不启动。因为这部分和Yarn没关系，Yarn是调度资源做计算的

Vue入坑教程（一）——搭建vue-cli脚手架

阅读更多关于 Vue入坑教程（一）——搭建vue-cli脚手架

1. Vue 简介详细内容可以参考官网 Vue.js 1）兼容性 Vue 不支持 IE8 及以下版本，因为 Vue 使用了 IE8 无法模拟的 ECMAScript 5 特性。但它支持所有兼容 ECMAScript 5 的浏览器。目前 ECMAScript 6 已经渐渐流行起来，但是有一些浏览器还不完全支持，所以在使用 ECMAScript 6 时，可以通过 Babel转码器进行转换 2）使用方式（1）直接用 <script> 引入直接在 html 页面中引入 <script> ， Vue 会被注册为一个全局变量。 <script src="https://cdn.jsdelivr.net/npm/vue@2.5.16/dist/vue.js"></script> 这个适合单独的 H5 页面的使用（2）命令行工具 vue-cli 适合构建大型应用，配合 npm ， npm 能很好的和 webpack 等模块打包器配合使用。 # 全局安装vue最新版 $ npm install vue 2. 环境搭建 1）安装 node.js 傻瓜式安装，官网下载 node.js ，一路点击下一步安装。打开命令行工具，输入 node -v ，如果显示 node 版本号，则表示安装成功。 **注意：**官网安装的 node.js 后，就已经自带包管理工具npm 2

Hadoop优化

阅读更多关于 Hadoop优化

MapReduce 跑的慢的原因 Mapreduce 程序效率的瓶颈在于两点： 1）计算机性能 CPU、内存、磁盘健康、网络 2）I/O 操作优化（1）数据倾斜（2）map 和 reduce 数设置不合理（3）map 运行时间太长，导致 reduce 等待过久（4）小文件过多（5）大量的不可分块的超大文件（6）spill 次数过多（7）merge 次数过多等。 MapReduce 优化方法 MapReduce 优化方法主要从六个方面考虑：数据输入、Map 阶段、Reduce 阶段、IO 传输、数据倾斜问题和常用的调优参数。数据输入（1）合并小文件：在执行 mr 任务前将小文件进行合并，大量的小文件会产生大量的 map 任务，增大 map 任务装载次数，而任务的装载比较耗时，从而导致 mr 运行较慢。（2）采用 CombineTextInputFormat 来作为输入，解决输入端大量小文件场景。 Map 阶段 1 ）减少溢写（（spill））次数：通过调整 io.sort.mb 及 sort.spill.percent 参数值，增大触发 spill 的内存上限，减少 spill 次数，从而减少磁盘 IO。 2 ）减少合并（（merge））次数：通过调整 io.sort.factor 参数，增大 merge 的文件数目，减少 merge 的次数

spark checkpoint详解

阅读更多关于 spark checkpoint详解

checkpoint在spark中主要有两块应用：一块是在spark core中对RDD做checkpoint，可以切断做checkpoint RDD的依赖关系，将RDD数据保存到可靠存储（如HDFS）以便数据恢复；另外一块是应用在spark streaming中，使用checkpoint用来保存DStreamGraph以及相关配置信息，以便在Driver崩溃重启的时候能够接着之前进度继续进行处理（如之前waiting batch的job会在重启后继续处理）。本文主要将详细分析checkpoint在以上两种场景的读写过程。 1，spark core中checkpoint分析 1.1，checkpoint的使用方法使用checkpoint对RDD做快照大体如下： sc.setCheckpointDir(checkpointDir.toString) val rdd = sc.makeRDD(1 to 20, numSlices = 1) rdd.checkpoint() 首先，设置checkpoint的目录（一般是hdfs目录），这个目录用来将RDD相关的数据（包括每个partition实际数据，以及partitioner（如果有的话））。然后在RDD上调用checkpoint的方法即可。 1.2，checkpoint写流程可以看到checkpoint使用非常简单

spark streaming checkpoint

阅读更多关于 spark streaming checkpoint

一个 Streaming Application 往往需要7*24不间断的跑，所以需要有抵御意外的能力（比如机器或者系统挂掉，JVM crash等）。为了让这成为可能，Spark Streaming需要 checkpoint 足够多信息至一个具有容错设计的存储系统才能让 Application 从失败中恢复。Spark Streaming 会 checkpoint 两种类型的数据。 Metadata（元数据） checkpointing - 保存定义了 Streaming 计算逻辑至类似 HDFS 的支持容错的存储系统。用来恢复 driver，元数据包括：配置 - 用于创建该 streaming application 的所有配置 DStream 操作 - DStream 一些列的操作未完成的 batches - 那些提交了 job 但尚未执行或未完成的 batches Data checkpointing - 保存已生成的RDDs至可靠的存储。这在某些 stateful 转换中是需要的，在这种转换中，生成 RDD 需要依赖前面的 batches，会导致依赖链随着时间而变长。为了避免这种没有尽头的变长，要定期将中间生成的 RDDs 保存到可靠存储来切断依赖链总之，metadata checkpointing 主要用来恢复 driver；而 RDD数据的

订阅 yarn