yarn

ubuntu安装node环境管理器nvm

烈酒焚心 提交于 2020-02-01 01:56:34
nvm是一个类似Anaconda和pipenv的环境管理器。 安装的ubuntu版本18.04.03 安装 curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.35.2/install.sh | bash 或者 wget -qO- https://raw.githubusercontent.com/nvm-sh/nvm/v0.35.2/install.sh | bash 检查版本 nvm --version 检查可用node版本 nvm ls-remote 就可以查看远端可提供的node版本 安装node nvm install v12.14.0 就可以安装对应的版本 查看安装的node版本 -> v10.18.0 v12.14.0 default -> v12.14.0 node -> stable ( -> v12.14.0 ) (default) stable -> 12.14 ( -> v12.14.0 ) (default) iojs -> N/A (default) unstable -> N/A (default) lts/* -> lts/erbium ( -> v12.14.0 ) lts/argon -> v4.9.1 ( -> N/A ) lts/boron -> v6.17.1 ( -> N/A

YARN资源调度策略之Fair Scheduler

非 Y 不嫁゛ 提交于 2020-01-30 18:56:17
目的 这篇文章是对公平调度器(FairScheduler)的说明,它是hadoop的一个可插拔的调度器,目的是让应用程序在YARN上能够公平的共享巨大的集群资源。 介绍 公平调度是一种将资源分配给应用程序的方法,这样所有应用程序平均都能在一段时间内获得相同的资源份额。Hadoop NextGen能够调度多个资源类型。默认情况下,Fair调度器仅基于内存来进行公平性决策。利用Ghodsi等人提出的占主导地位的资源公平性概念,可以将其配置为同时使用内存和CPU进行调度。当只有一个应用程序运行时,该应用程序将使用整个群集资源。当其他应用被提交时,释放的资源被分配给新的应用,这样每个应用最终获得的资源量大致相同。与默认的Hadoop调度程序(它构造一个应用程序队列)不同,它允许小的应用程序在合理的时间内完成,而不会使耗时长的应用挨饿。这也是在多个用户之间共享集群的合理方法。最后,公平分享也可以与应用程序优先级一起工作-优先级被用作权重,以确定每个应用程序应获得的总资源的百分比。 调度程序将应用程序进一步组织到“队列”中,并在这些队列之间公平地共享资源。默认情况下,所有用户共享一个名为“default”的队列。如果应用程序在容器资源请求中明确列出队列,则请求将提交到该队列。还可以通过配置根据请求中包含的用户名分配队列。在每个队列中,调度策略用于在运行的应用程序之间共享资源

3.spark 集群模式安装

谁说我不能喝 提交于 2020-01-30 02:13:39
集群模式说明 安装JDK/Scala 安装hadoop 安装Spark 下载 安装 测试 开启独立集群 开启shell 执行语句测试 集群模式说明 如第一节所说,spark依赖的存储引擎和资源调度框架均可以替换,上一节默认都在本地,要改成集群模式,只需要把对应的存储引擎和资源调度框架替换上即可。 这里主要讲独立集群模式(standlone)和yarn集群模式:前者只依赖hdfs作为存储,使用standlone自带的master和worker作为计算资源;后者依赖hdfs作为存储,依赖yarn调度分配计算资源。 安装JDK/Scala 参考前文 安装hadoop 参考前文 standlone模式我们只需要使用HDFS作为存储,所以只需要start-dfs.sh启动分布式文件系统即可;yarn模式还需要start-yarn.sh开启yarn调度集群。 安装Spark 下载 下载位置 http://spark.apache.org/downloads.html 注意选择适合对应hadoop版本的spark,点击下载会自动选择最近的镜像下载 当前安装使用2.3.3版本 安装 解压 如下解压后,进入conf目录 tar -zxf spark-2.3.3-bin-hadoop2.7 配置SPARK_HOME并添加到PATH中 配置 spark-env.sh.template改名为spark

day_03小笔记

≡放荡痞女 提交于 2020-01-29 22:18:32
HDFS的API操作 1.准备工作: 启动集群:start-all.sh 登录 http://hdp-1:50070/ 2.在idea里从hdfs下载文件到本地磁盘 package com.zpark.hdfs; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.junit.Test; import java.io.File; import java.io.IOException; import java.net.URI; public class HdfsClient { //如果这个上传成功了,说明hadoop环境配置成功 // 首先申请获得资源 // URI 统一资源标志符 @Test public void put()throws IOException,InterruptedException{ // FileSystem fileSystem =FileSystem.get(URI.create("hdfs://hdp-1:9000"),new Configuration(),"root"); // fileSystem.copyFromLocalFile(new

Mac Homebrew指南及其出错分析

落爺英雄遲暮 提交于 2020-01-29 18:15:00
Mac Homebrew指南 安装: 出错分析: 问题描述 解决办法 常用命令: 安装: 在终端输入命令 /usr/bin/ruby -e " $( curl -fsSL https:// raw.githubusercontent.com/Homebrew/install/master/install ) " 如果遇到警告 /usr/local/bin is not in your PATH . 解决办法: 在Linux操作系统下,配置环境变量是使用如下命令: vim /etc/profile 在OSX下,我们用如下命令打开环境变量配置文件: open ~/.bash_profile 添加: export PATH=/usr/local/bin:$PATH source ~/.bash_profile 更新配置后的环境变量 出错分析: 问题描述 安装brew时遇到了如下错误: curl: ( 7 ) Failed to connect to raw.githubusercontent.com port 443: Connection refused 解决办法 使用Chrome或者Safari打开如下链接 https://raw.githubusercontent.com/Homebrew/install/master/install 按下快捷键Commond

Apache 流框架Flink简介

烈酒焚心 提交于 2020-01-29 10:57:11
1.Flink架构及特性分析 Flink是个相当早的项目,开始于2008年,但只在最近才得到注意。Flink是原生的流处理系统,提供high level的API。Flink也提供 API来像Spark一样进行批处理,但两者处理的基础是完全不同的。Flink把批处理当作流处理中的一种特殊情况。在Flink中,所有 的数据都看作流,是一种很好的抽象,因为这更接近于现实世界。 在国外一些社区,有很多人将大数据的计算引擎分成了 4 代,当然,也有很多人不会认同。首先第一代的计算引擎,无疑就是 Hadoop 承载的 MapReduce。这里大家应该都不会对 MapReduce 陌生,它将计算分为两个阶段,分别为 Map 和 Reduce。对于上层应用来说,就不得不想方设法去拆分算法,甚至于不得不在上层应用实现多个 Job 的串联,以完成一个完整的算法,例如迭代计算。由于这样的弊端,催生了支持 DAG 框架的产生。因此,支持 DAG 的框架被划分为第二代计算引擎。如 Tez 以及更上层的 Oozie。这里我们不去细究各种 DAG 实现之间的区别,不过对于当时的 Tez 和 Oozie 来说,大多还是批处理的任务。接下来就是以 Spark 为代表的第三代的计算引擎。第三代计算引擎的特点主要是 Job 内部的 DAG 支持(不跨越Job),以及强调的实时计算。在这里

YARN资源调度策略之Capacity Scheduler

情到浓时终转凉″ 提交于 2020-01-28 15:58:49
什么是capacity scheduler Capacity Scheduler调度器以队列为单位划分资源。简单通俗点来说,就是一个个队列有独立的资源,队列的结构和资源是可以进行配置的,如下图: default队列占30%资源,analyst和dev分别占40%和30%资源;类似的,analyst和dev各有两个子队列,子队列在父队列的基础上再分配资源。 队列以分层方式组织资源,设计了多层级别的资源限制条件以更好的让多用户共享一个Hadoop集群,比如队列资源限制、用户资源限制、用户应用程序数目限制。队列里的应用以FIFO方式调度,每个队列可设定一定比例的资源最低保证和使用上限,同时,每个用户也可以设定一定的资源使用上限以防止资源滥用。而当一个队列的资源有剩余时,可暂时将剩余资源共享给其他队列。 特性 Capacity调度器具有以下的几个特性: 层次化的队列设计,这种层次化的队列设计保证了子队列可以使用父队列设置的全部资源。这样通过层次化的管理,更容易合理分配和限制资源的使用。 容量保证,队列上都会设置一个资源的占比,这样可以保证每个队列都不会占用整个集群的资源。 安全,每个队列有严格的访问控制。用户只能向自己的队列里面提交任务,而且不能修改或者访问其他队列的任务。 弹性分配,空闲的资源可以被分配给任何队列。当多个队列出现争用的时候,则会按照比例进行平衡。 多租户租用

hadoop常用的调优参数

落花浮王杯 提交于 2020-01-28 12:43:49
1)资源相关参数 (1)以下参数是在用户自己的mr应用程序中配置就可以生效(mapred-default.xml) 配置参数 参数说明 mapreduce.map.memory.mb 一个Map Task可使用的资源上限(单位:MB),默认为1024。如果Map Task实际使用的资源量超过该值,则会被强制杀死。 mapreduce.reduce.memory.mb 一个Reduce Task可使用的资源上限(单位:MB),默认为1024。如果Reduce Task实际使用的资源量超过该值,则会被强制杀死。 mapreduce.map.cpu.vcores 每个Map task可使用的最多cpu core数目,默认值: 1 mapreduce.reduce.cpu.vcores 每个Reduce task可使用的最多cpu core数目,默认值: 1 mapreduce.reduce.shuffle.parallelcopies 每个reduce去map中拿数据的并行数。默认值是5 mapreduce.reduce.shuffle.merge.percent buffer中的数据达到多少比例开始写入磁盘。默认值0.66 mapreduce.reduce.shuffle.input.buffer.percent buffer大小占reduce可用内存的比例。默认值0.7

spark高可用,yarn

对着背影说爱祢 提交于 2020-01-28 08:35:20
1.配置spark-env.sh # 配置大哥;在二哥上面,MASTER_PORT=指的是自己 SPARK_MASTER_HOST=hadoop102 # 设置zookeepr,不能换行 SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=hadoop101:2181,hadoop102:2181,hadoop103:2181 -Dspark.deploy.zookeeper.dir=/spark" # 告诉Spark,hadoop放到哪里面了,前题是每一个Spark,的服务器上都装有hadoop HADOOP_CONF_DIR=/data/hadoop/hadoop-3.2.1/etc/hadoop/ 配置二哥MASTER_PORT=指的是自己 SPARK_MASTER_HOST=hadoop101 2.配置slaves #配置的小弟 hadoop103 hadoop104 3.启动 启动zookeeper bin/zkServer.sh 启动hadoop sbin/start-all.sh 启动spark sbin/start-all.sh 停止spark sbin/stop-all.sh 注意查看spark的web端的时候

[Yarn] Use Yarn dlx to Execute Packages without Installing Them

╄→尐↘猪︶ㄣ 提交于 2020-01-27 22:54:41
yarn dlx can be used to run packages without installing them. This is useful for packages like create-react-app and gatsby that scaffold out apps for you, so you don't have to keep updating your global versions. yarn dlx create-react-app newapp 来源: https://www.cnblogs.com/Answer1215/p/12237046.html