yarn

Apache Hadoop 2.9.2 的HDFS High Available模式部署

↘锁芯ラ 提交于 2020-05-03 22:48:31
               Apache Hadoop 2.9.2 的HDFS High Available 模式部署                                         作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。   我们知道,当NameNode进程挂掉后,可以通过SecondName进行补救,我们可以快速进行恢复操作。但是其效率极低,可能等你启动集群成功后,半小时就过去了,会严重影响业务!这个时候我们就需要对NameNode做高可用。我们可以通过双NameNode消除单点故障。 一.HA概述 1>.所谓High Available,简称HA,即高可用(7*24小时不中断服务)。 2>.实现高可用最关键对策略是消除单点故障。HA严格来说应该分成各个组建对HA机制:HDFS对HA和YARN的HA。 3>.Hadoop2.0版本之前,在HDFS集群中NameNode存在单点故障(SPOF) 4>.NameNode主要在以下两个方面影响HDFS集群:   第一:NameNode机器发生意外,如宕机,集群将无法使用,知道管理员重启。   第二:NameNode机器需要升级,包括软件,硬件升级,此时集群也将无法使用。   HDFS HA功能通过配置Active

内存模型学习-- Container Executor task之间的关系

一曲冷凌霜 提交于 2020-05-03 17:51:36
(分割线前的都是废话) java8内存模型: http://www.cnblogs.com/paddix/p/5309550.html http://www.cnblogs.com/dingyingsi/p/3760447.html 帖子里提到 5、方法区: 方法区也是所有线程共享。主要用于存储类的信息、常量池、方法数据、方法代码等。 方法区逻辑上属于堆的一部分,但是为了与堆进行区分,通常又叫“ 非堆 ”。 1.7和1.8后这个方法区 没有了,被原空间取代了 不过元空间与永久代之间最大的区别在于: 元空间并不在虚拟机中,而是使用本地内存 。因此,默认情况下,元空间的大小仅受本地内存限制,但可以通过以下参数来指定元空间的大小: --------------分割线--------------------------------------------------------------------------------- 那么这些jvm在yarn 和spark的内存模型上是怎么工作的? 其实我是想知道: spark on yarn下 一个yarn的Container 可以包含几个spark Executor? 还是一个Executor 下可以有多个Container ? 是一个Container 起了一个jvm,在这个jvm下执行多个task? 一篇帖子 spark架构 中提到

如何为Spark应用程序分配--num-executors,--execuor-cores和--executor-memory

柔情痞子 提交于 2020-05-03 17:37:42
文章目录 前言 一些资源参数设置的基本知识 不同配置的优劣分析 第一种方法:使用较小的executors 第二种方法:使用较大的executors 第三种方法:使用优化的executors 前言 在我们提交spark程序时,应该如何为Spark集群配置–num-executors, - executor-memory和–execuor-cores 呢? 一些资源参数设置的基本知识 Hadoop / Yarn / OS Deamons 当我们使用像Yarn这样的集群管理器运行spark应用程序时,会有几个守护进程在后台运行,如NameNode,Secondary NameNode,DataNode,JobTracker和TaskTracker等。因此,在指定num-executors时,我们需要确保为这些守护进程留下足够的核心(至少每个节点约1 CPU核)以便顺利运行。 Yarn ApplicationMaster(AM) ApplicationMaster负责协调来自ResourceManager的资源,并与NodeManagers一起执行container并监控其资源消耗。如果我们在YARN上运行Spark,那么我们需要预估运行AM所需要的资源(至少1024MB和1 CPU核)。 HDFS吞吐量 HDFS客户端遇到大量并发线程会出现一些bug。一般来说

TusP/wps-view-vue

爱⌒轻易说出口 提交于 2020-05-02 14:10:15
项目介绍 本项目采用VUE + ES6实现,其中jwps.es6.js是由WPS开发组特别提供,本项目对该js做了部分调整 本次更新 增加新建模版入口,快速新建word,excel,ppt文件 增加上传、删除等文件管理入口 调整目录结构,调整vueconfig 特别注意 次前端工程必须配合后台部分使用 main.js 中的axios.defaults.baseURL请自行更换,必须和 wps开放平台 上的回调URL一致 演示地址 https://ljserver.cn/wpsonline 后台java代码地址 https://gitee.com/mose-x/wps-view-java.git 安装依赖 yarn install 开发运行 yarn serve 生产打包 yarn build 来源: oschina 链接: https://my.oschina.net/u/4393870/blog/4262004

.NET Core前后端分离快速开发框架(Core.3.1+AntdVue)

ⅰ亾dé卋堺 提交于 2020-05-02 14:03:44
.NET Core前后端分离快速开发框架(Core.3.1+AntdVue) 引言 简介 环境搭建 开发环境要求: 基础数据库构建: 数据库设计规范 运行 使用教程 系统配置 快速开发 管理员登录 系统用户管理 系统角色管理 权限管理 接口秘钥管理 系统日志 操作日志 事务使用 读写分离分库分表 常见疑问 如何进行联表查询 如何切换数据库类型 如何使用多个数据库 结语 引言 时间真快,转眼今年又要过去了。回想今年,依次开源发布了 Colder.Fx.Net.AdminLTE(254Star) 、 Colder.Fx.Core.AdminLTE(335Star) 、 DotNettySocket(82Star) 、 IdHelper(47Star) ,这些框架及组件都是本着以实际出发,实事求是的态度,力求提高开发效率(我自己都是第一个使用者),目前来看反响不错。但是随着前端和后端技术的不断变革,尤其是前端,目前大环境已经是前后端完全分离为主的开发模式,在这样的大环境和必然趋势之下,传统的MVC就显得有些落伍了。在这样的背景下,一款前后端分离的.NET开发框架就显得尤为必要,由此便定了框架的升级目标: 前后端分离 。 首先后端技术的选择,从目前的数据来看,.NET Core的发展远远快于.NET Framework,最简单的分析就是Colder.Fx.Core

spark-submit 参数总结

痴心易碎 提交于 2020-05-02 10:31:19
spark-submit 可以提交任务到 spark 集群执行,也可以提交到 hadoop 的 yarn 集群执行。 1)./spark-shell --help :不知道如何使用,可通过它查看命令帮助,[]中括号里面的表示可选的。 2)重要参数讲解: --master master 的地址,提交任务到哪里执行,例如 spark://host:port, yarn, local --name 这个是指定你的application name 应用名称。 --jars 这个是用comma逗号分隔的一系列包含driver和executor的环境变量的包。 --conf 这个是指定一些配置的参数。 --driver-* 这个是指定driver的memory、class-path等。 --executor-memory 这个是设置executor端的内存。 --executor-core 指定executor的core资源 --driver-core 指定driver的core资源 --queue 生产上肯定是以队列的方式来提交的 --num-executor 指定executor 执行者的个数 ----------------------------------------------------------------------------- 原文:https://blog.csdn

【Spark调优】提交job资源参数调优

谁都会走 提交于 2020-05-02 10:30:46
【场景】   Spark提交作业job的时候要指定该job可以使用的CPU、内存等资源参数,生产环境中,任务资源分配不足会导致该job执行中断、失败等问题,所以对Spark的job资源参数分配调优非常重要。   spark提交作业,yarn-cluster模式示例:   ./bin/spark-submit\   --class com.ww.rdd.wordcount \   --master yarn \   --deploy-mode cluster \   --executor-memory 4G \   --num-executors 50 \    --driver-memory 1G \   --conf spark.default.parallelism=1000 \    --conf spark.memory.fraction =0.75 \    --conf spark.memory.storageFraction =0.5 \   /home/spark/wordcount.jar \   1000 #入参 【参数】 num-executors    参数说明 :该参数用于设置每个Spark作业总共要用多少个Executor进程来执行。例如Driver向YARN集群管理器申请资源时

spark-submit部署应用的相关参数详解

人走茶凉 提交于 2020-05-02 10:30:12
a.[--master]:表示要连接的集群管理器   spark://host:port:连接到指定端口的Spark独立集群上。默认情况下Spark 独立主节点使用7077端口   mesos://host:port:连接到指定端口的Mesos 集群上。默认情况下Mesos 主节点监听5050端口   yarn :连接到一个YARN 集群。当在YARN上运行时,需要设置环境变量HADOOP_CONF_DIR指向Hadoop 配置目录,以获取集群信息   local:运行本地模式,使用单核   local[N]:运行本地模式,使用N个核心   local[*]:运行本地模式,使用尽可能多的核心 b.[--deploy-mode]:选择driver驱动管理器在“client”和“cluster”运行;   在集群管理器上,如果是“client”提交,那么驱动管理器在client运行;   如果是“cluster”提交,那么驱动管理器在集群上运行;   如:在spark on yarn模式下:     在slave1节点上执行:{spark-submit --master yarn --deploy-mode client},那么spark-submit守护进程在slave1上     在slave1节点上执行:{spark-submit --master yarn --deploy

spark 指定相关的参数配置 num-executor executor-memory executor-cores

[亡魂溺海] 提交于 2020-05-02 09:42:48
num-executors 参数说明:该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上,启动相应数量的Executor进程。这个参数非常之重要,如果不设置的话,默认只会给你启动少量的Executor进程,此时你的Spark作业的运行速度是非常慢的。 参数调优建议:每个Spark作业的运行一般设置50~100个左右的Executor进程比较合适,设置太少或太多的Executor进程都不好。设置的太少,无法充分利用集群资源;设置的太多的话,大部分队列可能无法给予充分的资源。 executor-memory 参数说明:该参数用于设置每个Executor进程的内存。Executor内存的大小,很多时候直接决定了Spark作业的性能,而且跟常见的JVM OOM异常,也有直接的关联。 参数调优建议:每个Executor进程的内存设置4G~8G较为合适。但是这只是一个参考值,具体的设置还是得根据不同部门的资源队列来定。可以看看自己团队的资源队列的最大内存限制是多少,num-executors乘以executor-memory,就代表了你的Spark作业申请到的总内存量(也就是所有Executor进程的内存总和),这个量是不能超过队列的最大内存量的。此外

Hadoop-MR实现日志清洗(四)

▼魔方 西西 提交于 2020-05-02 02:53:36
Hadoop-MR实现日志清洗(四) 6.单机部署Hadoop(伪分布式) 在我们自己购买的阿里云Linux主机上部署单机hadoop,测试我们的mapreduce程序。也可以在windows上安装虚拟机部署。 6.1配置Java环境 下载jdk-8u171-linux-x64.tar.gz后上传到主机,解压缩: tar zxf jdk-8u171-linux-x64.tar.gz 得到文件夹:jdk1.8.0_171 我们把该文件夹放在/opt下 /opt/jdk1.8.0_171 在用户家目录下的配置文件.bash_profile或者.bashrc中新增: export JAVA_HOME=/opt/jdk1. 8 .0_171 export JRE_HOME =/opt/jdk1. 8 .0_171/ jre export CLASSPATH =.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/ lib:$CLASSPATH export PATH =$JAVA_HOME/bin:$PATH 6.2用户配置 我们只是想部署单机并试运行我们的程序,暂定用已有的用户账号,比如udp. 如后续遇到异常,再考虑新增hadoop用户。 6.3安装hadoop 官网下载hadoop-2.7.6.tar.gz,上传到目录