yarn | 易学教程

Apache Hadoop 2.9.2 的HDFS High Available模式部署

阅读更多关于 Apache Hadoop 2.9.2 的HDFS High Available模式部署

　　　　　　　　　　　　　　Apache Hadoop 2.9.2 的HDFS High Available 模式部署　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　作者：尹正杰版权声明：原创作品，谢绝转载！否则将追究法律责任。　　我们知道，当NameNode进程挂掉后，可以通过SecondName进行补救，我们可以快速进行恢复操作。但是其效率极低，可能等你启动集群成功后，半小时就过去了，会严重影响业务！这个时候我们就需要对NameNode做高可用。我们可以通过双NameNode消除单点故障。一.HA概述 1>.所谓High Available，简称HA，即高可用（7*24小时不中断服务）。 2>.实现高可用最关键对策略是消除单点故障。HA严格来说应该分成各个组建对HA机制：HDFS对HA和YARN的HA。 3>.Hadoop2.0版本之前，在HDFS集群中NameNode存在单点故障（SPOF） 4>.NameNode主要在以下两个方面影响HDFS集群：　　第一：NameNode机器发生意外，如宕机，集群将无法使用，知道管理员重启。　　第二：NameNode机器需要升级，包括软件，硬件升级，此时集群也将无法使用。　　HDFS HA功能通过配置Active

内存模型学习-- Container Executor task之间的关系

阅读更多关于内存模型学习-- Container Executor task之间的关系

（分割线前的都是废话） java8内存模型： http://www.cnblogs.com/paddix/p/5309550.html http://www.cnblogs.com/dingyingsi/p/3760447.html 帖子里提到 5、方法区：方法区也是所有线程共享。主要用于存储类的信息、常量池、方法数据、方法代码等。方法区逻辑上属于堆的一部分，但是为了与堆进行区分，通常又叫“ 非堆 ”。 1.7和1.8后这个方法区没有了，被原空间取代了不过元空间与永久代之间最大的区别在于：元空间并不在虚拟机中，而是使用本地内存。因此，默认情况下，元空间的大小仅受本地内存限制，但可以通过以下参数来指定元空间的大小： --------------分割线--------------------------------------------------------------------------------- 那么这些jvm在yarn 和spark的内存模型上是怎么工作的？其实我是想知道： spark on yarn下一个yarn的Container 可以包含几个spark Executor？还是一个Executor 下可以有多个Container ？是一个Container 起了一个jvm，在这个jvm下执行多个task？一篇帖子 spark架构中提到

如何为Spark应用程序分配--num-executors，--execuor-cores和--executor-memory

阅读更多关于如何为Spark应用程序分配--num-executors，--execuor-cores和--executor-memory

文章目录前言一些资源参数设置的基本知识不同配置的优劣分析第一种方法：使用较小的executors 第二种方法：使用较大的executors 第三种方法：使用优化的executors 前言在我们提交spark程序时，应该如何为Spark集群配置–num-executors， - executor-memory和–execuor-cores 呢？一些资源参数设置的基本知识 Hadoop / Yarn / OS Deamons 当我们使用像Yarn这样的集群管理器运行spark应用程序时，会有几个守护进程在后台运行，如NameNode，Secondary NameNode，DataNode，JobTracker和TaskTracker等。因此，在指定num-executors时，我们需要确保为这些守护进程留下足够的核心（至少每个节点约1 CPU核）以便顺利运行。 Yarn ApplicationMaster（AM） ApplicationMaster负责协调来自ResourceManager的资源，并与NodeManagers一起执行container并监控其资源消耗。如果我们在YARN上运行Spark，那么我们需要预估运行AM所需要的资源（至少1024MB和1 CPU核）。 HDFS吞吐量 HDFS客户端遇到大量并发线程会出现一些bug。一般来说

TusP/wps-view-vue

阅读更多关于 TusP/wps-view-vue

项目介绍本项目采用VUE + ES6实现，其中jwps.es6.js是由WPS开发组特别提供，本项目对该js做了部分调整本次更新增加新建模版入口，快速新建word，excel，ppt文件增加上传、删除等文件管理入口调整目录结构，调整vueconfig 特别注意次前端工程必须配合后台部分使用 main.js 中的axios.defaults.baseURL请自行更换，必须和 wps开放平台上的回调URL一致演示地址 https://ljserver.cn/wpsonline 后台java代码地址 https://gitee.com/mose-x/wps-view-java.git 安装依赖 yarn install 开发运行 yarn serve 生产打包 yarn build 来源： oschina 链接： https://my.oschina.net/u/4393870/blog/4262004

.NET Core前后端分离快速开发框架(Core.3.1+AntdVue)

阅读更多关于 .NET Core前后端分离快速开发框架(Core.3.1+AntdVue)

.NET Core前后端分离快速开发框架(Core.3.1+AntdVue) 引言简介环境搭建开发环境要求：基础数据库构建：数据库设计规范运行使用教程系统配置快速开发管理员登录系统用户管理系统角色管理权限管理接口秘钥管理系统日志操作日志事务使用读写分离分库分表常见疑问如何进行联表查询如何切换数据库类型如何使用多个数据库结语引言时间真快，转眼今年又要过去了。回想今年，依次开源发布了 Colder.Fx.Net.AdminLTE(254Star) 、 Colder.Fx.Core.AdminLTE(335Star) 、 DotNettySocket(82Star) 、 IdHelper(47Star) ，这些框架及组件都是本着以实际出发，实事求是的态度，力求提高开发效率（我自己都是第一个使用者），目前来看反响不错。但是随着前端和后端技术的不断变革，尤其是前端，目前大环境已经是前后端完全分离为主的开发模式，在这样的大环境和必然趋势之下，传统的MVC就显得有些落伍了。在这样的背景下，一款前后端分离的.NET开发框架就显得尤为必要，由此便定了框架的升级目标：前后端分离。首先后端技术的选择，从目前的数据来看，.NET Core的发展远远快于.NET Framework，最简单的分析就是Colder.Fx.Core

spark-submit 参数总结

阅读更多关于 spark-submit 参数总结

spark-submit 可以提交任务到 spark 集群执行，也可以提交到 hadoop 的 yarn 集群执行。 1）./spark-shell --help ：不知道如何使用，可通过它查看命令帮助，[]中括号里面的表示可选的。 2）重要参数讲解： --master master 的地址，提交任务到哪里执行，例如 spark://host:port, yarn, local --name 这个是指定你的application name 应用名称。 --jars 这个是用comma逗号分隔的一系列包含driver和executor的环境变量的包。 --conf 这个是指定一些配置的参数。 --driver-* 这个是指定driver的memory、class-path等。 --executor-memory 这个是设置executor端的内存。 --executor-core 指定executor的core资源 --driver-core 指定driver的core资源 --queue 生产上肯定是以队列的方式来提交的 --num-executor 指定executor 执行者的个数 ----------------------------------------------------------------------------- 原文：https://blog.csdn

【Spark调优】提交job资源参数调优

阅读更多关于【Spark调优】提交job资源参数调优

【场景】　　Spark提交作业job的时候要指定该job可以使用的CPU、内存等资源参数，生产环境中，任务资源分配不足会导致该job执行中断、失败等问题，所以对Spark的job资源参数分配调优非常重要。　　spark提交作业，yarn-cluster模式示例：　　./bin/spark-submit\ 　　--class com.ww.rdd.wordcount \ 　　--master yarn \ 　　--deploy-mode cluster \ 　　--executor-memory 4G \ 　　--num-executors 50 \ 　　 --driver-memory 1G \ 　　--conf spark.default.parallelism=1000 \ 　　 --conf spark.memory.fraction =0.75 \ 　　 --conf spark.memory.storageFraction =0.5 \ 　　/home/spark/wordcount.jar \ 　　1000 #入参【参数】 num-executors 　　参数说明：该参数用于设置每个Spark作业总共要用多少个Executor进程来执行。例如Driver向YARN集群管理器申请资源时

spark-submit部署应用的相关参数详解

阅读更多关于 spark-submit部署应用的相关参数详解

a.[--master]:表示要连接的集群管理器　　spark://host:port:连接到指定端口的Spark独立集群上。默认情况下Spark 独立主节点使用7077端口　　mesos://host:port:连接到指定端口的Mesos 集群上。默认情况下Mesos 主节点监听5050端口　　yarn :连接到一个YARN 集群。当在YARN上运行时，需要设置环境变量HADOOP_CONF_DIR指向Hadoop 配置目录，以获取集群信息　　local:运行本地模式，使用单核　　local[N]:运行本地模式，使用N个核心　　local[*]:运行本地模式，使用尽可能多的核心 b.[--deploy-mode]:选择driver驱动管理器在“client”和“cluster”运行；　　在集群管理器上，如果是“client”提交，那么驱动管理器在client运行；　　如果是“cluster”提交，那么驱动管理器在集群上运行；　　如：在spark on yarn模式下：　　　　在slave1节点上执行：{spark-submit --master yarn --deploy-mode client},那么spark-submit守护进程在slave1上　　　　在slave1节点上执行：{spark-submit --master yarn --deploy

spark 指定相关的参数配置 num-executor executor-memory executor-cores

阅读更多关于 spark 指定相关的参数配置 num-executor executor-memory executor-cores

num-executors 参数说明：该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时，YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上，启动相应数量的Executor进程。这个参数非常之重要，如果不设置的话，默认只会给你启动少量的Executor进程，此时你的Spark作业的运行速度是非常慢的。参数调优建议：每个Spark作业的运行一般设置50~100个左右的Executor进程比较合适，设置太少或太多的Executor进程都不好。设置的太少，无法充分利用集群资源；设置的太多的话，大部分队列可能无法给予充分的资源。 executor-memory 参数说明：该参数用于设置每个Executor进程的内存。Executor内存的大小，很多时候直接决定了Spark作业的性能，而且跟常见的JVM OOM异常，也有直接的关联。参数调优建议：每个Executor进程的内存设置4G~8G较为合适。但是这只是一个参考值，具体的设置还是得根据不同部门的资源队列来定。可以看看自己团队的资源队列的最大内存限制是多少，num-executors乘以executor-memory，就代表了你的Spark作业申请到的总内存量（也就是所有Executor进程的内存总和），这个量是不能超过队列的最大内存量的。此外

Hadoop-MR实现日志清洗（四）

阅读更多关于 Hadoop-MR实现日志清洗（四）

Hadoop-MR实现日志清洗（四） 6.单机部署Hadoop（伪分布式）在我们自己购买的阿里云Linux主机上部署单机hadoop，测试我们的mapreduce程序。也可以在windows上安装虚拟机部署。 6.1配置Java环境下载jdk-8u171-linux-x64.tar.gz后上传到主机，解压缩： tar zxf jdk-8u171-linux-x64.tar.gz 得到文件夹：jdk1.8.0_171 我们把该文件夹放在/opt下 /opt/jdk1.8.0_171 在用户家目录下的配置文件.bash_profile或者.bashrc中新增： export JAVA_HOME=/opt/jdk1. 8 .0_171 export JRE_HOME =/opt/jdk1. 8 .0_171/ jre export CLASSPATH =.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/ lib:$CLASSPATH export PATH =$JAVA_HOME/bin:$PATH 6.2用户配置我们只是想部署单机并试运行我们的程序，暂定用已有的用户账号，比如udp. 如后续遇到异常，再考虑新增hadoop用户。 6.3安装hadoop 官网下载hadoop-2.7.6.tar.gz，上传到目录

订阅 yarn