yarn

hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。这里包含我们使用到的组件:HDFS, YARN, Hbase, Hive, ZooKeeper:

自闭症网瘾萝莉.ら 提交于 2020-02-27 02:14:41
组件 节点 默认端口 配置 用途说明 HDFS DataNode 50010 dfs.datanode.address datanode服务端口,用于数据传输 HDFS DataNode 50075 dfs.datanode.http.address http服务的端口 HDFS DataNode 50475 dfs.datanode.https.address https服务的端口 HDFS DataNode 50020 dfs.datanode.ipc.address ipc服务的端口 HDFS NameNode 50070(9870) dfs.namenode.http-address http服务的端口 HDFS NameNode 50470 dfs.namenode.https-address https服务的端口 HDFS NameNode 8020 fs.defaultFS 接收Client连接的RPC端口,用于获取文件系统metadata信息。 HDFS journalnode 8485 dfs.journalnode.rpc-address RPC服务 HDFS journalnode 8480 dfs.journalnode.http-address HTTP服务 HDFS ZKFC 8019 dfs.ha.zkfc.port ZooKeeper

Hadoop 2.2 YARN分布式集群搭建配置流程

人盡茶涼 提交于 2020-02-27 01:09:19
搭建环境准备:JDK1.6,SSH免密码通信 系统:CentOS 6.3 集群配置:NameNode和ResourceManager在一台服务器上,三个数据节点 搭建用户:YARN Hadoop2.2下载地址: http://www.apache.org/dyn/closer.cgi/hadoop/common/ 步骤一:上传Hadoop 2.2 并解压到/export/yarn/hadoop-2.2.0 外层的启动脚本在sbin目录 内层的被调用脚本在bin目录 Native的so文件都在lib/native目录 配置程序文件都放置在libexec 配置文件都在etc目录,对应以前版本的conf目录 所有的jar包都在share/hadoop目录下面 步骤二:配置环境变量    在~/.bashrc文件中添加以下配置: export JAVA_HOME=/export/servers/jdk1.6.0_25/ export HADOOP_DEV_HOME=/export/yarn/hadoop-2.2.0 export HADOOP_MAPARED_HOME=${HADOOP_DEV_HOME} export HADOOP_COMMON_HOME=${HADOOP_DEV_HOME} export HADOOP_HDFS_HOME=${HADOOP_DEV_HOME}

“sparkContext was shut down” while running spark on a large dataset

二次信任 提交于 2020-02-26 12:29:25
问题 When running sparkJob on a cluster past a certain data size(~2,5gb) I am getting either "Job cancelled because SparkContext was shut down" or "executor lost". When looking at yarn gui I see that job that got killed was successful. There are no problems when running on data that is 500mb. I was looking for a solution and found that: - "seems yarn kills some of the executors as they request more memory than expected." Any suggestions how to debug it? command that I submit my spark job with:

Vue项目工具汇总

十年热恋 提交于 2020-02-26 11:12:21
1. node http://nodejs.cn/download/,自带npm包管理工具 2. git: https://git-scm.com/downloads,管理源代码工具 3. cnpm 安装命令:npm i cnpm -g(cnpm自己的命令:cnpm install packname -g,cnpm uninstall packname -g) 4. yarn 安装命令:npm i yarn -g(yarn自己的命令:yarn add packname -g,yarn remove packname -g,yarn global add packname,yarn global remove packname) 5. nrm 安装命令:npm i nrm -g(nrm自己的命令:nrm -lst, nrm use 'xx') 6. webpack 安装命令:npm i webpack webpack-cli -g,npm i webpack webpack-cli -D,npm install webpack-dev-server -g npm init -y(webpack的项目创建方式) 7. vue-cli npm i @vue/cli -g npm i @vue/cli-service-global -g npm install @vue/cli-init

org.apache.hadoop.yarn.exceptions.YarnRuntimeException: Permissions incorrectly

强颜欢笑 提交于 2020-02-26 02:42:26
15:10:44 WARN localizer.ResourceLocalizationService: Failed to setup local dir D:/hadoop-2.8.3/tmp/nm-local-dir, which was marked as good. org.apache.hadoop.yarn.exceptions.YarnRuntimeException: Permissions incorrectly set for dir D:/hadoop-2.8.3/tmp/nm-local-dir/filecache, should be rwxr-xr-x, actual value = rwxrwxr-x Windows跑Hadoop,报临时目录权限问题;cmd窗口使用管理员即可; 平台版本: Windows10+JDK1.8.0_191+Hadoop2.8.3; 解决方案: 使用管理员身份命令行启动Hadoop集群,然后使用普通用户身份命令行提交作业。 来源: oschina 链接: https://my.oschina.net/xiaopei/blog/3157713

前端全栈

不打扰是莪最后的温柔 提交于 2020-02-26 02:16:08
1. Nginx使用proxy_pass反向代理时,session丢失的问题 如果只是host,端口转换,则session不会丢失。例如: location /testwx { proxy_pass http://127.0.0.1:8080/testwx; } 如果路径也变化了,则需要设置cookie的路径转换,nginx.conf的配置如下 location /testwx { proxy_pass http://127.0.0.1:8080/wx; proxy_cookie_path /wx /testwx; } 2. rpc之gRPC gRPC 一开始由 google 开发,是一款语言中立、平台中立、开源的远程过程调用(RPC)系统。 基于HTTP/2,提供了连接多路复用、双向流、服务器推送、请求优先级、首部压缩等机制 。 可以节省带宽、降低TCP链接次数、节省CPU,帮助移动设备延长电池寿命等。 gRPC 的协议设计上使用了HTTP2 现有的语义,请求和响应的数据使用HTTP Body 发送,其他的控制信息则用Header 表示。 IDL使用ProtoBuf,gRPC使用ProtoBuf来定义服务,ProtoBuf是由Google开发的一种数据序列化协议(类似于XML、JSON、hessian)。 HTTP/2 传输的数据是二进制的。相比 HTTP/1.1 的纯文本数据

hadoop基础三:YARN简介、组件

六眼飞鱼酱① 提交于 2020-02-25 22:50:56
YARN定位 云计算三层服务: IaaS、PaaS、SaaS YARN属于PaaS层。 YARN设计目标 通用的统一资源管理系统 同时运行长应用程序和短应用程序 长应用程序 通常情况下,永不停止运行 Service(hadoop、Spark、Storm)、HTTP Server等 短应用程序 短时间(秒级、分钟级、小时级)内会运行结束的程序 MR job、Spark Job等 YARN服务组件 1、组件 Client ResourceManager、Application Master NodeManager、Container YARN总体上仍然是Master/Slave结构,在整个资源管理框架中,ResourceManager为Master,NodeManager为Slave。 ResourceManager负责对各个NodeManager上的资源进行统一管理和调度 当用户提交一个应用程序时,需要提供一个用以跟踪和管理这个程序的。 ApplicationMaster,它负责向ResourceManager申请资源,并要求NodeManger启动可以占用一定资源的任务。 由于不同的ApplicationMaster被分布到了不同的节点上,因此他们之间不会相互影响。 2、其他组件 JobHistoryServer、TimelineServer、mr-jobhistory

spark安装和使用

こ雲淡風輕ζ 提交于 2020-02-25 22:19:08
local模式 概述 local模式就是在一台计算机上运行spark程序,通常用于在本机上练手和测试,它将线程映射为worker。 1)local: 所有计算都运行在一个线程当中,没有任何并行计算,通常我们在本机执行一些测试代码,或者练手,就用这种模式; 2)local[K]: 指定使用几个线程来运行计算,比如local[4]就是运行4个Worker线程。通常我们的Cpu有几个Core,就指定几个线程,最大化利用Cpu的计算能力; 3)local[*]: 这种模式直接帮你按照Cpu最多Cores来设置线程数了 。 安装使用 1)上传并解压 spark 安装包 tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /opt/module/ 2) 官方求 PI 案例 bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --executor-memory 1G \ --total-executor-cores 2 \ ./examples/jars/spark-examples_2.11-2.1.1.jar \ 100 该算法是利用蒙特·卡罗算法求 PI ,结果如下: standalone模式 构建一个由 Master+Slave构成的 Spark集群,采用Spark原生的资源管理器

npm、cnpm、yarn

一笑奈何 提交于 2020-02-25 20:31:13
查看npm版本 npm -v 升级npm版本 npm update 查看npm配置 npm config list 更换源配置 npm config set registry https : / / registry . npm . taobao . org npm config list / npm config get registery //检查是否替换成功 安装cnpm插件 npm install - g cnpm -- registry = https : / / registry . npm . taobao . org 查看cnpm版本 cnpm -v npm 切换 cnpm npm config set registry https : / / registry . npm . taobao . org cnpm 切换回 npm npm config set registry = http : / / registry . npmjs . org Yarn是 Facebook 提供的替代 npm 的工具,可以加速 node 模块的下载,用过的都喜欢。 下载 npm install - g yarn react - native - cli 设置镜像 yarn config set registry https : / / registry . npm .