yarn

集群提交lightGBM算法

烈酒焚心 提交于 2019-12-26 17:11:17
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> ## mmlspark https://mvnrepository.com/artifact/Azure/mmlspark/0.15 ## lightgbmlib https://mvnrepository.com/artifact/com.microsoft.ml.lightgbm/lightgbmlib/2.2.200 [root@hadoop-1-1 ~]# more lgbm.sh /app/spark2.3/bin/spark-submit \ --master yarn \ --jars /root/external_pkgs/mmlspark-0.15.jar,/root/external_pkgs/lightgbmlib-2.2.200.jar \ --class com.sf.demo.lgmClassifier /root/lgbm_demo.jar nohup sh lgbm.sh > lgbm_20191226_001.log 2>&1 & package com.xx.demo import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSession import org.apache.spark.ml

yarn的安装及所遇到的问题

…衆ロ難τιáo~ 提交于 2019-12-26 06:11:02
官网下载程序安装: npm安装: 下载node.js,使用npm安装 npm install -g yarn 查看版本:yarn --version 遇到的问题: 显示不是内部或外部命令问题 原因:没有添加环境变量 解决方法:找到yarn下的bin文件,复制路径到系统变量到path上 1.右击我的电脑–属性–高级,找到环境变量 2.找到path选项 3.添加环境变量 来源: CSDN 作者: Lval 链接: https://blog.csdn.net/weixin_42215897/article/details/103698327

electron数据存储 electron-store

微笑、不失礼 提交于 2019-12-26 04:43:10
npm安装: npm install electron-store yarn安装: yarn add electron-store 使用方法: const Store = require ( 'electron-store' ) ; const store = new Store ( ) ; //如果需要加密存储 就用下面的 //const store = new Store({encryptionKey: '加密值'}); store . set ( 'unicorn' , '这是需要存储的内容' ) ; console . log ( store . get ( 'unicorn' ) ) ; //=> '这是需要存储的内容' // Use dot-notation to access nested properties store . set ( 'foo.bar' , true ) ; console . log ( store . get ( 'foo' ) ) ; //=> {bar: true} store . delete ( 'unicorn' ) ; console . log ( store . get ( 'unicorn' ) ) ; //=> undefined 我的store.set()存储地址: C:\Users\mi\AppData\Roaming

Hadoop3.x安装部署

↘锁芯ラ 提交于 2019-12-25 12:13:57
一、安装部署 此处是单机版安装,我安装的使hadoop3.1.3,因为hadoop2.x和hadoop3.x的安装部署有些不同,所以记录一下 首先安装好jdk,并且准备好hadoop3.x的安装包,可以去官网下载 openssh安装,便于远程上传文件(每台主机都做) [ root @node03 ~ ] # yum - y install openssh - clients 同步时间工具(每台主机都做) #安装ntpdate工具 [ root @node03 ~ ] # yum - y install ntp ntpdate #设置与网络时间同步 [ root @node03 ~ ] # ntpdate cn . pool . ntp . org #系统时间写入硬件时间 [ root @node03 ~ ] # hwclock -- systohc 文件上传(rz)和下载(sz)工具 [ root @node03 ~ ] # yum - y install lrzsz 安装网络下载工具(一台即可) * * [ root @node03 ~ ] # yum - y install wget * * 关闭防火墙(每台都做) #查看防火墙状态 [ root @node03 ~ ] # systemctl status firewalld #关闭防火墙 [ root @node03 ~ ]

Flink on Yarn, parallel source with Kafka

橙三吉。 提交于 2019-12-25 12:10:06
问题 I am trying to have parallelism with my Kafka source within my Flink job, but I failed so far. I set 4 partitions to my Kafka producer : $ ./bin/kafka-topics.sh --describe --zookeeper X.X.X.X:2181 --topic mytopic Topic:mytopic PartitionCount:4 ReplicationFactor:1 Configs: Topic: mytopic Partition: 0 Leader: 0 Replicas: 0 Isr: 0 Topic: mytopic Partition: 1 Leader: 0 Replicas: 0 Isr: 0 Topic: mytopic Partition: 2 Leader: 0 Replicas: 0 Isr: 0 Topic: mytopic Partition: 3 Leader: 0 Replicas: 0 Isr

spark

本小妞迷上赌 提交于 2019-12-25 12:09:29
Spark 什么是Spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架,Spark拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。 Spark是Scala编写,方便快速编程。 总体技术栈讲解 回顾hadoop spark 和 MapReduce 的区别 都是分布式计算框架,spark 基于内存,mapreduce基于hdfs, Spark 处理数据的能力一般是mr的十倍以上,Spark中除了基于内存计算外,还有DAG有向无环图来切分任务的执行先后顺序 MapReduce Spark: 快除了内存计算外,还有DAG Spark的运行模式 local 多用于本地测试。如在 eclipse,,idea中写程序测试 standalone: 是Spark自带的一个资源调度框架,它支持完全分布式 Yarn: Hadoop 生态圈里的一个资源调度框架,Spark也是可以基于Yarn 要基于Yarn来进行资源调度,必须实现

ACCEPTED: waiting for AM container to be allocated, launched and register with RM.

余生长醉 提交于 2019-12-25 09:18:49
问题 I am working on hadoop2.7.0 single node cluster with 4GB Ram and 40 GB HDD. While executing a word count example on Map reduce , it stopped after Running job...I've tried increasing the memory for container in yarn-site but still no luck. Error 16/11/20 17:05:03 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032 16/11/20 17:05:07 INFO input.FileInputFormat: Total input paths to process : 1 16/11/20 17:05:08 INFO mapreduce.JobSubmitter: number of splits:1 16/11/20 17:05:08

Why does the oozie launcher consume 2 yarn containers?

好久不见. 提交于 2019-12-25 08:19:25
问题 I am using Oozie to execute a spark job. I "kind-of" understand that oozie lunches a map-only mapreduce job and from there lunches the spark-job. What I do not understand is why this job consumes 2 yarn-containers? In Yarn's resource manager page (titled "All Applications") I see something like this: ID: application_nnnnn_3456 Name: oozie: launcher... Application Type: MAPREDUCE Running Containers: 2 ID: application_nnnnn_3457 Name: spark-app Application Type: SPARK Running Containers: 1 Is

hue 用户权限分配

一世执手 提交于 2019-12-25 02:55:27
hue 用户权限分配 一、问题背景 CDH集群原来在使用hue部署oozie工作流的时候发现不能够运行工作流,因为当时hue创建用户时设置root为初始用户,而root用户不属于supergroup组,不能够调用集群中任何组件,为了解决这个问题,当时查参考了 CDH权限不够,修改用户和用户组为root 这篇文章的做法后面来看,只是治标不治本,并没有完全解决后面hue中如果设置其他用户后,其他用户所具有的权限问题,也没有深入讲解CDH组件用户权限问题。 今天这篇文章讲解的几个点 : 如何将集群内部组件恢复到原来的设置,并且让现在拥有的root用户继续能够调用工作流 在hue中添加新的用户,并让新的用户具有调用其他组件的权限 那个用户才是hue默认的初始用户 二 、恢复集群默认设置 1. 各个组件目录所属用户以及权限恢复到默认 /var/log 目录下涉及目录所属用户修改 sudo chown -R hdfs:hadoop /var/log/hadoop-hdfs sudo chown -R mapred:hadoop /var/log/hadoop-mapreduce sudo chown -R yarn:hadoop /var/log/hadoop-yarn sudo chown -R httpfs:httpfs /var/log/hadoop-httpfs sudo chown

大数据运维初探之Hadoop搭建(入门)

微笑、不失礼 提交于 2019-12-25 00:02:55
0.大数据技术分类 1.批处理框架:Mapreduce 批处理历史数据 2.流处理框架:storm 一直处理源源不断的数据 3.混合处理框架:spark 1.生态圈核心项目 1.HDFS分布式文件系统 2.yarn调度与管理 3.mapreduce数据并行处理 2.生态圈相关项目 1.hive数据仓库基础架构 2.hbase分布式数据库 3.ambari监控与管理 4.spark快速计算 5.zookeeper协调服务 等等 3.HDFS定义与特点 定义:hadoop分布式文件系统 特点:高容错,廉价机,高吞吐,大文件,分块存 关键词 1.block:128m/块 2.集群架构: Namenode:接受请求,纂写目录,管理文件》块》Datanode的关系 Datanode:分块存储,多副本 5.HDFS写数据过程 1.请求上船 2.Namenode检查路径 3.返回可以上船 4.上传一个block,指明副本数量 5.查询Datanode信息 6.返回写入Dn地址和策略 7.请求Dn传数据和副本数量 8.Dn之间建立副本通道 9.通道建立应答 10.Dn回应客户准备就绪 11.传输block 12.副本生成 13.通知Nn接受到了新数据,建立影射 14.返回客户成功 6.HDFS写过程 1.请求读取 2.Nn获取文件块信息 3.信息传回客户端 4.分别请求Dn 5.分别从Dn读取 7