yarn

Spark交互式工具spark-shell

Deadly 提交于 2020-01-14 21:41:16
REPL Read-Eval-Print-Loop,即交互式shell,以交互式方式来编程 Spark REPL $SPARK_HOME/bin/spark-shell(scala) $SPARK_HOME/bin/pyspark(python) 其他 Spark shell Spark的scala REPL,支持使用scala语言来进行Spark的交互式编程 支持Spark的local,standalone,yarn client模式 启动./bin/spark-shell 内置实例化一个SparkContex对象,可以通过sc来调用 内置实例化一个SQLContext对象,可以使用sqlContext来调用查看帮助sc.\t spark-shell运行在YARN上 登陆安装Spark那台机器 .bin/spark-shell --master yarn (注意,这样也是yarn client模式) spark-shell运行在YARN上(这是Spark on YARN模式) (包含YARN client和YARN cluster)(作为补充) 登陆安装Spark那台机器 bin/spark-shell --master yarn-client 或者 bin/spark-shell --master yarn-cluster   包括可以加上其他的,比如控制内存啊等。这很简单

Jenkins自动化部署前端

寵の児 提交于 2020-01-14 19:37:51
1、安装jenkins:    按照网上教程安装,默认安装推荐的插件即可,默认密码在你安装jenkins目录下的secrets文件夹里,initialAdminPassword文件。 2、新建项目:    创建一个新项目,选择自由风格(前端),然后进行配置。   2.1、源码管理:配置代码所在仓库地址。          2.2、构建环境:前端项目通过nodejs和npm方式构建。这里的NodeJs Installation选项需要在jenkins的plugins里面安装,然后再到工具配置Global Tool Configuration里面配置nodejs版本。      3、配置构建命令:因为jenkins是在本地安装,所以没有配置远程服务器的操作和命令。如果使用npm安装依赖很慢,导致构建失败的话,可以使用yarn安装,不过首次在Jenkins里运行yarn命令可能需要npm install -g yarn。不然会提示yarn命令不存在。cd 命令后面的文件夹必须保证存在,不会默认创建。    # cd /var/lib/jenkins/workspace/reactTest #进入Jenkins工作空间下reactTest项目目录 cd D:/jenkins/workspace/kl_web_dms node -v #检测node版本(此条命令非必要) # npm -v

阿里巴巴飞天大数据架构体系与Hadoop生态系统

倖福魔咒の 提交于 2020-01-14 14:56:08
很多人问阿里的飞天大数据平台、云梯2、MaxCompute、实时计算到底是什么,和自建Hadoop平台有什么区别。 先说Hadoop 什么是Hadoop? Hadoop是一个开源、高可靠、可扩展的分布式大数据计算框架系统,主要用来解决海量数据的存储、分析、分布式资源调度等。Hadoop最大的优点就是能够提供并行计算,充分利用集群的威力进行高速运算和存储。 Hadoop的核心有两大板块:HDFS和MapReduce。 HDFS全称Hadoop Distributed File System,是一种分布式文件存储系统。分布式文件系统是指将固定于某个地点的某个文件系统,扩展到任意多个文件系统,众多的节点组成一个文件系统网络。每个节点可以分布在不同的地点,通过网络进行节点间的通信和数据传输。人们在使用分布式文件系统时,无需关心数据是存储在哪个节点上、或者是从哪个节点获取的,只需要像使用本地文件系统一样管理和存储文件系统中的数据。HDFS有着高容错性,可以部署在低廉的硬件;提供高吞吐量来访问应用程序的数据;可以有效解决超大数据量存储和管理难题的分布式文件系统属性的特点。因此HDFS天然适合有着超大数据集的应用程序,或者说本身就是为超大规模数据量处理的应用程序而设计的。 MapReduce是一个分布式离线并行计算框架,能够对大数据集进行并行处理

umi学习一创建项目

我与影子孤独终老i 提交于 2020-01-14 12:00:12
官方文档: https://umijs.org/zh/guide/create-umi-app.html#%E4%BB%8B%E7%BB%8D-create-umi 创建项目 #创建项目文件夹并进入项目空文件夹 mkdir myapp && cd myapp #使用create umi脚手架创建umi项目 yarn create umi 第一步:选择模板类型 第二步:选择使用TypeScript或是JavaScript 第三步:拉取模板文件 第四步:安装npm依赖 经过一段时间的等待,项目创建成功 运行项目,使用命令运行项目 yarn start 运行效果 默认运行在端口8000,运行项目时,会在默认浏览器中直接打开项目 来源: https://www.cnblogs.com/weschen/p/12190870.html

Implausibly spark dataframe after read ocr files from hdfs

血红的双手。 提交于 2020-01-14 08:01:08
问题 I have a problem using spark 2.1.1 and hadoop 2.6 on Ambari. I tested my code on my local computer first (single node, local files) and everything works as expected: from pyspark.sql import SparkSession spark = SparkSession\ .builder\ .master('yarn')\ .appName('localTest')\ .getOrCreate() data = spark.read.format('orc').load('mydata/*.orc') data.select('colname').na.drop().describe(['colname']).show() +-------+------------------+ |summary| colname | +-------+------------------+ | count|

大数据技术之_04_Hadoop学习_02_HDFS_DataNode(面试开发重点)+HDFS 2.X新特性

☆樱花仙子☆ 提交于 2020-01-14 04:50:28
第6章 DataNode(面试开发重点) 6.1 DataNode工作机制 6.2 数据完整性 6.3 掉线时限参数设置 6.4 服役新数据节点 6.5 退役旧数据节点 6.5.1 添加白名单 6.5.2 黑名单退役 6.6 Datanode多目录配置 第7章 HDFS 2.X新特性 7.1 集群间数据拷贝 7.2 小文件存档 7.3 回收站 7.4 快照管理 第6章 DataNode(面试开发重点) 6.1 DataNode工作机制 DataNode工作机制,如下图所示。 1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括 数据块的长度 , 块数据的校验和 ,以及 时间戳 。 2)DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。 3)心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳,则认为该节点不可用。 4)集群运行中可以安全加入和退出一些机器。 6.2 数据完整性    思考: 如果电脑磁盘里面存储的数据是控制高铁信号灯的红灯信号(1)和绿灯信号(0),但是存储该数据的磁盘坏了,一直显示是绿灯,是否很危险?同理DataNode节点上的数据损坏了

Zookeeper-Hadoop HA (高可用) 安装配置及下载地址

喜你入骨 提交于 2020-01-14 04:39:41
使用安装包版本: hadoop-2.6.0.tar.gz 下载地址 https://www.apache.org/dyn/closer.cgi/hadoop/common jdk-8u221-linux-x64.tar.gz 下载地址 https://www.java.com/en/download/manual.jsp zookeeper-3.4.5.tar.gz 下载地址 https://www.apache.org/dyn/closer.cgi/zookeeper/ 主机IP映射 [root@master conf] # vi /etc/hosts 127 . 0 . 0 . 1 localhost localhost . localdomain localhost4 localhost4 . localdomain4 ::1 localhost localhost . localdomain localhost6 localhost6 . localdomain6 192 . 168 . 176 . 41 master 192 . 168 . 176 . 42 slave1 192 . 168 . 176 . 43 slave2 环境变量~/.bash_profile [root@master hadoop] # vi ~/.bash_profile JAVA_HOME=

Flink的高可用集群环境

我是研究僧i 提交于 2020-01-14 04:36:21
Flink的高可用集群环境 Flink简介 Flink核心是一个流式的数据流执行引擎,其针对数据流的分布式计算提供了数据分布,数据通信以及容错机制等功能。 因现在主要Flink这一块做先关方面的学习,因此准备要开通Apache Flink专栏这一块定期发布一些文章。今天在自己的博客因为专栏无法申请通过,所以先在此记录第一篇关于Flink部署的文章。 在这里顺便打个小广告,Flink社区第一季线下meetup,已在上海,北京举办。接下来分别会在成都和深圳举办接下来的几期,也希望小伙伴们踊跃的加入到Flink社区来,下载钉钉,扫描下方二维码即可加入大群。 首先今天先介绍一下Flink的安装,安装部署最新1.6版本支持有8种安装方式,详细可以参考安装部署方式【Clusters & Deployment】 。下面主要介绍Standalone Cluster模式和on yarn模式 。 软件包下载地址 一.Flink独立集群模式安装(Cluster Standalone) 1.1.解压安装 [root@h001 soft]# tar -zxvf flink-1.2.0-bin-hadoop26-scala_2.11.tgz -C /usr/bigdata/ 1 1.2.Flink配置(Configuring Flink) 对其进行相关的配置。主要涉及到的配置文件是conf/flink

Flink的安装配置

谁都会走 提交于 2020-01-14 04:35:58
一. Flink的下载 安装包下载地址: http://flink.apache.org/downloads.html ,选择对应Hadoop的Flink版本下载 [admin@node21 software]$ wget http://mirrors.tuna.tsinghua.edu.cn/apache/flink/flink-1.6.1/flink-1.6.1-bin-hadoop27-scala_2.11.tgz [admin@node21 software]$ ll -rw-rw-r-- 1 admin admin 301867081 Sep 15 15:47 flink-1.6.1-bin-hadoop27-scala_2.11.tgz Flink 有三种部署模式,分别是 Local、Standalone Cluster 和 Yarn Cluster。 二. L ocal模式 对于 Local 模式来说,JobManager 和 TaskManager 会公用一个 JVM 来完成 Workload。如果要验证一个简单的应用,Local 模式是最方便的。实际应用中大多使用 Standalone 或者 Yarn Cluster,而local模式只是将安装包解压启动(./bin/start-local.sh)即可,在这里不在演示。 三. Standalone 模式

Flink 部署文档

天大地大妈咪最大 提交于 2020-01-14 04:35:21
Flink 部署文档 1 先决条件 2 下载 Flink 二进制文件 3 配置 Flink 3.1 flink-conf.yaml 3.2 slaves 4 将配置好的 Flink 分发到其他节点 5 以 Standalone 模式启动 Flink 6 以 Flink on YARN 模式启动 6.1 Flink YARN Session 6.2 Single Flink job on YARN 7 参考 本文档中的集群包含 192.168.105.10/11/12 三台机器。三台机器的 hostname 分别设为 ivic10/ivic11/ivic12,其中第一台机器作为 master,后两台作为 slaves。 1 先决条件 在部署 Flink 之前,请确认集群的每个节点都符合以下条件: 已安装 Java 1.8.x 或以上版本(推荐 1.8 版本) 节点两两之间可以 SSH 免密码登陆 已部署 Hadoop(如果只是部署 Standalone Cluster 则不需要 Hadoop) 如果你已经按照 Hadoop 部署文档 成功建立了 Hadoop 集群,那么以上条件均已满足。 2 下载 Flink 二进制文件 在 Flink 的 下载页面 中有多个版本可以选择,因为之前选择了 Hadoop 2.7.7 版本,所以这里选择与之对应的 Apache Flink 1.7.2