yarn

【hadoop】5.完全分布式模式

末鹿安然 提交于 2020-03-02 06:23:29
简介 前面我们讲到了hadoop拥有3种运行模式,搭建了最简答的本地运行模式并在其上运行了两个简单案例,之后搭建了伪分布模式,并在其上运行了wordcount案例。本章节我们学习完全分布式的模式。顾名思义,该模式使用多台机器实现分布式。 从本章节你可以学习到: hadoop的完全分布式模式的搭建; 在完全分布式模式下运行wordcount案例; 编写脚本实现一键多台服务器文件同步; 编写脚本实现一条命令多条服务器同步执行; 1、准备环境 我们准备3台机器(分布式最小需求),其主机文件配置如下: 192.168.102.133 h133 192.168.102.134 h134 192.168.102.135 h135 也就是说,我们准备的3台机器,主机名以h开头,133、134以及135分别是他们的v4地址的最后一段,方便区别。 主机配置文件位于/etc/hosts,修改主机名使用命令 hostname h133 3台机器都关闭防火墙 systemctl stop firewalld 。 按本地运行模式的安装方式hadoop安装在3台机器上,请参考本教程的 2.运行环境搭建 章节。 如果您使用的是xshell进行各服务器的连接,最好使用 工具-发送键到所有会话 功能,一次性配置三台主机。 2、准备工作:配置SSH无秘钥登录 现在我们已经在3台机器上(h133、h134以及h135)

Mac 下编译 Hadoop-2.8

ⅰ亾dé卋堺 提交于 2020-03-01 20:03:35
Mac 下编译 Hadoop-2.8 系统基本环境准备 1. maven:Apache Maven 3.5.4 2. jdk:1.8.0_201 3. brew:Homebrew 2.2.6 编译环境准备 1.cmake: 2.openssl: 3.snappy: 4.zlib: 5.protobuf: 编译hadoop 下载hadoop源码 开始编译 编译完成 系统基本环境准备 由于下面列的东西都比较常规,具体的安装过程就不详细列举的,有问题可以自行百度 1. maven:Apache Maven 3.5.4 2. jdk:1.8.0_201 3. brew:Homebrew 2.2.6 编译环境准备 1.cmake: 安装命令 brew install cmake 2.openssl: 安装命令 brew install openssl 3.snappy: 安装命令 brew install snappy 4.zlib: 安装命令 brew install zlib 5.protobuf: 由于必须使用2.5.0版本需要自行下载安装https://github.com/protocolbuffers/protobuf/releases/tag/v2.5.0 下载后解压后进入protobuf目录 执行命令列表,进行编译 $ cd /Users/wx2514/tool

React Ant的项目引用的简单应用

廉价感情. 提交于 2020-03-01 16:25:19
1.首先我们需要新建一个项目 create-react-app my_app 2.在项目目录通过 cmd 安装下载引入 antd Ant Design官网 1 )通过 npm 安装 npm install react-router-dom 2 )通过 yarn 安装 yarn add react-router-dom) 3.全局引入 在index.js中引入 import ‘antd/dist/antd.css’; 在组件里引入组件就可以使用了,例如组件里使用button: 将组件引入到App.js中 通过在cmd输入npm start或 yarn start启动项目查看效果 4. 按需引入 (1) yarn add react-app-rewired customize-cra(npm i react-app-rewired customize-cra) react-app-rewired 不用弹射就可以配置webpack customize-cra 自定义脚手架环境 (2)修改package.js的配置 (3)然后在项目的根目录建一个配置文件config-overrides.js ,用于修改默认配置 (4)安装下载babel-plugin-import(用于按需加载组件代码和样式的 babel 插件) yarn add babel-plugin-import(npm i

Hadoop中的七大节点的作用(HA with QJM)

泪湿孤枕 提交于 2020-03-01 02:51:13
Hadoop逻辑图: 1、NameNode(NN) -NameNode主要功能: 接收客户端的读写服务 -NameNode保存metadate信息包括: (metadate时元数据:除文件内容后的所有数据) 文件owership和permissions 文件包括哪些块 Block保存在哪几个DataNode(由DataNode启动时上报) -NameNode的metadate 信息在启动后会加载到内存中 metadate存储到磁盘文件名为“fsimage” Block的位置信息不会保存到fsimage edits记录对metadate的操作日志 2、DataNode (DN) -存储数据(Block) -启动DN线程的时候会向NN汇报block信息 -通过NN发送心跳保持与其联系(默认3秒) 如果NN十分钟没有收到DN的心跳,则认为已经lost,并copy其上的block到其他的DN上 Block的副本防止策略 -第一个副本:放置在上传文件的DN中;如果是集群外提交,则随机挑选一台磁盘不太满,cpu不太忙的节点上。 -第二个副本:放置在于第一个副本不同的机架节点上。 -第三个副本:与第二个副本相同机架的节点上 -更多副本:随即节点 3、zookeeper(ZK) Zookeeper来保证在Active NameNode失效时及时将Standby

机器学习研究与开发平台的选择

[亡魂溺海] 提交于 2020-02-29 18:29:09
    目前机器学习可以说是百花齐放阶段,不过如果要学习或者研究机器学习,进而用到生产环境,对平台,开发语言,机器学习库的选择就要费一番脑筋了。这里就我自己的机器学习经验做一个建议,仅供参考。     首先,对于平台选择的第一个问题是,你是要用于生产环境,也就是具体的产品中,还是仅仅是做研究学习用? 1. 生产环境中机器学习平台的搭建     如果平台是要用于生产环境的话,接着有一个问题,就是对产品需要分析的数据量的估计,如果数据量很大,那么需要选择一个大数据平台。否则的话只需要一个单机版的平台就可以了。 1.1 生产环境中机器学习大数据平台的搭建     生产环境里面大数据平台,目前最主流的就是Spark平台,加上辅助的分布式数据处理容器,比如YARN,或者Mesos.如果需要实时的收集在线数据,那么就加上Kafka。简言之,一个通用的大数据处理平台就是集成Spark + YARN(Mesos) + Kafka. 我现在做的产品项目都是基于Spark + YARN+ Kafka的,目前来看,这个平台选择基本上是主流的方向。     当然,有人会说,这么多开源软件,一起集成起来好麻烦,大坑肯定不少,有没有一个通用的平台,可以包括类似Spark + YARN+ Kafka的大数据平台功能呢?目前据我所知,做的比较好的有CDAP(http://cdap.io)。它对Spark,

3 分钟学会调用 Apache Spark MLlib KMeans

风格不统一 提交于 2020-02-29 05:38:07
Apache Spark MLlib是Apache Spark体系中重要的一块拼图:提供了机器学习的模块。只是,眼下对此网上介绍的文章不是非常多。拿KMeans来说,网上有些文章提供了一些演示样例程序,而这些程序基本和Apache Spark 官网上的程序片断类似:在得到训练模型后,差点儿都没有展示怎样使用该模型、程序运行流程、结果展示以及举例測试数据等部分。 笔者依据Apache Spark官网上的程序片断。写了一个完整的调用MLlib KMeans库的測试程序,并成功在Spark 1.0 + Yarn 2.2 的环境上运行。因为仅为高速体验目的。本程序里面的非常多细节并未被打磨,但相信已可为对Spark MLlib感兴趣的朋友们提供些许入门级帮助。 [A. 程序主要部分] [B. 測试数据] [C. 运行] 利用 ${SPARK_HOME}/bin/spark-submit 将程序提交给Yarn去运行。 [D. 结果] - Console 返回的结果(最后几行): - Yarn Web Console返回的运行结果: - Yarn Log 中显示 Scala 程序的Output: [E. 总结] - 调用 Spark MLlib 库的过程并不复杂 - 利用MLlib KMeans 训练出来的 Model(KMeansModel),能够方便地对新的数据作出分类预測 来源:

大数据面试之Spark

喜夏-厌秋 提交于 2020-02-28 08:59:55
谈谈对spark的理解 https://www.cnblogs.com/gaoxing/p/4916785.html Spark的优势 运行速度快:相对于Hadoop而言,Spark基于内存的运算要快100倍以上,基于硬盘也要快10倍以上。Spark实现了高效的DAG执行引擎,可以节约内存来高效处理数据流。 简单,易用:Spark支持Java、Python和Scala的API,还有超过80种的高级算法,用户可以快速构建不同的应用。 通用:一站式的解决方案,Spark可以用于批处理、交互式查询(Spark SQL),实时流处理(Spark Streaming)、机器学习(Spark MLlib)和图计算(GraphX)。这些不同类型的处理可以在同一个应用中无缝使用。 兼容性:Spark可以方便的与其他开源产品进行融合。如,Spark可以使用Hadoop的YARN和Mesos作为它的资源管理和调度器,并且可以处理所有Hadoop支持的数据,包括HDFS、HBase和Cassandra等。 Spark的工作流程 client提交任务到master master将任务放入到队列中,获取appid,返回给client Driver端创建sc实例,等待资源分配 一旦有了资源,启动executor并反向和driver进行注册 driver端开始运行代码,对到action算子就生成DAG有向无环图

Could not find iPhone 6 simulator

有些话、适合烂在心里 提交于 2020-02-28 08:53:42
最近原来的老项目有点问题需要处理一下,运行启动命令,就报了如下错误,提示找不到iPhone 6 模拟器。 react-native run-ios Owaiss-Mac:pdm owaisahmed$ react-native run-ios Found Xcode project pdm.xcodeproj Could not find iPhone 6 simulator Error: Could not find iPhone 6 simulator at resolve (/Users/fantuan/Documents/react-native-projects/pdm/node_modules/react-native/local-cli/runIOS/runIOS.js:149:13) at new Promise (<anonymous>) at runOnSimulator (/Users/fantuan/Documents/react-native-projects/pdm/node_modules/react-native/local-cli/runIOS/runIOS.js:134:10) at Object.runIOS [as func] (/Users/fantuan/Documents/react-native-projects/pdm/node

Hadoop资源调度器——Yarn

青春壹個敷衍的年華 提交于 2020-02-28 07:57:57
Yarn 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的 操作系统平台 ,而MapReduce等运算程序则相当于运行于 操作系统之上的应用程序 。 Yarn的基本架构 Yarn主要由:ResourceManager、NodeManger、ApplicationMaster和Container等组件构成。 Yarn工作机制 客户端提交作业到APPManager,申请jobID,这个ID是唯一的 ResourceManager返回一个作业ID,并将路径发送给客户端 客户端将运行所需要的资源(jar包、配置文件、分片信息等)向指定HDFS路径上传 上传成功后,向ResourceManager发送请求:执行作业 APPManager将请求转发给调度器 调度器将任务放置队列中,当执行到请求的时候,则开始让AppManager分配容器,调用节点资源管理器开辟资源池,启动AppMaster 命令节点管理器开辟容器启动AppMaster AppMaster开始接收HDFS的共享文件,然后根据切片信息,创建map任务、reduce任务 向调度器请求资源,开辟map、reduce任务 返回执行信息 通知NodeManager启动任务 NodeManager启动任务 map、reduce任务接收共享文件数据 任务完成之后AppMaster通知AppManager释放资源

09 - Spark - 将Spark程序部署到Yarn中运行

馋奶兔 提交于 2020-02-28 06:05:11
一、启动hadoop 二、修改hadoop配置文件yarn-site.xml,并分发到节点 <property> <name>yarn . nodemanager . pmem - check - enabled< / name> <value>false< / value> < / property> <property> <name>yarn . nodemanager . vmem - check - enabled< / name> <value>false< / value> < / property> 三、修改Spark配置文件spark-env.sh YARN_CONF_DIR= / usr / local / src / hadoop 运行 bin / spark - submit \ -- class org . apache . spark . examples . SparkPi \ -- master yarn \ -- deploy - mode client \ . / examples / jars / spark - examples_2 . 11 - 2 . 1 . 1 . jar \ 100 spark-defaults.conf 查看日志的配置 spark . yarn . historyServer . address=master