yarn | 易学教程

【hadoop】5.完全分布式模式

阅读更多关于【hadoop】5.完全分布式模式

简介前面我们讲到了hadoop拥有3种运行模式，搭建了最简答的本地运行模式并在其上运行了两个简单案例，之后搭建了伪分布模式，并在其上运行了wordcount案例。本章节我们学习完全分布式的模式。顾名思义，该模式使用多台机器实现分布式。从本章节你可以学习到: hadoop的完全分布式模式的搭建；在完全分布式模式下运行wordcount案例；编写脚本实现一键多台服务器文件同步；编写脚本实现一条命令多条服务器同步执行； 1、准备环境我们准备3台机器（分布式最小需求），其主机文件配置如下： 192.168.102.133 h133 192.168.102.134 h134 192.168.102.135 h135 也就是说，我们准备的3台机器，主机名以h开头，133、134以及135分别是他们的v4地址的最后一段，方便区别。主机配置文件位于/etc/hosts，修改主机名使用命令 hostname h133 3台机器都关闭防火墙 systemctl stop firewalld 。按本地运行模式的安装方式hadoop安装在3台机器上，请参考本教程的 2.运行环境搭建章节。如果您使用的是xshell进行各服务器的连接，最好使用工具-发送键到所有会话功能，一次性配置三台主机。 2、准备工作：配置SSH无秘钥登录现在我们已经在3台机器上(h133、h134以及h135)

Mac 下编译 Hadoop-2.8

阅读更多关于 Mac 下编译 Hadoop-2.8

Mac 下编译 Hadoop-2.8 系统基本环境准备 1. maven：Apache Maven 3.5.4 2. jdk：1.8.0_201 3. brew：Homebrew 2.2.6 编译环境准备 1.cmake： 2.openssl： 3.snappy： 4.zlib： 5.protobuf：编译hadoop 下载hadoop源码开始编译编译完成系统基本环境准备由于下面列的东西都比较常规，具体的安装过程就不详细列举的，有问题可以自行百度 1. maven：Apache Maven 3.5.4 2. jdk：1.8.0_201 3. brew：Homebrew 2.2.6 编译环境准备 1.cmake：安装命令 brew install cmake 2.openssl：安装命令 brew install openssl 3.snappy：安装命令 brew install snappy 4.zlib：安装命令 brew install zlib 5.protobuf：由于必须使用2.5.0版本需要自行下载安装https://github.com/protocolbuffers/protobuf/releases/tag/v2.5.0 下载后解压后进入protobuf目录执行命令列表，进行编译 $ cd /Users/wx2514/tool

React Ant的项目引用的简单应用

阅读更多关于 React Ant的项目引用的简单应用

1.首先我们需要新建一个项目 create-react-app my_app 2.在项目目录通过 cmd 安装下载引入 antd Ant Design官网 1 ）通过 npm 安装 npm install react-router-dom 2 ）通过 yarn 安装 yarn add react-router-dom) 3.全局引入在index.js中引入 import ‘antd/dist/antd.css’; 在组件里引入组件就可以使用了，例如组件里使用button: 将组件引入到App.js中通过在cmd输入npm start或 yarn start启动项目查看效果 4. 按需引入 (1) yarn add react-app-rewired customize-cra(npm i react-app-rewired customize-cra) react-app-rewired 不用弹射就可以配置webpack customize-cra 自定义脚手架环境 (2)修改package.js的配置 (3)然后在项目的根目录建一个配置文件config-overrides.js ,用于修改默认配置 (4)安装下载babel-plugin-import(用于按需加载组件代码和样式的 babel 插件) yarn add babel-plugin-import(npm i

Hadoop中的七大节点的作用（HA with QJM）

阅读更多关于 Hadoop中的七大节点的作用（HA with QJM）

Hadoop逻辑图： 1、NameNode（NN） -NameNode主要功能：接收客户端的读写服务 -NameNode保存metadate信息包括：（metadate时元数据：除文件内容后的所有数据）文件owership和permissions 文件包括哪些块 Block保存在哪几个DataNode（由DataNode启动时上报） -NameNode的metadate 信息在启动后会加载到内存中 metadate存储到磁盘文件名为“fsimage” Block的位置信息不会保存到fsimage edits记录对metadate的操作日志 2、DataNode (DN) -存储数据（Block） -启动DN线程的时候会向NN汇报block信息 -通过NN发送心跳保持与其联系（默认3秒）如果NN十分钟没有收到DN的心跳，则认为已经lost，并copy其上的block到其他的DN上 Block的副本防止策略 -第一个副本：放置在上传文件的DN中；如果是集群外提交，则随机挑选一台磁盘不太满，cpu不太忙的节点上。 -第二个副本：放置在于第一个副本不同的机架节点上。 -第三个副本：与第二个副本相同机架的节点上 -更多副本：随即节点 3、zookeeper（ZK） Zookeeper来保证在Active NameNode失效时及时将Standby

机器学习研究与开发平台的选择

阅读更多关于机器学习研究与开发平台的选择

　　　　目前机器学习可以说是百花齐放阶段，不过如果要学习或者研究机器学习，进而用到生产环境，对平台，开发语言，机器学习库的选择就要费一番脑筋了。这里就我自己的机器学习经验做一个建议，仅供参考。　　　　首先，对于平台选择的第一个问题是，你是要用于生产环境，也就是具体的产品中,还是仅仅是做研究学习用？ 1. 生产环境中机器学习平台的搭建　　　　如果平台是要用于生产环境的话，接着有一个问题，就是对产品需要分析的数据量的估计，如果数据量很大，那么需要选择一个大数据平台。否则的话只需要一个单机版的平台就可以了。 1.1 生产环境中机器学习大数据平台的搭建　　　　生产环境里面大数据平台，目前最主流的就是Spark平台，加上辅助的分布式数据处理容器，比如YARN，或者Mesos.如果需要实时的收集在线数据，那么就加上Kafka。简言之，一个通用的大数据处理平台就是集成Spark + YARN(Mesos) + Kafka. 我现在做的产品项目都是基于Spark + YARN+ Kafka的，目前来看，这个平台选择基本上是主流的方向。　　　　当然，有人会说，这么多开源软件，一起集成起来好麻烦，大坑肯定不少，有没有一个通用的平台，可以包括类似Spark + YARN+ Kafka的大数据平台功能呢？目前据我所知，做的比较好的有CDAP(http://cdap.io)。它对Spark，

3 分钟学会调用 Apache Spark MLlib KMeans

阅读更多关于 3 分钟学会调用 Apache Spark MLlib KMeans

Apache Spark MLlib是Apache Spark体系中重要的一块拼图：提供了机器学习的模块。只是，眼下对此网上介绍的文章不是非常多。拿KMeans来说，网上有些文章提供了一些演示样例程序，而这些程序基本和Apache Spark 官网上的程序片断类似：在得到训练模型后，差点儿都没有展示怎样使用该模型、程序运行流程、结果展示以及举例測试数据等部分。笔者依据Apache Spark官网上的程序片断。写了一个完整的调用MLlib KMeans库的測试程序，并成功在Spark 1.0 + Yarn 2.2 的环境上运行。因为仅为高速体验目的。本程序里面的非常多细节并未被打磨，但相信已可为对Spark MLlib感兴趣的朋友们提供些许入门级帮助。 [A. 程序主要部分] [B. 測试数据] [C. 运行] 利用 ${SPARK_HOME}/bin/spark-submit 将程序提交给Yarn去运行。 [D. 结果] - Console 返回的结果（最后几行）： - Yarn Web Console返回的运行结果： - Yarn Log 中显示 Scala 程序的Output: [E. 总结] - 调用 Spark MLlib 库的过程并不复杂 - 利用MLlib KMeans 训练出来的 Model（KMeansModel），能够方便地对新的数据作出分类预測来源：

大数据面试之Spark

阅读更多关于大数据面试之Spark

谈谈对spark的理解 https://www.cnblogs.com/gaoxing/p/4916785.html Spark的优势运行速度快：相对于Hadoop而言，Spark基于内存的运算要快100倍以上，基于硬盘也要快10倍以上。Spark实现了高效的DAG执行引擎，可以节约内存来高效处理数据流。简单，易用：Spark支持Java、Python和Scala的API，还有超过80种的高级算法，用户可以快速构建不同的应用。通用：一站式的解决方案，Spark可以用于批处理、交互式查询（Spark SQL），实时流处理（Spark Streaming）、机器学习（Spark MLlib）和图计算（GraphX）。这些不同类型的处理可以在同一个应用中无缝使用。兼容性：Spark可以方便的与其他开源产品进行融合。如，Spark可以使用Hadoop的YARN和Mesos作为它的资源管理和调度器，并且可以处理所有Hadoop支持的数据，包括HDFS、HBase和Cassandra等。 Spark的工作流程 client提交任务到master master将任务放入到队列中，获取appid，返回给client Driver端创建sc实例，等待资源分配一旦有了资源，启动executor并反向和driver进行注册 driver端开始运行代码，对到action算子就生成DAG有向无环图

Could not find iPhone 6 simulator

阅读更多关于 Could not find iPhone 6 simulator

最近原来的老项目有点问题需要处理一下，运行启动命令，就报了如下错误，提示找不到iPhone 6 模拟器。 react-native run-ios Owaiss-Mac:pdm owaisahmed$ react-native run-ios Found Xcode project pdm.xcodeproj Could not find iPhone 6 simulator Error: Could not find iPhone 6 simulator at resolve (/Users/fantuan/Documents/react-native-projects/pdm/node_modules/react-native/local-cli/runIOS/runIOS.js:149:13) at new Promise (<anonymous>) at runOnSimulator (/Users/fantuan/Documents/react-native-projects/pdm/node_modules/react-native/local-cli/runIOS/runIOS.js:134:10) at Object.runIOS [as func] (/Users/fantuan/Documents/react-native-projects/pdm/node

Hadoop资源调度器——Yarn

阅读更多关于 Hadoop资源调度器——Yarn

Yarn 是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 Yarn的基本架构 Yarn主要由：ResourceManager、NodeManger、ApplicationMaster和Container等组件构成。 Yarn工作机制客户端提交作业到APPManager，申请jobID,这个ID是唯一的 ResourceManager返回一个作业ID，并将路径发送给客户端客户端将运行所需要的资源（jar包、配置文件、分片信息等）向指定HDFS路径上传上传成功后，向ResourceManager发送请求：执行作业 APPManager将请求转发给调度器调度器将任务放置队列中，当执行到请求的时候，则开始让AppManager分配容器，调用节点资源管理器开辟资源池，启动AppMaster 命令节点管理器开辟容器启动AppMaster AppMaster开始接收HDFS的共享文件，然后根据切片信息，创建map任务、reduce任务向调度器请求资源，开辟map、reduce任务返回执行信息通知NodeManager启动任务 NodeManager启动任务 map、reduce任务接收共享文件数据任务完成之后AppMaster通知AppManager释放资源

09 - Spark - 将Spark程序部署到Yarn中运行

阅读更多关于 09 - Spark - 将Spark程序部署到Yarn中运行

一、启动hadoop 二、修改hadoop配置文件yarn-site.xml，并分发到节点 <property> <name>yarn . nodemanager . pmem - check - enabled< / name> <value>false< / value> < / property> <property> <name>yarn . nodemanager . vmem - check - enabled< / name> <value>false< / value> < / property> 三、修改Spark配置文件spark-env.sh YARN_CONF_DIR= / usr / local / src / hadoop 运行 bin / spark - submit \ -- class org . apache . spark . examples . SparkPi \ -- master yarn \ -- deploy - mode client \ . / examples / jars / spark - examples_2 . 11 - 2 . 1 . 1 . jar \ 100 spark-defaults.conf 查看日志的配置 spark . yarn . historyServer . address=master

订阅 yarn