yarn | 易学教程

Hadoop大数据开发基础系列：一、初识Hadoop

阅读更多关于 Hadoop大数据开发基础系列：一、初识Hadoop

目录结构 1.Hadoop概述 1.1 Hadoop简介 1.2 Hadoop发展史 1.3 Hadoop特点 2.Hadoop核心 2.1 分布式文件系统——HDFS 2.2 分布式计算框架——MapReduce 2.3 集群资源管理器——YARN 3.Hadoop生态系统 4.Hadoop应用场景 5.小结一、Hadoop介绍 1.Hadoop概述两大核心：HDFS和MapReduce 用于资源与任务调度的框架：YARN 1.1 Hadoop简介 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。它的目的是从单一的服务器扩展到成千上万的机器，将集群部署在多台机器，每个机器提供本地计算和存储，并且将存储的数据备份在多个节点，由此提高集群的可用性，而不是通过硬件的提升，当一台机器宕机时，其他节点仍可以提供备份数据和计算服务，Hadoop框架最核心的设计是HDFS和MapReduce。 1.2 Hadoop发展史（转自百度百科） Hadoop原本来自于谷歌一款名为MapReduce的编程模型包。谷歌的MapReduce框架可以把一个应用程序分解为许多并行计算指令，跨大量的计算节点运行非常巨大的数据集。使用该框架的一个典型例子就是在网络数据上运行的搜索算法

Flink源码阅读(1.7.2)

阅读更多关于 Flink源码阅读(1.7.2)

[TOC] Client提交任务执行模式有：本地、远程Standalone等，下面只介绍yarn模式。 Yarn模式： Job模式是每个flink job 单独在yarn上声明一个flink集群 Session模式会在集群中维护flink master，即一个yarn application master，运行多个job。 Job模式（重点是加上-m yarn-cluster）：./flink run -m yarn-cluster -d -yst -yqu flinkqu -yst -yn 4 -ys 2 -c flinkdemoclass flinkdemo.jar args1 args2 ... Session模式：先启动session：./bin/yarn-session.sh 后提交job：./bin/flink run ./path/to/job.jar detached模式：上面job模式的-d代表detached，这种情况下flink yarn client将会只提交任务到集群然后关闭自己。这样就不能从 env.execute() 中获得 accumulator results 或 exceptions。而在session模式下使用，则无法使用flink停止yarn session，需用yarn工具来停止 yarn application -kill

hadoop记录-[Flink]Flink三种运行模式安装部署以及实现WordCount（转载）

阅读更多关于 hadoop记录-[Flink]Flink三种运行模式安装部署以及实现WordCount（转载）

[Flink]Flink三种运行模式安装部署以及实现WordCount 前言 Flink三种运行方式：Local、Standalone、On Yarn。成功部署后分别用Scala和Java实现wordcount 环境版本：Flink 1.6.2 集群环境：Hadoop2.6 开发工具: IntelliJ IDEA 一.Local模式解压：tar -zxvf flink-1.6.2-bin-hadoop26-scala_2.11.tgz cd flink-1.6.2 启动：./bin/start-cluster.sh 停止：./bin/stop-cluster.sh 可以通过master：8081监控集群状态二.Standalone模式集群安装 1：修改conf/flink-conf.yaml jobmanager.rpc.address: hadoop100 2：修改conf/slaves hadoop101 hadoop102 3：拷贝到其他节点 scp -rq /usr/local/flink-1.6.2 hadoop101:/usr/local scp -rq /usr/local/flink-1.6.2 hadoop102:/usr/local 4：在hadoop100(master)节点启动 bin/start-cluster.sh 5：访问http:/

[Flink]Flink1.6三种运行模式安装部署以及实现WordCount

阅读更多关于 [Flink]Flink1.6三种运行模式安装部署以及实现WordCount

前言 Flink三种运行方式：Local、Standalone、On Yarn。成功部署后分别用Scala和Java实现wordcount 环境版本：Flink 1.6.2 集群环境：Hadoop2.6 开发工具: IntelliJ IDEA 一.Local模式解压：tar -zxvf flink-1.6.2-bin-hadoop26-scala_2.11.tgz cd flink-1.6.2 启动：./bin/start-cluster.sh 停止：./bin/stop-cluster.sh 可以通过master：8081监控集群状态二.Standalone模式集群安装 1：修改conf/flink-conf.yaml jobmanager.rpc.address: hadoop100 2：修改conf/slaves hadoop101 hadoop102 3：拷贝到其他节点 scp -rq /usr/local/flink-1.6.2 hadoop101:/usr/local scp -rq /usr/local/flink-1.6.2 hadoop102:/usr/local 4：在hadoop100(master)节点启动 bin/start-cluster.sh 5：访问 http://hadoop100:8081 三.Flink On Yarn模式 On

Flink on yarn的配置及执行

阅读更多关于 Flink on yarn的配置及执行

####1. 写在前面 Flink被誉为第四代大数据计算引擎组件，即可以用作基于离线分布式计算，也可以应用于实时计算。Flink可以自己搭建集群模式已提供为庞大数据的计算。但在实际应用中。都是计算hdfs上的数据文件，所以更多的建立在基于hadoop集群，而hadoop集群的资源调度组件为yarn，所以Flink on yarn本身就是提供了集群模式，将flink计算的资源调度和管理交给yarn，这里详细介绍flink on yarn的配置(默认hadoop几圈是配置没有问题的) ####2. 配置yarn-site.xml 这里的配置主要是配置执行的资源信息 ####3. 配置flink-conf.ymal 注意:最后两行的配置至关重要，如果不配会导致执行的结果没问题，但当flink提交执行结果报错从而导致整个任务进程都在影响下个任务的执行，其他配置都是配置flink的一些基本资源信息 ####4. 执行flink任务 ./bin/flink run -m yarn-cluster -yn 2 -yjm 1024 -ytm 1024 /wordspace/meijs/yndata-1.0.jar 20180318 15 该命令指定了nodemanager的个数，jobmanager的内存信息和taskmanager的内存信息当执行任务出现以下信息证明成功

egg 执行 yarn start 失败的解决方案

阅读更多关于 egg 执行 yarn start 失败的解决方案

1.报错信息： Ignoring invalid timezone passed to Connection: +8:00. This is currently a warning, but in future versions of MySQL2, an error will be thrown if you pass an invalid configuration option to a Connection 2.解决方案： "start": "egg-scripts start --daemon --title=egg-server-diary", "start-pro": "egg-scripts start --daemon --title=egg-server-diary --ignore-stderr", . 来源： oschina 链接： https://my.oschina.net/u/4364022/blog/3651991

Hadoop3.2.0集群（4节点-无HA）

阅读更多关于 Hadoop3.2.0集群（4节点-无HA）

1.准备环境 1.1配置dns # cat /etc/hosts 172.27.133.60 hadoop-01 172.27.133.61 hadoop-02 172.27.133.62 hadoop-03 172.27.133.63 hadoop-04 1.2配置免密登陆 # ssh-keygen # ssh-copy-id root@hadoop-02/03/04 1.3关闭防火墙 # cat /etc/selinux/config SELINUX=disabled # systemctl stop firewalld # systemctl disable firewalld 1.4配置Java环境,Hadoop环境 # tar -xf /data/software/jdk-8u171-linux-x64.tar.gz -C /usr/local/java # tar -xf /data/software/hadoop-3.2.0.tar.gz -C /data/hadoop # cat /etc/profile export HADOOP_HOME=/data/hadoop/hadoop-3.2.0 export JAVA_HOME=/usr/local/java/jdk1.8.0_171 export PATH=$JAVA_HOME/bin:$HADOOP_HOME

大数据系列之Hadoop的资源管理模块YARN

阅读更多关于大数据系列之Hadoop的资源管理模块YARN

CDA数据分析师出品 1、 YARN的产生在之前文章中介绍过hadoop1与hadoop2架构的区别是hadoop2将资源管理功能从MapReduce框架中独立出来，也就是现在的YARN模块。在没有 YARN 之前，是一个集群一个计算框架。比如：MapReduce 一个集群、Spark 一个集群、HBase 一个集群等。造成各个集群管理复杂，资源的利用率很低；比如：在某个时间段内 Hadoop 集群忙而Spark 集群闲着，反之亦然，各个集群之间不能共享资源造成集群间资源并不能充分利用。并且采用"一个框架一个集群"的模式，也需要多个管理员管理这些集群，进而增加运维成本；而共享集群模式通常需要少数管理员即可完成多个框架的统一管理; 随着数据量的暴增，跨集群间的数据移动不仅需要花费更长的时间，且硬件成本也会大大增加；而共享集群模式可让多种框架共享数据和硬件资源,将大大减少数据移动带来的成本。解决办法：将所有的计算框架运行在一个集群中，共享一个集群的资源，按需分配；Hadoop 需要资源就将资源分配给 Hadoop，Spark 需要资源就将资源分配给 Spark，进而整个集群中的资源利用率就高于多个小集群的资源利用率； 2、 YARN的基本构成 Master/Slave 结构，1 个ResourceManager（RM）对应多个 NodeManager(NM)；YARN

使用Bcrypt对密码进行加密与解密验证

阅读更多关于使用Bcrypt对密码进行加密与解密验证

Bcrypt是一个跨平台的文件加密工具。为了保护用户的明文密码不被泄露，一般会对密码进行单向不可逆加密——哈希。而Bcrypt恰恰就做到这一点，通过Bcrypt加密的明文密码即使解密也不是真的“解密”，哪怕是内部人员，也不会看到密码。这大大的提高了用户的安全级别。那么怎么使用呢？这里我用node的项目演示。首先引入Bcrypt yarn add bcrypt 这是一个用户注册时输入的密码 if (isSigned) { res.render( 'user' , { ret: true , data: JSON.stringify({ msg: '用户名已经存在！' }) }) // 当用户没有注册时，首先将密码加密，再将用户名和加密后的密码入库 } else { let result = await userModel.signup({ username, password: await _doCrypto(password) }) } // 将从前端接受到的password进行加密 const _doCrypto = (password) => { return new Promise((resolve) => { 　　//这里的salt值，每次都是不一样的，也是根据取到不同的salt，所以每次的加密结果都不一样 bcrypt.genSalt( 10, function

搭建hadoop+spark+hive环境（centos全远程hadoop极速安装及配置）

阅读更多关于搭建hadoop+spark+hive环境（centos全远程hadoop极速安装及配置）

总共分为三步：第一步安装配置hadoop：搭建hadoop+spark+hive环境（centos全远程hadoop极速安装及配置）第二步安装配置spark：搭建hadoop+spark+hive环境（centos极速安装和配置spark）第三步安装配置hive：搭建hadoop+spark+hive环境（centos极速安装和配置hive） I、安装jdk 1、下载jdk1.8 wget --no-cookies --no-check-certificate --header " Cookie: gpw_e24=http%3A%2F%2Fwww.oracle.com%2F; oraclelicense=accept-securebackup-cookie " " http://download.oracle.com/otn-pub/java/jdk/8u141-b15/336fa29ff2bb4ef291e347e091f7f4a7/jdk-8u141-linux-x64.tar.gz " 2、解压jdk tar xzf jdk-8u141-linux-x64. tar .gz 3、配置jdk ①建议将jdk放在/usr/local环境下 mkdir /usr/local/ java mv jdk1. 8 .0_141 /usr/local/java vi /etc

订阅 yarn