yarn

Hadoop大数据开发基础系列:一、初识Hadoop

喜你入骨 提交于 2020-04-24 18:08:00
目录结构 1.Hadoop概述 1.1 Hadoop简介 1.2 Hadoop发展史 1.3 Hadoop特点 2.Hadoop核心 2.1 分布式文件系统——HDFS 2.2 分布式计算框架——MapReduce 2.3 集群资源管理器——YARN 3.Hadoop生态系统 4.Hadoop应用场景 5.小结 一、Hadoop介绍 1.Hadoop概述 两大核心 :HDFS和MapReduce 用于资源与任务调度的框架 :YARN 1.1 Hadoop简介 Hadoop是一个由Apache基金会所开发的 分布式系统基础架构 。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。它的目的是从单一的服务器扩展到成千上万的机器,将集群部署在多台机器,每个机器提供本地计算和存储,并且将存储的数据备份在多个节点,由此提高集群的可用性,而不是通过硬件的提升,当一台机器宕机时,其他节点仍可以提供备份数据和计算服务,Hadoop框架最核心的设计是HDFS和MapReduce。 1.2 Hadoop发展史(转自百度百科) Hadoop原本来自于谷歌一款名为MapReduce的编程模型包。谷歌的MapReduce框架可以把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集。使用该框架的一个典型例子就是在网络数据上运行的搜索算法

Flink源码阅读(1.7.2)

依然范特西╮ 提交于 2020-04-24 18:01:30
[TOC] Client提交任务 执行模式有:本地、远程Standalone等,下面只介绍yarn模式。 Yarn模式 : Job模式是每个flink job 单独在yarn上声明一个flink集群 Session模式会在集群中维护flink master,即一个yarn application master,运行多个job。 Job模式(重点是加上-m yarn-cluster):./flink run -m yarn-cluster -d -yst -yqu flinkqu -yst -yn 4 -ys 2 -c flinkdemoclass flinkdemo.jar args1 args2 ... Session模式: 先启动session:./bin/yarn-session.sh 后提交job:./bin/flink run ./path/to/job.jar detached模式:上面job模式的-d代表detached,这种情况下flink yarn client将会只提交任务到集群然后关闭自己。这样就不能从 env.execute() 中获得 accumulator results 或 exceptions。而在session模式下使用,则无法使用flink停止yarn session,需用yarn工具来停止 yarn application -kill

hadoop记录-[Flink]Flink三种运行模式安装部署以及实现WordCount(转载)

岁酱吖の 提交于 2020-04-24 17:58:11
[Flink]Flink三种运行模式安装部署以及实现WordCount 前言 Flink三种运行方式:Local、Standalone、On Yarn。成功部署后分别用Scala和Java实现wordcount 环境 版本:Flink 1.6.2 集群环境:Hadoop2.6 开发工具: IntelliJ IDEA 一.Local模式 解压:tar -zxvf flink-1.6.2-bin-hadoop26-scala_2.11.tgz cd flink-1.6.2 启动:./bin/start-cluster.sh 停止:./bin/stop-cluster.sh 可以通过master:8081监控集群状态 二.Standalone模式 集群安装 1:修改conf/flink-conf.yaml jobmanager.rpc.address: hadoop100 2:修改conf/slaves hadoop101 hadoop102 3:拷贝到其他节点 scp -rq /usr/local/flink-1.6.2 hadoop101:/usr/local scp -rq /usr/local/flink-1.6.2 hadoop102:/usr/local 4:在hadoop100(master)节点启动 bin/start-cluster.sh 5:访问http:/

[Flink]Flink1.6三种运行模式安装部署以及实现WordCount

我只是一个虾纸丫 提交于 2020-04-24 16:55:19
前言 Flink三种运行方式:Local、Standalone、On Yarn。成功部署后分别用Scala和Java实现wordcount 环境 版本:Flink 1.6.2 集群环境:Hadoop2.6 开发工具: IntelliJ IDEA 一.Local模式 解压:tar -zxvf flink-1.6.2-bin-hadoop26-scala_2.11.tgz cd flink-1.6.2 启动:./bin/start-cluster.sh 停止:./bin/stop-cluster.sh 可以通过master:8081监控集群状态 二.Standalone模式 集群安装 1:修改conf/flink-conf.yaml jobmanager.rpc.address: hadoop100 2:修改conf/slaves hadoop101 hadoop102 3:拷贝到其他节点 scp -rq /usr/local/flink-1.6.2 hadoop101:/usr/local scp -rq /usr/local/flink-1.6.2 hadoop102:/usr/local 4:在hadoop100(master)节点启动 bin/start-cluster.sh 5:访问 http://hadoop100:8081 三.Flink On Yarn模式 On

Flink on yarn的配置及执行

左心房为你撑大大i 提交于 2020-04-24 15:52:02
####1. 写在前面 Flink被誉为第四代大数据计算引擎组件,即可以用作基于离线分布式计算,也可以应用于实时计算。Flink可以自己搭建集群模式已提供为庞大数据的计算。但在实际应用中。都是计算hdfs上的数据文件,所以更多的建立在基于hadoop集群,而hadoop集群的资源调度组件为yarn,所以Flink on yarn本身就是提供了集群模式,将flink计算的资源调度和管理交给yarn,这里详细介绍flink on yarn的配置(默认hadoop几圈是配置没有问题的) ####2. 配置yarn-site.xml 这里的配置主要是配置执行的资源信息 ####3. 配置flink-conf.ymal 注意:最后两行的配置至关重要,如果不配会导致执行的结果没问题,但当flink提交执行结果报错从而导致整个任务进程都在影响下个任务的执行,其他配置都是配置flink的一些基本资源信息 ####4. 执行flink任务 ./bin/flink run -m yarn-cluster -yn 2 -yjm 1024 -ytm 1024 /wordspace/meijs/yndata-1.0.jar 20180318 15 该命令指定了nodemanager的个数,jobmanager的内存信息和taskmanager的内存信息 当执行任务出现以下信息证明成功

egg 执行 yarn start 失败的解决方案

萝らか妹 提交于 2020-04-24 08:52:24
1.报错信息: Ignoring invalid timezone passed to Connection: +8:00. This is currently a warning, but in future versions of MySQL2, an error will be thrown if you pass an invalid configuration option to a Connection 2.解决方案: "start": "egg-scripts start --daemon --title=egg-server-diary", "start-pro": "egg-scripts start --daemon --title=egg-server-diary --ignore-stderr", . 来源: oschina 链接: https://my.oschina.net/u/4364022/blog/3651991

Hadoop3.2.0集群(4节点-无HA)

巧了我就是萌 提交于 2020-04-24 07:03:55
1.准备环境 1.1配置dns # cat /etc/hosts 172.27.133.60 hadoop-01 172.27.133.61 hadoop-02 172.27.133.62 hadoop-03 172.27.133.63 hadoop-04 1.2配置免密登陆 # ssh-keygen # ssh-copy-id root@hadoop-02/03/04 1.3关闭防火墙 # cat /etc/selinux/config SELINUX=disabled # systemctl stop firewalld # systemctl disable firewalld 1.4配置Java环境,Hadoop环境 # tar -xf /data/software/jdk-8u171-linux-x64.tar.gz -C /usr/local/java # tar -xf /data/software/hadoop-3.2.0.tar.gz -C /data/hadoop # cat /etc/profile export HADOOP_HOME=/data/hadoop/hadoop-3.2.0 export JAVA_HOME=/usr/local/java/jdk1.8.0_171 export PATH=$JAVA_HOME/bin:$HADOOP_HOME

大数据系列之Hadoop的资源管理模块YARN

社会主义新天地 提交于 2020-04-23 23:17:22
CDA数据分析师 出品 1、 YARN的产生 在之前文章中介绍过hadoop1与hadoop2架构的区别是hadoop2将资源管理功能从MapReduce框架中独立出来,也就是现在的YARN模块。 在没有 YARN 之前,是一个集群一个计算框架。比如:MapReduce 一个集群、Spark 一个集群、HBase 一个集群等。 造成各个集群管理复杂,资源的利用率很低;比如:在某个时间段内 Hadoop 集群忙而Spark 集群闲着,反之亦然,各个集群之间不能共享资源造成集群间资源并不能充分利用。 并且采用"一个框架一个集群"的模式,也需要多个管理员管理这些集群, 进而增加运维成本;而共享集群模式通常需要少数管理员即可完成多个框架的统一管理; 随着数据量的暴增,跨集群间的数据移动不仅需要花费更长的时间,且硬件成本也会大大增加;而共享集群模式可让多种框架共享数据和硬件资源,将大大减少数据移动带来的成本。 解决办法: 将所有的计算框架运行在一个集群中,共享一个集群的资源,按需分配;Hadoop 需要资源就将资源分配给 Hadoop,Spark 需要资源就将资源分配给 Spark,进而整个集群中的资源利用率就高于多个小集群的资源利用率; 2、 YARN的基本构成 Master/Slave 结构,1 个ResourceManager(RM)对应多个 NodeManager(NM);YARN

使用Bcrypt对密码进行加密与解密验证

删除回忆录丶 提交于 2020-04-23 14:41:04
Bcrypt是一个跨平台的文件加密工具。 为了保护用户的明文密码不被泄露,一般会对密码进行单向不可逆加密——哈希。 而Bcrypt恰恰就做到这一点,通过Bcrypt加密的明文密码即使解密也不是真的“解密”,哪怕是内部人员,也不会看到密码。 这大大的提高了用户的安全级别。那么怎么使用呢?这里我用node的项目演示。 首先引入Bcrypt yarn add bcrypt 这是一个用户注册时输入的密码 if (isSigned) { res.render( 'user' , { ret: true , data: JSON.stringify({ msg: '用户名已经存在!' }) }) // 当用户没有注册时,首先将密码加密,再将用户名和加密后的密码入库 } else { let result = await userModel.signup({ username, password: await _doCrypto(password) }) } // 将从前端接受到的password进行加密 const _doCrypto = (password) => { return new Promise((resolve) => {   //这里的salt值,每次都是不一样的,也是根据取到不同的salt,所以每次的加密结果都不一样 bcrypt.genSalt( 10, function

搭建hadoop+spark+hive环境(centos全远程hadoop极速安装及配置)

雨燕双飞 提交于 2020-04-23 11:12:37
总共分为三步: 第一步安装配置hadoop: 搭建hadoop+spark+hive环境(centos全远程hadoop极速安装及配置) 第二步安装配置spark: 搭建hadoop+spark+hive环境(centos极速安装和配置spark) 第三步安装配置hive: 搭建hadoop+spark+hive环境(centos极速安装和配置hive) I、安装jdk 1、下载jdk1.8 wget --no-cookies --no-check-certificate --header " Cookie: gpw_e24=http%3A%2F%2Fwww.oracle.com%2F; oraclelicense=accept-securebackup-cookie " " http://download.oracle.com/otn-pub/java/jdk/8u141-b15/336fa29ff2bb4ef291e347e091f7f4a7/jdk-8u141-linux-x64.tar.gz " 2、解压jdk tar xzf jdk-8u141-linux-x64. tar .gz 3、配置jdk ①建议将jdk放在/usr/local环境下 mkdir /usr/local/ java mv jdk1. 8 .0_141 /usr/local/java vi /etc