hadoop集群搭建

搭建Hadoop伪分布式集群

試著忘記壹切 提交于 2019-12-02 16:35:11
目录 版本与环境 准备 添加环境变量 配置Hadoop 克隆节点 配置主机名与IP 设置节点间免密登录 配置脚本文件 启动并验证 运行测试用例 版本与环境 虚拟机:VMware Workstation Pro 15 Linux镜像: Ubuntu-18.04.2-live-server-amd64.iso Java版本: jdk-8u231-linux-x64.tar.gz Hadoop版本: version-3.1.3 准备 (PS:以下配置需在克隆slave之前完成) 安装Ubuntu(PS:记得安装OpenSSH) 解压hadoop和jdk: tar -zxvf xxx.tar.gz 移动hadoop根目录: mv hadoop-3.1.3 /usr/local/hadoop3 移动jdk根目录: mv jdk-1.8.0_231 /usr/local/jdk1.8 添加环境变量 执行以下命令将环境变量写入 .bashrc # cd ~ # vim .bashrc java variables export JAVA_HOME=/usr/local/jdk1.8/ export JRE_HOME=$JAVA_HOME/jre export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib export PATH=$JAVA_HOME/bin:

【Zookeeper】利用zookeeper搭建Hdoop HA高可用

China☆狼群 提交于 2019-12-02 14:48:42
利用zookeeper搭建Hdoop HA高可用 HA概述 所谓HA(high available),即高可用(7*24小时不中断服务)。 实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。 Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF)。 NameNode主要在以下两个方面影响HDFS集群 ​ NameNode机器发生意外,如宕机,集群将无法使用,直到管理员重启 ​ NameNode机器需要升级,包括软件、硬件升级,此时集群也将无法使用 HDFS HA功能通过配置Active/Standby两个nameNodes实现在集群中对NameNode的热备来解决上述问题。如果出现故障,如机器崩溃或机器需要升级维护,这时可通过此种方式将NameNode很快的切换到另外一台机器。 HDFS-HA工作机制 ​ 通过双namenode消除单点故障 HDFS-HA工作要点 (1)元数据管理方式需要改变: ​ 内存中各自保存一份元数据; ​ Edits日志只有Active状态的namenode节点可以做写操作; ​ 两个namenode都可以读取edits; ​ 共享的edits放在一个共享存储中管理(qjournal和NFS两个主流实现); (2)需要一个状态管理功能模块 ​

HA高可用集群搭建

流过昼夜 提交于 2019-12-02 12:59:21
HA高可用集群搭建 1.总体集群规划 在hadoop102、hadoop103和hadoop104三个节点上部署Zookeeper。 hadoop102 hadoop103 hadoop104 NameNode NameNode JournalNode JournalNode JournalNode DataNode DataNode DataNode ZK ZK ZK ResourceManager NodeManager NodeManager NodeManager 2.配置zookeeper集群 2.1 zookeeper集群规划 在hadoop102、hadoop103和hadoop104三个节点上部署Zookeeper。 2.2 解压安装 (1)解压Zookeeper安装包到 /opt/module/ 目录下 [simon@hadoop102 software]$ tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/module/ (2)在 /opt/module/zookeeper-3.4.10/ 这个目录下创建zkData mkdir -p zkData (3)重命名 /opt/module/zookeeper-3.4.10/conf 这个目录下的 zoo_sample.cfg 为 zoo.cfg mv zoo_sample.cfg

hadoop技术入门学习之发行版选择

五迷三道 提交于 2019-12-02 09:59:44
经常会看到这样的问题:零基础学习hadoop难不难?有的人回答说:零基础学习hadoop,没有想象的那么难,也没有想象的那么容易。看到这样的答案不免觉得有些尴尬,这个问题算是白问了,因为这个回答似乎什么也没给出来。这个问题的关键在于“零基础”到底是个什么样的基础? 所谓的零基础大体可以分为两种:第一种是hadoop初学者,有一定的Linux基础、虚拟机和Java基础;第二种是hadoop兴趣爱好者,但缺乏最基本的Linux基础、虚拟机和Java基础。如果是第一种,其实学习hadoop的难度就会相对较小;但如果是第二种,那么难度就会非常大了。 要学习hadoop除了要了解hadoop是什么?Hadoop能够帮助我们做什么?以及hadoop的使用场景等基本问题,对于初学者而言选择一个合适的hadoop版本作为学习平台也是非常重要的事情。 国内的Hadoop商业发行版还是比较多,以对hadoop的二次包装为主。基本上国内的这些发行版hadoop的安装环境都是大同小异,网上查一下就会发现很多人在安装这些hadoop的运营环境时,整个安装过程非常复杂,耗时较长,重点就是很多人在经历了漫长的安装等待后,等到的结果可能是安装失败······ Hadoop运行环境的搭建就是初学者要解决的一个大问题,运行环境搭建不成功,也就无从着手学习了。各种发行版本的Hadoop运行环境的安装基本类似

Hadoop运行环境搭建

假装没事ソ 提交于 2019-12-02 08:47:06
安装hadoop2.7.2 解压(/opt/software -> /opt/module) tar -zxvf /hadoop-2.7.2.tar.gz -C /opt/module 环境变量 sudo vim /etc/profile export HADOOP_HOME=/opt/module/hadoop-2.7.2 export PATH=$PATH:$HADOOP_HOME/bin :export PATH=$PATH:$HADOOP_HOME/sbin 配置立即生效 source /etc/profile 查看hadoop版本 hadoop version 完全分布式运行模式 集群部署规划 配置集群(etc/hadoop/) 配置core-site.xml(核心配置文件) vi core-site.xml <configuration> <!-- 指定HDFS中NameNode的地址 --> <property> <name>fs.defaultFS</name> <value>hdfs://fan102:9000</value> </property> <!-- 指定Hadoop运行时产生文件的存储目录 --> <property> <name>hadoop.tmp.dir</name> <value>/opt/module/hadoop-2.7.2/data

Hadoop集群(第5期副刊)_JDK和SSH无密码配置

你离开我真会死。 提交于 2019-12-02 03:48:28
1、Linux配置java环境变量 1.1 原文出处 地址: http://blog.csdn.net/jiedushi/article/details/6672894 1.2 解压安装jdk   在shell终端下进入jdk-6u14-linux-i586.bin文件所在目录,执行命令 ./jdk-6u14-linux-i586.bin 这时会出现一段协议,连继敲回车,当询问是否同意的时候,输入yes,回车。之后会在当前目录下生成一个jdk1.6.0_14目录,你可以将它复制到 任何一个目录下。 1.3 需要配置的环境变量   1)PATH环境变量   作用是指定命令搜索路径,在shell下面执行命令时,它会到PATH变量所指定的路径中查找看是否能找到相应的命令程序。我们需要把 jdk安装目录下的bin目录增加到现有的PATH变量中,bin目录中包含经常要用到的可执行文件如javac/java/javadoc等待,设置好 PATH变量后,就可以在任何目录下执行javac/java等工具了。   2)CLASSPATH环境变量   作用是指定类搜索路径,要使用已经编写好的类,前提当然是能够找到它们了,JVM就是通过CLASSPTH来寻找类的。我们 需要把jdk安装目录下的lib子目录中的dt.jar和tools.jar设置到CLASSPATH中,当然,当前目录".

linux之hadoop

情到浓时终转凉″ 提交于 2019-12-02 03:47:30
hadoop架构 MapReduce:分布式计算架构 HDFS:分布式文件系统 YARN:集群资源管理系统 HDFS结构: hadoop单机模式 搭建步骤: 搭建四台服务器,分别为:server、node1、node2、node3 1、关闭防火墙和selinux 2、保证server到每一个node节点可以免密码登陆,配置无密码登陆 [root@Server ~]# vim /etc/ssh/ssh_config 2、配置本地域名解析,每一台都需要配置 59 ssh root@node1 yum -y install rsync 60 ssh root@node2 yum -y install rsync 61 ssh root@node3 yum -y install rsync 62 ssh root@node4 yum -y install rsync 63 ssh root@node5 yum -y install rsync 把集群中的每一台设备的本地域名解析文件进行同步 [root@Server ~]# for i in {11..15} ; do rsync -a /etc/hosts root@192.168.1.${i}:/etc/hosts -e 'ssh' & done 3、安装java 查询java安装包 [root@Server ~]# yum -y

hadoop初体验

瘦欲@ 提交于 2019-12-02 03:20:34
今日课程内容大纲 01) hadoop的简介 02) hadoop集群的搭建 发行版本 集群规划 hadoop源码编译(了解) hadoop集群搭建 03) hadoop集群启动与初体验 04) MapReduce的历史记录 05) HDFS的垃圾桶机制 01--Apache Hadoop--介绍和发展历程 01) hadoop的介绍 00) hadoop1.x和hadoop2.x的区别: yarn(资源管理) 解决了单点故障问题 提高资源的利用率 01) 狭义解释:特指Apache的一款java语言开发的开源软件,由一下三部分组成: HDFS: 解决海量数据存储的hadoop分布式文件系统 MapReduce: 解决海量数据分布式计算问题 YARN: 解决分布式架构中资源管理和任务调度 02) 广义解释:整个基于hadoop的生态系统,包括大数据处理流程中的各个阶段的软件 hive hbase zookeeper oozie sqoop flume impala storm spark flink kylin...... 02) hadoop发展历史 01) hadoop的创始人doug cutting lucene(海量数据搜索) -----> nutch (海量数据抓取)-----> 海量数据存储和海量数据计算问题? 参考: https://www.linkedin.com

大数据hadoop概念,安装与配置

天大地大妈咪最大 提交于 2019-12-01 15:31:39
一.大数据概念 概念 :最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮 Hadoop :Hadoop 实现了一个 分布式文件系统 (Hadoop Distributed File System),简称HDFS。HDFS有高 容错性 的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问 应用程序 的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。 实现过程: 客户提出需求给--产品设计部门 运维部门: 收集数据--搭建分析平台--部署软件 开发部门: 算法--开发--分析 大数据的由来: 随着计算机技术的发展,互联网的普及,信息的积累已经到了一个非常庞大的地步,信息的增长也在不断的加快,随着互联网,物联网建设的加快,信息更是爆炸式增长,收集,检索,统计这些信息越发困难,必须使用新的技术来解决这些问题. 大数据的定义: 大数据指无法在一定时间范围内常规软件工具进行捕捉,管理和处理的数据集合,需要新处理模式才能具有更强的决策力

快速搭建hadoop+hbase分布式集群

家住魔仙堡 提交于 2019-12-01 11:34:48
hadoop集群部署 1. 准备三台机器,如`10.8.177.23`,`10.8.177.24`,`10.8.177.25` 2. 修改主机名称,配置`hosts`文件(root用户下操作): Shell代码 # 每台机器执行,我这里hd开头,后边的数字与机器ip的最后一个组一致 hostnamectl set-hostname hd-23 hostnamectl set-hostname hd-23 --static # 修改hosts文件, vi /etc/hosts #加入路由配置 10.8.177.23 hd-23 10.8.177.24 hd-24 10.8.177.25 hd-25 3. 每台机器上创建一个用户,如hadoop: Shell代码 useradd -d /home/hadoop -m hadoop # 最好创建一个用户,不要直接使用root进行操作 4. 设置免密登录(==hadoop用户,下同==) > 只需要设置master对于其他两台机器进行免密登录即可 Shell代码 # 1、 在Master机器上的主目录中生成ssh公钥 ssh-keygen -t rsa # 2、 在其余机器上主目录中创建.ssh目录(执行上边的命令也可以) # 3、 将Master的公钥发送给其余两台服务器(需要输入免密) scp id_rsa.pub hadoop@hd