hadoop集群搭建

Hadoop+Spark分布式集群环境搭建

两盒软妹~` 提交于 2019-12-01 06:22:16
  Hadoop是一个能够让用户轻松架构和使用的分布式计算平台,而Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。 下面使用在同一个局域网下的两台电脑搭建分布式计算的环境:   其中JDK、Hadoop、Spark都已经在两台电脑上安装好。   一台Ubuntu主机系统Master,IP地址假设为:192.168.1.101( ifconfig 查看IP地址)   一台Ubuntu主机系统Slave ,IP地址假设为:192.168.1.108   (互ping一下,测试能否ping通) 修改主机名(方便区分主机): sudo vim /etc/hostname #分别修改为Master、Slave 修改完后分别重启一下,在终端Shell中可看到机器名的变化。 修改两台电脑的/etc/hosts文件, sudo vim /etc/hosts 添加同样的配置: 127.0.0.1 localhost 192.168.1.101 Master 192.168.1.108 Slave 配置完后在Master上检测一下能否ping通: ping Slave 配置ssh无密码登录本机和访问集群机器 sudo apt-get openssh-server #若未安装ssh需先安装 ssh-keygen -t rsa -P "" cat $HOME/.ssh/id_rsa

Hadoop2.2.0安装配置手册

帅比萌擦擦* 提交于 2019-12-01 03:02:56
第一部分 Hadoop 2.2 下载 Hadoop我们从Apache官方网站直接下载最新版本Hadoop2.2。官方目前是提供了linux32位系统可执行文件,所以如果需要在64位系统上部署则需要单独下载src 源码自行编译(10楼评论中提供了一个解决方法链接)。 下载地址: http://apache.claz.org/hadoop/common/hadoop-2.2.0/ 如下图所示,下载红色标记部分即可。如果要自行编译则下载src.tar.gz. 第二部分 集群环境搭建 1、这里我们搭建一个由三台机器组成的集群: 192.168.0.1 hduser/passwd cloud001 nn/snn/rm CentOS6 64bit 192.168.0.2 hduser/passwd cloud002 dn/nm Ubuntu13.04 32bit 192.168.0.3 hduser/passwd cloud003 dn/nm Ubuntu13.0432bit 1.1 上面各列分别为IP、user/passwd、hostname、在cluster中充当的角色(namenode, secondary namenode, datanode , resourcemanager, nodemanager) vi /etc/hosts 编辑/etc/sysconfig/network文件

大数据集群环境搭建之一 hadoop-ha高可用安装

我怕爱的太早我们不能终老 提交于 2019-11-30 23:59:13
1、如果你使用 root用户进行安装。 vi /etc/profile 即可 系统变量 2、如果你使用普通用户进行安装。 vi ~/.bashrc 用户变量 export HADOOP_HOME= /export/servers/hadoop-2.8.5 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin: 同步配置文件 [root@jiang01 servers]# vi /etc/profile [root@jiang01 servers]# [root@jiang01 servers]# xrsync.sh /etc/profile =========== jiang02 : /etc/profile =========== 命令执行成功 =========== jiang03 : /etc/profile =========== 命令执行成功 [root@jiang01 servers]# 刷新配置各个机器配置: source /etc/profile 修改下面各个配置文件: <?xml version="1.0" encoding="UTF-8"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Licensed under the

[HBase] 从零开始部署HBase集群

馋奶兔 提交于 2019-11-30 12:54:58
Hbase集群配置信息如下: Hadoop:hadoop-0.20.2,1 个Master节点(兼做Slave节点)3个Slave节点 Zookeeper:zookeeper-3.3.2 3个Zookeeper节点 Hbase:hbase-0.90.3 一个HMasterServer节点(兼做HRegionServer),3个HRegionServer节点 OS : ubuntu11.04 机器环境(3个VM节点): 192.168.128.131 master 192.168.128.132 slave1 192.168.128.133 slave2 并配置ssh无密码通信 一、关于虚拟机注意事项 在机器上创建第一个虚拟机后,默认的hostname 为 ubuntu,这时候拷贝两个备份,三台虚拟机的主机名均为ubuntu。 1.如果不更改hostname的话,搭建hadoop集群后执行Reduce任务时会抛出异常: mapred.JobClient: Task Id :attempt_201111222034_0001_m_000002_0, Status : FAILED Too many fetch-failures 11/11/22 20:56:19 WARN mapred.JobClient: Error reading

基于Hadoop HA的Hbase集群搭建

こ雲淡風輕ζ 提交于 2019-11-30 12:50:40
集群搭建简介: hbase集群搭建总体较为简单,但是网上很多文章写的都挺乱的,所以自己写了这篇文章基于hadoop HA搭建hbase集群的文章,充分查阅了官方文档相当靠谱。安装主要步骤为:下载并解压安装包,修改配置文件,发送到其他节点。期间注意hbase的master节点要能ssh通其他region节点,不然启动时候需要手动输入密码。 前期准备:hadoop HA环境已搭建成功,zookeeper能正常运行。 安装流程: 1.解压 tar -zxvf hbase-1.2.6-bin.tar.gz (当前1.2.*版本最为稳定,1.3.*还在优化中) vi /etc/profile 环境变量 export HBASE_HOME=/hadoop/hbase-1.2.6 export PATH=$PATH:$HBASE_HOME/bin 2. vi /hadoop/hbase-1.2.6/conf/hbase-site.xml <property> <name> hbase.rootdir </name> <value> hdfs://cluster_name/hbase </value> <description>一定要把hadoop中的core-site.xml和hdf-site.xml复制到hbase的conf目录下,才能成功解析该集群名称

Hadoop 分布式集群搭建 & 配置

Deadly 提交于 2019-11-30 12:21:27
一. 安装Java Java下载 官网下载合适的jdk,本人使用的是 jdk-7u79-linux-x64.tar.gz ,接下来就以该版本的jdk为例,进行Java环境变量配置 创建Java目录 在/usr/local目录下创建java目录,用于存放解压的jdk cd /usr/local mkdir java 解压jdk 进入java目录 cd java tar zxvf jdk-7u79-linux-x64.tar.gz 配置环境变量 编辑profile文件 cd /etc vim profile 在文件末尾追加以下配置 export JAVA_HOME=/usr/local/java/jdk1.7.0_79 export JRE_HOME=/usr/local/java/jdk1.7.0_79/jre export PATH=$PATH:/usr/local/java/jdk1.7.0_79/bin export CLASSPATH=./:/usr/local/java/jdk1.7.0_79/lib:/usr/local/jdk7/jdk1.7.0_79/jre/lib 刷新profile文件 source /etc/profile 二. 安装Hadoop 下载Hadoop Hadoop Down Page 根据需求选择合适的版本进行下载,本人下载的是 hadoop-2

Hadoop 伪分布式模式安装

∥☆過路亽.° 提交于 2019-11-30 12:06:46
Hadoop简介 Hadoop由Apache基金会开发的分布式系统基础架构,是利用集群对大量数据进行分布式处理和存储的软件框架。用户可以轻松地在Hadoop集群上开发和运行处理海量数据的应用程序。Hadoop有高可靠,高扩展,高效性,高容错等优点。Hadoop 框架最核心的设计就是HDFS和MapReduce。HDFS为海量的数据提供了存储,MapReduce为海量的数据提供了计算。此外,Hadoop还包括了Hive,Hbase,ZooKeeper,Pig,Avro,Sqoop,Flume,Mahout等项目。 Hadoop的运行模式分为3种: 本地运行模式 , 伪分布运行模式 , 完全分布运行模式 。 本地模式(local mode) 这种运行模式在一台单机上运行,没有HDFS分布式文件系统,而是直接读写本地操作系统中的文件系统。在本地运行模式(local mode)中不存在守护进程,所有进程都运行在一个JVM上。单机模式适用于开发阶段运行MapReduce程序,这也是最少使用的一个模式。 伪分布模式 这种运行模式是在单台服务器上模拟Hadoop的完全分布模式,单机上的分布式并不是真正的分布式,而是使用线程模拟的分布式。在这个模式中,所有守护进程(NameNode,DataNode,ResourceManager,NodeManager,SecondaryNameNode

Hadoop 2.2.0 (YARN)搭建笔记

拜拜、爱过 提交于 2019-11-30 06:31:45
最近工作需要,摸索着搭建了Hadoop 2.2.0(YARN)集群,中间遇到了一些问题,在此记录,希望对需要的同学有所帮助。 本篇文章不涉及hadoop2.2的编译,编译相关的问题在另外一篇文章《hadoop 2.2.0 源码编译笔记》中说明,本篇文章我们假定已经获得了hadoop 2.2.0的64bit发行包。 由于spark的兼容问题,我们后面使用了Hadoop 2.0.5-alpha的版本(2.2.0是稳定版本), 2.0.5的配置有一点细微的差别,文中有特别提示 。 1. 简介 【本节摘自 http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.html 】 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为 核心 的Hadoop为用户提供了系统底层细节透明的分布式基础架构。   对于Hadoop的集群来讲,可以分成两大类角色:Master和Salve。一个 HDFS 集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文件系统的命名空间和客户端对文件系统的访问操作

hadoop-安装

左心房为你撑大大i 提交于 2019-11-30 02:45:08
由于篇幅较大,废话不多说,直奔主题。 hadoop 安装同样可分为 单机模式、伪分布式、完全分布式 本文 主要 介绍完全分布式,环境 centos 6.5,hadoop-2.6.5 第一步:配置好 4 台虚拟机或者物理机,具体步骤参考我的其他博客 第二步:查看主机名,并修改           【务必记住修改主机名的方法,很多地方要用,不过不同版本方法不同】 [root@localhost ~]# hostname localhost.localdomain [root@localhost ~]# vi /etc/sysconfig/network [root@localhost ~]# hostname localhost.localdomain 修改为 NETWORKING=yes HOSTNAME=hadoop10 由于这种方法需要 重启才能生效 ,故 再查 hostname 没有变化,这里我不想重启,直接使用 临时更改命令 [root@localhost ~]# hostname hodoop10 [root@localhost ~]# hostname hodoop10 重启失效 依次修改 4 台电脑的 hostname 第三步:编辑 IP 与 hostname 的映射表 /etc/hosts 这个文件和 hostname 的修改没有任何关系,他需要放在集群中的每个节点

Ubuntu上搭建Hadoop环境(单机模式+伪分布模式)

允我心安 提交于 2019-11-29 21:27:35
Hadoop在处理海量数据分析方面具有独天优势。今天花时间在自己的Linux上搭建了伪分布模式,期间经历很多曲折,现在将经验总结如下。 首先,了解Hadoop的三种安装模式: 1. 单机模式. 单机模式是Hadoop的默认模。当配置文件为空时,Hadoop完全运行在本地。因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何Hadoop的守护进程。该模式主要用于开发调试MapReduce程序的应用逻辑。 2. 伪分布模式. Hadoop守护进程运行在本地机器上,模拟一个小规模的的集群。该模式在单机模式之上增加了代码调试功能,允许你检查内存使用情况,HDFS输入输出,以及其他的守护进程交互。 3. 全分布模式. Hadoop守护进程运行在一个集群上。 参考资料: 1. Ubuntu11.10下安装Hadoop1.0.0(单机伪分布式) 2. 在Ubuntu上安装Hadoop 3. Ubuntu 12.04搭建hadoop单机版环境 4. Ubuntu下安装及配置单点hadoop 5. Ubuntu上搭建Hadoop环境(单机模式+伪分布模式) 6. Hadoop的快速入门之 Ubuntu上搭建Hadoop环境(单机模式+伪分布模式) 本人极力推荐 5 和 6 ,这两种教程从简到难,步骤详细,且有运行算例。下面我就将自己的安装过程大致回顾一下,为省时间,很多文字粘贴子参考资料