hadoop集群搭建 | 易学教程

Hadoop+Spark分布式集群环境搭建

阅读更多关于 Hadoop+Spark分布式集群环境搭建

　　Hadoop是一个能够让用户轻松架构和使用的分布式计算平台，而Spark 是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。下面使用在同一个局域网下的两台电脑搭建分布式计算的环境：　　其中JDK、Hadoop、Spark都已经在两台电脑上安装好。　　一台Ubuntu主机系统Master，IP地址假设为：192.168.1.101（ ifconfig 查看IP地址）　　一台Ubuntu主机系统Slave ，IP地址假设为：192.168.1.108 　　（互ping一下，测试能否ping通）修改主机名（方便区分主机）： sudo vim /etc/hostname #分别修改为Master、Slave 修改完后分别重启一下，在终端Shell中可看到机器名的变化。修改两台电脑的/etc/hosts文件， sudo vim /etc/hosts 添加同样的配置： 127.0.0.1 localhost 192.168.1.101 Master 192.168.1.108 Slave 配置完后在Master上检测一下能否ping通： ping Slave 配置ssh无密码登录本机和访问集群机器 sudo apt-get openssh-server #若未安装ssh需先安装 ssh-keygen -t rsa -P "" cat $HOME/.ssh/id_rsa

Hadoop2.2.0安装配置手册

阅读更多关于 Hadoop2.2.0安装配置手册

第一部分 Hadoop 2.2 下载 Hadoop我们从Apache官方网站直接下载最新版本Hadoop2.2。官方目前是提供了linux32位系统可执行文件，所以如果需要在64位系统上部署则需要单独下载src 源码自行编译（10楼评论中提供了一个解决方法链接）。下载地址: http://apache.claz.org/hadoop/common/hadoop-2.2.0/ 如下图所示，下载红色标记部分即可。如果要自行编译则下载src.tar.gz. 第二部分集群环境搭建 1、这里我们搭建一个由三台机器组成的集群： 192.168.0.1 hduser/passwd cloud001 nn/snn/rm CentOS6 64bit 192.168.0.2 hduser/passwd cloud002 dn/nm Ubuntu13.04 32bit 192.168.0.3 hduser/passwd cloud003 dn/nm Ubuntu13.0432bit 1.1 上面各列分别为IP、user/passwd、hostname、在cluster中充当的角色（namenode, secondary namenode, datanode , resourcemanager, nodemanager） vi /etc/hosts 编辑/etc/sysconfig/network文件

大数据集群环境搭建之一 hadoop-ha高可用安装

阅读更多关于大数据集群环境搭建之一 hadoop-ha高可用安装

1、如果你使用 root用户进行安装。 vi /etc/profile 即可系统变量 2、如果你使用普通用户进行安装。 vi ~/.bashrc 用户变量 export HADOOP_HOME= /export/servers/hadoop-2.8.5 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin: 同步配置文件 [root@jiang01 servers]# vi /etc/profile [root@jiang01 servers]# [root@jiang01 servers]# xrsync.sh /etc/profile =========== jiang02 : /etc/profile =========== 命令执行成功 =========== jiang03 : /etc/profile =========== 命令执行成功 [root@jiang01 servers]# 刷新配置各个机器配置： source /etc/profile 修改下面各个配置文件： <?xml version="1.0" encoding="UTF-8"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Licensed under the

[HBase] 从零开始部署HBase集群

阅读更多关于 [HBase] 从零开始部署HBase集群

Hbase集群配置信息如下： Hadoop：hadoop-0.20.2，1 个Master节点（兼做Slave节点）3个Slave节点 Zookeeper：zookeeper-3.3.2 3个Zookeeper节点 Hbase：hbase-0.90.3 一个HMasterServer节点（兼做HRegionServer）,3个HRegionServer节点 OS ： ubuntu11.04 机器环境（3个VM节点）: 192.168.128.131 master 192.168.128.132 slave1 192.168.128.133 slave2 并配置ssh无密码通信一、关于虚拟机注意事项在机器上创建第一个虚拟机后，默认的hostname 为 ubuntu,这时候拷贝两个备份，三台虚拟机的主机名均为ubuntu。 1.如果不更改hostname的话，搭建hadoop集群后执行Reduce任务时会抛出异常： mapred.JobClient: Task Id :attempt_201111222034_0001_m_000002_0, Status : FAILED Too many fetch-failures 11/11/22 20:56:19 WARN mapred.JobClient: Error reading

基于Hadoop HA的Hbase集群搭建

阅读更多关于基于Hadoop HA的Hbase集群搭建

集群搭建简介： hbase集群搭建总体较为简单，但是网上很多文章写的都挺乱的，所以自己写了这篇文章基于hadoop HA搭建hbase集群的文章，充分查阅了官方文档相当靠谱。安装主要步骤为：下载并解压安装包，修改配置文件，发送到其他节点。期间注意hbase的master节点要能ssh通其他region节点，不然启动时候需要手动输入密码。前期准备：hadoop HA环境已搭建成功，zookeeper能正常运行。安装流程： 1.解压 tar -zxvf hbase-1.2.6-bin.tar.gz （当前1.2.*版本最为稳定，1.3.*还在优化中） vi /etc/profile 环境变量 export HBASE_HOME=/hadoop/hbase-1.2.6 export PATH=$PATH:$HBASE_HOME/bin 2. vi /hadoop/hbase-1.2.6/conf/hbase-site.xml <property> <name> hbase.rootdir </name> <value> hdfs://cluster_name/hbase </value> <description>一定要把hadoop中的core-site.xml和hdf-site.xml复制到hbase的conf目录下，才能成功解析该集群名称

Hadoop 分布式集群搭建 & 配置

阅读更多关于 Hadoop 分布式集群搭建 & 配置

一. 安装Java Java下载官网下载合适的jdk,本人使用的是 jdk-7u79-linux-x64.tar.gz ,接下来就以该版本的jdk为例，进行Java环境变量配置创建Java目录在/usr/local目录下创建java目录，用于存放解压的jdk cd /usr/local mkdir java 解压jdk 进入java目录 cd java tar zxvf jdk-7u79-linux-x64.tar.gz 配置环境变量编辑profile文件 cd /etc vim profile 在文件末尾追加以下配置 export JAVA_HOME=/usr/local/java/jdk1.7.0_79 export JRE_HOME=/usr/local/java/jdk1.7.0_79/jre export PATH=$PATH:/usr/local/java/jdk1.7.0_79/bin export CLASSPATH=./:/usr/local/java/jdk1.7.0_79/lib:/usr/local/jdk7/jdk1.7.0_79/jre/lib 刷新profile文件 source /etc/profile 二. 安装Hadoop 下载Hadoop Hadoop Down Page 根据需求选择合适的版本进行下载，本人下载的是 hadoop-2

Hadoop 伪分布式模式安装

阅读更多关于 Hadoop 伪分布式模式安装

Hadoop简介 Hadoop由Apache基金会开发的分布式系统基础架构，是利用集群对大量数据进行分布式处理和存储的软件框架。用户可以轻松地在Hadoop集群上开发和运行处理海量数据的应用程序。Hadoop有高可靠，高扩展，高效性，高容错等优点。Hadoop 框架最核心的设计就是HDFS和MapReduce。HDFS为海量的数据提供了存储，MapReduce为海量的数据提供了计算。此外，Hadoop还包括了Hive，Hbase，ZooKeeper，Pig，Avro，Sqoop，Flume，Mahout等项目。 Hadoop的运行模式分为3种：本地运行模式，伪分布运行模式，完全分布运行模式。本地模式（local mode）这种运行模式在一台单机上运行，没有HDFS分布式文件系统，而是直接读写本地操作系统中的文件系统。在本地运行模式（local mode）中不存在守护进程，所有进程都运行在一个JVM上。单机模式适用于开发阶段运行MapReduce程序，这也是最少使用的一个模式。伪分布模式这种运行模式是在单台服务器上模拟Hadoop的完全分布模式，单机上的分布式并不是真正的分布式，而是使用线程模拟的分布式。在这个模式中，所有守护进程(NameNode，DataNode，ResourceManager，NodeManager，SecondaryNameNode

Hadoop 2.2.0 (YARN)搭建笔记

阅读更多关于 Hadoop 2.2.0 (YARN)搭建笔记

最近工作需要，摸索着搭建了Hadoop 2.2.0(YARN)集群，中间遇到了一些问题，在此记录，希望对需要的同学有所帮助。本篇文章不涉及hadoop2.2的编译，编译相关的问题在另外一篇文章《hadoop 2.2.0 源码编译笔记》中说明，本篇文章我们假定已经获得了hadoop 2.2.0的64bit发行包。由于spark的兼容问题，我们后面使用了Hadoop 2.0.5-alpha的版本（2.2.0是稳定版本）， 2.0.5的配置有一点细微的差别，文中有特别提示。 1. 简介【本节摘自 http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.html 】 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统（HDFS，Hadoop Distributed Filesystem）和MapReduce（Google MapReduce的开源实现）为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。　　对于Hadoop的集群来讲，可以分成两大类角色：Master和Salve。一个 HDFS 集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器，管理文件系统的命名空间和客户端对文件系统的访问操作

hadoop-安装

阅读更多关于 hadoop-安装

由于篇幅较大，废话不多说，直奔主题。 hadoop 安装同样可分为单机模式、伪分布式、完全分布式本文主要介绍完全分布式，环境 centos 6.5，hadoop-2.6.5 第一步：配置好 4 台虚拟机或者物理机，具体步骤参考我的其他博客第二步：查看主机名，并修改　　　　　　　　　　【务必记住修改主机名的方法，很多地方要用，不过不同版本方法不同】 [root@localhost ~]# hostname localhost.localdomain [root@localhost ~]# vi /etc/sysconfig/network [root@localhost ~]# hostname localhost.localdomain 修改为 NETWORKING=yes HOSTNAME=hadoop10 由于这种方法需要重启才能生效，故再查 hostname 没有变化，这里我不想重启，直接使用临时更改命令 [root@localhost ~]# hostname hodoop10 [root@localhost ~]# hostname hodoop10 重启失效依次修改 4 台电脑的 hostname 第三步：编辑 IP 与 hostname 的映射表 /etc/hosts 这个文件和 hostname 的修改没有任何关系，他需要放在集群中的每个节点

Ubuntu上搭建Hadoop环境（单机模式+伪分布模式）

阅读更多关于 Ubuntu上搭建Hadoop环境（单机模式+伪分布模式）

Hadoop在处理海量数据分析方面具有独天优势。今天花时间在自己的Linux上搭建了伪分布模式，期间经历很多曲折，现在将经验总结如下。首先，了解Hadoop的三种安装模式： 1. 单机模式. 单机模式是Hadoop的默认模。当配置文件为空时，Hadoop完全运行在本地。因为不需要与其他节点交互，单机模式就不使用HDFS，也不加载任何Hadoop的守护进程。该模式主要用于开发调试MapReduce程序的应用逻辑。 2. 伪分布模式. Hadoop守护进程运行在本地机器上，模拟一个小规模的的集群。该模式在单机模式之上增加了代码调试功能，允许你检查内存使用情况，HDFS输入输出，以及其他的守护进程交互。 3. 全分布模式. Hadoop守护进程运行在一个集群上。参考资料： 1. Ubuntu11.10下安装Hadoop1.0.0（单机伪分布式） 2. 在Ubuntu上安装Hadoop 3. Ubuntu 12.04搭建hadoop单机版环境 4. Ubuntu下安装及配置单点hadoop 5. Ubuntu上搭建Hadoop环境（单机模式+伪分布模式） 6. Hadoop的快速入门之 Ubuntu上搭建Hadoop环境（单机模式+伪分布模式）本人极力推荐 5 和 6 ，这两种教程从简到难，步骤详细，且有运行算例。下面我就将自己的安装过程大致回顾一下，为省时间，很多文字粘贴子参考资料

订阅 hadoop集群搭建