hadoop集群搭建 | 易学教程

Hadoop1重新格式化HDFS

阅读更多关于 Hadoop1重新格式化HDFS

首先我们来认识一下HDFS， HDFS（Hadoop Distributed File System ）Hadoop分布式文件系统。它其实是将一个大文件分成若干块保存在不同服务器的多个节点中。通过联网让用户感觉像是在本地一样查看文件，为了降低文件丢失造成的错误，它会为每个小文件复制多个副本（默认为三个），以此来实现多机器上的多用户分享文件和存储空间。 Hadoop主要包含三个模块： HDFS模块：HDFS负责大数据的存储，通过将大文件分块后进行分布式存储方式，突破了服务器硬盘大小的限制，解决了单台机器无法存储大文件的问题，HDFS是个相对独立的模块，可以为YARN提供服务，也可以为HBase等其他模块提供服务。 YARN模块：YARN是一个通用的资源协同和任务调度框架，是为了解决Hadoop中MapReduce里NameNode负载太大和其他问题而创建的一个框架。YARN是个通用框架，不止可以运行MapReduce，还可以运行Spark、Storm等其他计算框架。 MapReduce模块：MapReduce是一个计算框架，它给出了一种数据处理的方式，即通过Map阶段、Reduce阶段来分布式地流式处理数据。它只适用于大数据的离线处理，对实时性要求很高的应用不适用。多相关信息可以参考博客：初识HDFS（10分钟了解HDFS、NameNode和DataNode）。

Hadoop伪分布模式安装

阅读更多关于 Hadoop伪分布模式安装

一、本文说明：本次测试在一台虚拟机系统上进行伪分布式搭建。Hadoop伪分布式模式是在单机上模拟Hadoop分布式，单机上的分布式并不是真正的伪分布式，而是使用线程模拟分布式。Hadoop本身是无法区分伪分布式和分布式的，两种配置也很相似。唯一不同的地方是伪分布式是在单机器上配置，数据节点和名字节点均是一个机器。环境说明：操作系统：red hat 5.4 x86 hadoop版本：hadoop-0.20.2 JDK版本：jdk1.7 二、JDK安装及Java环境变量的配置 ----首先把压缩包解压出来---- 1 [ root@localhost ~ ] # tar - zxvf jdk - 7u9 - linux - i586.tar.gz 2 ----修改目录名---- 3 [ root@localhost ~ ] # mv jdk1. 7 .0_ 09 / jdk1. 7 4 ----在/etc/profile文件中添加下面几行---- 5 [ root@localhost ~ ] # vi / etc / profile 6 7 export JAVA_HOME =/ jdk1. 7 8 export CLASSPATH = .:$JAVA_HOME / lib:$JAVA_HOME / jre / lib 9 export PATH = $JAVA_HOME /

我的第一篇博客

阅读更多关于我的第一篇博客

Hadoop的三种模式搭建准备工作（对Linux客户机的操作）安装Linux（centOS7）关闭防火墙、IP主机名映射（vi /etc/hosts）、修改主机名（vi /etc/hostname）安装jdk tar -zxvf jdk-8u144-linux-x64.tar.gz -C /opt/module 配置环境变量 vi /etc/profile #JAVA_HOME export JAVA_HOME=/opt/module/jdk1.8.0_144 export PATH=PATH=$PATH:$JAVA_HOME/bin 使环境变量生效 source /etc/profile Hadoop本地模式（客户机1台）安装Hadoop tar -zxvf hadoop-2.8.4.tar.gz -C /opt/module 配置环境变量 #HADOOP_HOME export HADOOP_HOME=/opt/module/hadoop-2.8.4/ export PATH=PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin 使环境变量生效 source /etc/profile 配置文件 hadoop-en.sh export JAVA_HOME=/opt/module/jdk1.8.0_144

Hadoop单机、伪分布式、分布式集群搭建

阅读更多关于 Hadoop单机、伪分布式、分布式集群搭建

JDK安装设置hostname [root@bigdata111 ~]# vi /etc/hostname 设置机器hosts [root@bigdata111 ~]# vi /etc/hosts 192.168.1.111 bigdata111 192.168.1.112 bigdata112 192.168.1.113 bigdata113 创建jdk目录 [root@bigdata111 /]# cd /opt [root@bigdata111 opt]# ll 总用量 0 drwxr-xr-x. 2 root root 6 3月 26 2015 rh [root@bigdata111 opt]# mkdir module [root@bigdata111 opt]# mkdir soft [root@bigdata111 opt]# ls module rh soft 上传jdk包打开winSCP工具，通过winscp工具上传java jdk到linux 的/opt/soft文件夹下 [root@bigdata111 opt]# cd soft [root@bigdata111 soft]# ls jdk-8u144-linux-x64.tar.gz 解压jdk 将jdk文件解压到module文件夹下,命令如下： [root@bigdata111 opt]# cd

高可用HBase搭建过程，start-hbase.sh只有第一个HMaster启动

阅读更多关于高可用HBase搭建过程，start-hbase.sh只有第一个HMaster启动

高可用HBase搭建过程，我的集群由两个Master和三个slave组成，start-hbase.sh只有第一个HMaster启动，另一个HMaster和其他的三个HRegionServers都不能启动，但是在各自节点单独运行hbase-daemon.sh start reginserver又可以运行成功，检查过五台机器的时间同步之后，依旧没有解决问题，最后删除一个节点的log日志，再跑一遍之后发现问题。解决方案：把Hadoop下的core-site.xml和hdfs-site.xml两个配置文件cp到$HBASE_HOME/conf下解决问题。 cp $HADOOP_HOME / etc / hadoop / core - site / xml $HBASE_HOME / conf / cp $HADOOP_HOME / etc / hadoop / hdfs - site / xml $HBASE_HOME / conf / 来源： CSDN 作者：忘白_ 链接： https://blog.csdn.net/ttwind_/article/details/103242069

大数据认知阶段——如何学习大数据相关技术

阅读更多关于大数据认知阶段——如何学习大数据相关技术

已经看了大数据相关知识一阵时间了，自己也是从新手开始的，所以看了大量的大数据如何入门的技术博客、帖子等，下面记录总结下自己学习的内容。一、大数据学习前期知识储备在学习大数据前，需要对云计算、虚拟化、Linux、JAVA这几个方面都需要了解，下面简单阐述下这几个方面的概念。 1.云计算所谓的云计算，指的就是把你的软件和服务统一部署在数据中心，统一管理，从而实现高伸缩性。云计算的部署方式从部署方式来说，总共有两类云计算：私有云：数据中心部署在企业内部，由企业自行管理。微软为大家提供了Dynamic Data Center Toolkit，来方便大家管理自己的数据中心。公共云：数据中心由第三方的云计算供应商提供，供应商帮助企业管理基础设施（例如硬件，网络，等等）。企业将自己的软件及服务部属在供应商提供的数据中心，并且支付一定的租金。Windows Azure正是这样一个公共云平台。云计算的运营方式从运营方式来说，总共有三类云计算：软件即服务（SaaS）：云计算运营商直接以服务的形式供应软件，供最终用户使用。有些服务还提供了SDK，从而使得第三方开发人员可以进行二次开发。在这种运营模式下，开发人员通常只能针对现有的产品开发插件，而无法充分挖掘平台和操作系统的特点，不过他们可以在现有产品的基础上添加新的功能，而不必从头开始实现。微软的Bing，Windows Live

Hadoop 系列（五）—— Hadoop 集群环境搭建

阅读更多关于 Hadoop 系列（五）—— Hadoop 集群环境搭建

一、集群规划这里搭建一个 3 节点的 Hadoop 集群，其中三台主机均部署 DataNode 和 NodeManager 服务，但只有 hadoop001 上部署 NameNode 和 ResourceManager 服务。二、前置条件 Hadoop 的运行依赖 JDK，需要预先安装。其安装步骤单独整理至： Linux 下 JDK 的安装三、配置免密登录 3.1 生成密匙在每台主机上使用 ssh-keygen 命令生成公钥私钥对： ssh-keygen 3.2 免密登录将 hadoop001 的公钥写到本机和远程机器的 ~/ .ssh/authorized_key 文件中： ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop001 ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop002 ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop003 3.3 验证免密登录 ssh hadoop002 ssh hadoop003 四、集群搭建 3.1 下载并解压下载 Hadoop。这里我下载的是 CDH 版本 Hadoop，下载地址为： http://archive.cloudera.com/cdh5/cdh/5/ # tar -zvxf hadoop-2.6.0-cdh5.15.2.tar

Hadoop2.0 HA集群搭建步骤

阅读更多关于 Hadoop2.0 HA集群搭建步骤

安装步骤 0. 永久关闭每台机器的防火墙执行：service iptables stop 再次执行： chkconfig iptables off 1. 为每台机器配置主机名以及 hosts 文件配置主机名 = 》执行： vim /etc/sysconfig/network = 》然后执行 hostname 主机名=》达到不重启生效目的配置hosts文件=》执行：vim /etc/hosts 示例： 127.0.0.1 localhost ::1 localhost 192.168.234.21 hadoop01 192.168.234.22 hadoop02 192.168.234.23 hadoop03 2. 通过远程命令将配置好的 hosts 文件 scp 到其他 5 台节点上执行：scp /etc/hosts hadoop02: /etc 3. 为每台机器配置 ssh 免秘钥登录执行：ssh-keygen ssh-copy-id root@hadoop01 （分别发送到6台节点上） 4. 前三台机器安装和配置 zookeeper 配置 conf 目录下的 zoo.cfg 以及创建 myid 文件（zookeeper集群安装具体略） 5. 为每台机器安装 jdk 和配置 jdk 环境 6. 为每台机器配置主机名 , 然后每台机器重启，（如果不重启，也可以配合

大数据分布式平台Hadoop2.7.7 + Spark2.2.2搭建

阅读更多关于大数据分布式平台Hadoop2.7.7 + Spark2.2.2搭建

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。 Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。 Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。尽管创建 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对 Hadoop 的补充，可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室

eclipse远程调试Hadoop

阅读更多关于 eclipse远程调试Hadoop

环境配置 1、Hadoop集群搭建完成，能正常对外访问 2、远程主机jdk、eclipse安装完成 eclipse远程调试Hadoop配置首先需要有MapReduce相应插件，将相应插件放到eclipse的插件目录下，可以到网上下载适合的插件。本文博主是在学习过程中保存的插件（hadoop-eclipse-plugin-2.6.0）。将插件放到eclipse的插件目录下，本文的目录为D:\Program Files(x86)\eclipse\plugins。重启eclipse，点击windows-->perspective-->open perspective-->others 在右下角可以看到MapReduce 点击小象的加号，配置Hadoop 配置完成后，可在左上角看到dfs location，查看hdfs目录结构配置完成来源： 51CTO 作者： 1crazygorilla 链接： https://blog.51cto.com/13917261/2365142?source=dra

订阅 hadoop集群搭建