hadoop集群搭建

Hadoop1重新格式化HDFS

烈酒焚心 提交于 2019-11-27 00:55:24
首先我们来认识一下HDFS, HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。它其实是将一个大文件分成若干块保存在不同服务器的多个节点中。通过联网让用户感觉像是在本地一样查看文件,为了降低文件丢失造成的错误,它会为每个小文件复制多个副本(默认为三个),以此来实现多机器上的多用户分享文件和存储空间。 Hadoop主要包含三个模块: HDFS模块:HDFS负责大数据的存储,通过将大文件分块后进行分布式存储方式,突破了服务器硬盘大小的限制,解决了单台机器无法存储大文件的问题,HDFS是个相对独立的模块,可以为YARN提供服务,也可以为HBase等其他模块提供服务。 YARN模块:YARN是一个通用的资源协同和任务调度框架,是为了解决Hadoop中MapReduce里NameNode负载太大和其他问题而创建的一个框架。YARN是个通用框架,不止可以运行MapReduce,还可以运行Spark、Storm等其他计算框架。 MapReduce模块:MapReduce是一个计算框架,它给出了一种数据处理的方式,即通过Map阶段、Reduce阶段来分布式地流式处理数据。它只适用于大数据的离线处理,对实时性要求很高的应用不适用。多相关信息可以参考博客: 初识HDFS(10分钟了解HDFS、NameNode和DataNode) 。

Hadoop伪分布模式安装

混江龙づ霸主 提交于 2019-11-26 20:34:57
一、本文说明: 本次测试在一台虚拟机系统上进行伪分布式搭建。Hadoop伪分布式模式是在单机上模拟Hadoop分布式,单机上的分布式并不是真正的伪分布式,而是使用线程模拟分布式。Hadoop本身是无法区分伪分布式和分布式的,两种配置也很相似。唯一不同的地方是伪分布式是在单机器上配置,数据节点和名字节点均是一个机器。 环境说明: 操作系统:red hat 5.4 x86 hadoop版本:hadoop-0.20.2 JDK版本:jdk1.7 二、JDK安装及Java环境变量的配置 ----首先把压缩包解压出来---- 1 [ root@localhost ~ ] # tar - zxvf jdk - 7u9 - linux - i586.tar.gz 2 ----修改目录名---- 3 [ root@localhost ~ ] # mv jdk1. 7 .0_ 09 / jdk1. 7 4 ----在/etc/profile文件中添加下面几行---- 5 [ root@localhost ~ ] # vi / etc / profile 6 7 export JAVA_HOME =/ jdk1. 7 8 export CLASSPATH = .:$JAVA_HOME / lib:$JAVA_HOME / jre / lib 9 export PATH = $JAVA_HOME /

我的第一篇博客

不羁的心 提交于 2019-11-26 20:18:21
Hadoop的三种模式搭建 准备工作(对Linux客户机的操作) 安装Linux(centOS7) 关闭防火墙、IP主机名映射(vi /etc/hosts)、修改主机名(vi /etc/hostname) 安装jdk tar -zxvf jdk-8u144-linux-x64.tar.gz -C /opt/module 配置环境变量 vi /etc/profile #JAVA_HOME export JAVA_HOME=/opt/module/jdk1.8.0_144 export PATH=PATH=$PATH:$JAVA_HOME/bin 使环境变量生效 source /etc/profile Hadoop本地模式(客户机1台) 安装Hadoop tar -zxvf hadoop-2.8.4.tar.gz -C /opt/module 配置环境变量 #HADOOP_HOME export HADOOP_HOME=/opt/module/hadoop-2.8.4/ export PATH=PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin 使环境变量生效 source /etc/profile 配置文件 hadoop-en.sh export JAVA_HOME=/opt/module/jdk1.8.0_144

Hadoop单机、伪分布式、分布式集群搭建

|▌冷眼眸甩不掉的悲伤 提交于 2019-11-26 20:11:24
JDK安装 设置hostname [root@bigdata111 ~]# vi /etc/hostname 设置机器hosts [root@bigdata111 ~]# vi /etc/hosts 192.168.1.111 bigdata111 192.168.1.112 bigdata112 192.168.1.113 bigdata113 创建jdk目录 [root@bigdata111 /]# cd /opt [root@bigdata111 opt]# ll 总用量 0 drwxr-xr-x. 2 root root 6 3月 26 2015 rh [root@bigdata111 opt]# mkdir module [root@bigdata111 opt]# mkdir soft [root@bigdata111 opt]# ls module rh soft 上传jdk包 打开winSCP工具,通过winscp工具上传java jdk到linux 的/opt/soft文件夹下 [root@bigdata111 opt]# cd soft [root@bigdata111 soft]# ls jdk-8u144-linux-x64.tar.gz 解压jdk 将jdk文件解压到module文件夹下,命令如下: [root@bigdata111 opt]# cd

高可用HBase搭建过程,start-hbase.sh只有第一个HMaster启动

心不动则不痛 提交于 2019-11-26 16:36:33
高可用HBase搭建过程,我的集群由两个Master和三个slave组成,start-hbase.sh只有第一个HMaster启动,另一个HMaster和其他的三个HRegionServers都不能启动,但是在各自节点单独运行hbase-daemon.sh start reginserver又可以运行成功,检查过五台机器的时间同步之后,依旧没有解决问题,最后删除一个节点的log日志,再跑一遍之后发现问题。 解决方案: 把Hadoop下的core-site.xml和hdfs-site.xml两个配置文件cp到$HBASE_HOME/conf下解决问题。 cp $HADOOP_HOME / etc / hadoop / core - site / xml $HBASE_HOME / conf / cp $HADOOP_HOME / etc / hadoop / hdfs - site / xml $HBASE_HOME / conf / 来源: CSDN 作者: 忘白_ 链接: https://blog.csdn.net/ttwind_/article/details/103242069

大数据认知阶段——如何学习大数据相关技术

天涯浪子 提交于 2019-11-26 15:07:21
已经看了大数据相关知识一阵时间了,自己也是从新手开始的,所以看了大量的大数据如何入门的技术博客、帖子等,下面记录总结下自己学习的内容。 一、大数据学习前期知识储备 在学习大数据前,需要对云计算、虚拟化、Linux、JAVA这几个方面都需要了解,下面简单阐述下这几个方面的概念。 1.云计算 所谓的云计算,指的就是把你的软件和服务统一部署在数据中心,统一管理,从而实现高伸缩性。 云计算的部署方式 从部署方式来说,总共有两类云计算: 私有云:数据中心部署在企业内部,由企业自行管理。微软为大家提供了Dynamic Data Center Toolkit,来方便大家管理自己的数据中心。 公共云:数据中心由第三方的云计算供应商提供,供应商帮助企业管理基础设施(例如硬件,网络,等等)。企业将自己的软件及服务部属在供应商提供的数据中心,并且支付一定的租金。Windows Azure正是这样一个公共云平台。 云计算的运营方式 从运营方式来说,总共有三类云计算: 软件即服务(SaaS) :云计算运营商直接以服务的形式供应软件,供最终用户使用。有些服务还提供了SDK,从而使得第三方开发人员可以进行二次开发。在这种运营模式下,开发人员通常只能针对现有的产品开发插件,而无法充分挖掘平台和操作系统的特点,不过他们可以在现有产品的基础上添加新的功能,而不必从头开始实现。微软的Bing,Windows Live

Hadoop 系列(五)—— Hadoop 集群环境搭建

江枫思渺然 提交于 2019-11-26 05:55:53
一、集群规划 这里搭建一个 3 节点的 Hadoop 集群,其中三台主机均部署 DataNode 和 NodeManager 服务,但只有 hadoop001 上部署 NameNode 和 ResourceManager 服务。 二、前置条件 Hadoop 的运行依赖 JDK,需要预先安装。其安装步骤单独整理至: Linux 下 JDK 的安装 三、配置免密登录 3.1 生成密匙 在每台主机上使用 ssh-keygen 命令生成公钥私钥对: ssh-keygen 3.2 免密登录 将 hadoop001 的公钥写到本机和远程机器的 ~/ .ssh/authorized_key 文件中: ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop001 ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop002 ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop003 3.3 验证免密登录 ssh hadoop002 ssh hadoop003 四、集群搭建 3.1 下载并解压 下载 Hadoop。这里我下载的是 CDH 版本 Hadoop,下载地址为: http://archive.cloudera.com/cdh5/cdh/5/ # tar -zvxf hadoop-2.6.0-cdh5.15.2.tar

Hadoop2.0 HA集群搭建步骤

本秂侑毒 提交于 2019-11-26 05:23:33
安装步骤 0. 永久关闭每台机器的防火墙 执行:service iptables stop 再次执行: chkconfig iptables off 1. 为每台机器配置主机名以及 hosts 文件 配置主机名 = 》执行: vim /etc/sysconfig/network = 》然后执行 hostname 主机名=》达到不重启生效目的 配置hosts文件=》执行:vim /etc/hosts 示例: 127.0.0.1 localhost ::1 localhost 192.168.234.21 hadoop01 192.168.234.22 hadoop02 192.168.234.23 hadoop03 2. 通过远程命令将配置好的 hosts 文件 scp 到其他 5 台节点上 执行:scp /etc/hosts hadoop02: /etc 3. 为每台机器配置 ssh 免秘钥登录 执行:ssh-keygen ssh-copy-id root@hadoop01 (分别发送到6台节点上) 4. 前三台机器安装和配置 zookeeper 配置 conf 目录下的 zoo.cfg 以及创建 myid 文件 (zookeeper集群安装具体略) 5. 为每台机器安装 jdk 和配置 jdk 环境 6. 为每台机器配置主机名 , 然后每台机器重启,(如果不重启,也可以配合

大数据分布式平台Hadoop2.7.7 + Spark2.2.2搭建

不羁的心 提交于 2019-11-25 23:06:17
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。 Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。 Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。 尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室

eclipse远程调试Hadoop

独自空忆成欢 提交于 2019-11-25 22:44:58
环境配置 1、Hadoop集群搭建完成,能正常对外访问 2、远程主机jdk、eclipse安装完成 eclipse远程调试Hadoop配置 首先需要有MapReduce相应插件,将相应插件放到eclipse的插件目录下,可以到网上下载适合的插件。本文博主是在学习过程中保存的插件(hadoop-eclipse-plugin-2.6.0)。 将插件放到eclipse的插件目录下,本文的目录为D:\Program Files(x86)\eclipse\plugins。 重启eclipse,点击windows-->perspective-->open perspective-->others 在右下角可以看到MapReduce 点击小象的加号,配置Hadoop 配置完成后,可在左上角看到dfs location,查看hdfs目录结构 配置完成 来源: 51CTO 作者: 1crazygorilla 链接: https://blog.51cto.com/13917261/2365142?source=dra