hadoop集群搭建

HBase集群搭建

醉酒当歌 提交于 2020-04-07 13:28:55
下载安装包 我使用的是:hbase-0.99.2-bin.tar.gz 上传到指定目录:个人习惯,我放在了/home/hadoop/apps/ 解压 tar –zxvf hbase-0.99.2-bin.tar.gz 重命名 mv hbase-0.99.2 hbase 修改环境变量 在node1机器上执行下面命令 vim /etc/profile 添加内容: export HBASE_HOME=/home/hadoop/apps/hbase export PATH=$PATH:$HBASE_HOME/bin 使其立即生效: source /etc/profile 同样在其他机器上也执行上述操作。 修改配置文件 cd /home/hadoop/apps/hbase/conf hbase-env.sh主要配置如下几点: # jdk安装目录 export JAVA_HOME=/usr/jdk # hadoop配置文件的位置 export HBASE_CLASSPATH=/home/hadoop/hadoop/conf # 如果使用独立安装的zookeeper这个地方就是false export HBASE_MANAGES_ZK=true hbase-site.xml主要配置如下: <configuration> <property> <name>hbase.master</name>

centos7安装hadoop集群版本为2.9.1

允我心安 提交于 2020-04-05 21:32:18
安装大概步骤: 1.先安装一台虚拟机,装好jdk,hadoop配置 2.复制克隆出三台,搭建ssh免密登陆 一.先准备一台虚拟机 1.防火墙: 关闭防火墙:systemctl status firewalld 防止防火墙自启:systemctl disable firewalld 2.安装JDK 3.修改主机:hostnamectl set-hostname hdp-01 vi /etc/hosts 追加 192.168.31.114 hdp-01 192.168.31.115 hdp-02 192.168.31.116 hdp-03 192.168.31.117 hdp-04 4.修改hadoop配置 4.1修改hadoop-env.sh export JAVA_HOME=/root/jdk1.8.0_151 4.2修改core-site.xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://hdp-01:9000</value> </property> </configuration> 4.3修改hdfs-site.xml <configuration> <property> <name>dfs.namenode.name.dir</name> <value>/root/hdpdata

Hadoop(五)搭建Hadoop客户端与Java访问HDFS集群

怎甘沉沦 提交于 2020-04-01 01:20:20
前言   上一篇详细介绍了HDFS集群,还有操作HDFS集群的一些命令,常用的命令: hdfs dfs -ls xxx hdfs dfs -mkdir -p /xxx/xxx hdfs dfs -cat xxx hdfs dfs -put local cluster hdfs dfs -get cluster local hdfs dfs -cp /xxx/xxx /xxx/xxx hdfs dfs -chmod -R 777 /xxx hdfs dfs -chown -R zyh:zyh /xxx   注意:这里要说明一下-cp,我们可以从本地文件拷贝到集群,集群拷贝到本地,集群拷贝到集群。 一、Hadoop客户端配置   其实在前面配置的每一个集群节点都可以做一个Hadoop客户端。但是我们一般都不会拿用来做集群的服务器来做客户端,需要单独的配置一个客户端。 1)安装JDK 2)安装Hadoop 3)客户端配置子core-site.xml    4)客户端配置之mapred-site.xml    5)客户端配置之yarn-site.xml    以上就搭建了一个Hadoop的客户端 二、Java访问HDFS集群 2.1、HDFS的Java访问接口    1)org.apache.hadoop.fs.FileSystem     是一个通用的文件系统API

如何使用Python为Hadoop编写一个简单的MapReduce程序

邮差的信 提交于 2020-03-28 02:45:25
转载自: http://asfr.blogbus.com/logs/44208067.html 在这个实例中,我将会向大家介绍如何使用Python 为 Hadoop 编写一个简单的 MapReduce 程序。 尽管 Hadoop 框架是使用Java编写的但是我们仍然需要使用像C++、Python等语言来实现 Hadoop 程序。尽管 Hadoop 官方网站给的示例程序是使用Jython编写并打包成Jar文件,这样显然造成了不便,其实,不一定非要这样来实现,我们可以使用Python与 Hadoop 关联进行编程 ,看看位于/src/examples/python/WordCount.py 的例子,你将了解到我在说什么。 我们想要做什么? 我们将编写一个简单的 MapReduce 程序,使用的是C-Python,而不是Jython编写后打包成jar包的程序。 我们的这个例子将模仿 WordCount 并使用Python来实现,例子通过读取文本文件来统计出单词的出现次数。结果也以文本形式输出,每一行包含一个单词和单词出现的次数,两者中间使用制表符来想间隔。 先决条件 编写这个程序之前,你学要架设好 Hadoop 集群,这样才能不会在后期工作抓瞎。如果你没有架设好,那么在后面有个简明教程来教你在Ubuntu Linux 上搭建(同样适用于其他发行版linux、unix)

Hadoop1重新格式化HDFS

荒凉一梦 提交于 2020-03-27 06:42:26
首先我们来认识一下HDFS, HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。它其实是将一个大文件分成若干块保存在不同服务器的多个节点中。通过联网让用户感觉像是在本地一样查看文件,为了降低文件丢失造成的错误,它会为每个小文件复制多个副本(默认为三个),以此来实现多机器上的多用户分享文件和存储空间。 Hadoop主要包含三个模块: HDFS模块:HDFS负责大数据的存储,通过将大文件分块后进行分布式存储方式,突破了服务器硬盘大小的限制,解决了单台机器无法存储大文件的问题,HDFS是个相对独立的模块,可以为YARN提供服务,也可以为HBase等其他模块提供服务。 YARN模块:YARN是一个通用的资源协同和任务调度框架,是为了解决Hadoop中MapReduce里NameNode负载太大和其他问题而创建的一个框架。YARN是个通用框架,不止可以运行MapReduce,还可以运行Spark、Storm等其他计算框架。 MapReduce模块:MapReduce是一个计算框架,它给出了一种数据处理的方式,即通过Map阶段、Reduce阶段来分布式地流式处理数据。它只适用于大数据的离线处理,对实时性要求很高的应用不适用。多相关信息可以参考博客: 初识HDFS(10分钟了解HDFS、NameNode和DataNode) 。

在Hadoop上用Python实现WordCount

梦想的初衷 提交于 2020-03-24 23:45:58
一、简单说明   本例中我们用Python写一个简单的运行在Hadoop上的MapReduce程序,即WordCount(读取文本文件并统计单词的词频)。 这里我们将要输入的单词文本input.txt和Python脚本放到/home/data/python/WordCount目录下。 cd /home/data/python/WordCount vi input.txt 输入: There is no denying that hello python hello mapreduce mapreduce is good 二、编写Map代码   这里我们创建一个mapper.py脚本,从标准输入(stdin)读取数据,默认以空格分隔单词,然后按行输出单词机器词频到标准输出(stdout),整个Map处理过程不会统计每个单词出现的总次数,而是直接输出“word 1”,以便作为Reduce的输入进行统计,确保该文件是可执行的(chmod +x /home/data/python//WordCount/mapper.py)。 cd /home/data/python//WordCount vi mapper.py #!/usr/bin/env python # -*- coding:UTF-8 -*- import sys for line in sys.stdin: #sys

Hadoop原理与高级实践2019

耗尽温柔 提交于 2020-03-24 19:25:00
本次课程以实际的演练(环境部署,程序开发)为主,分享大规模Hadoop应用的一线最有效实用经验,实践与理论相结合,让学员能够对Hadoop生态系统有一个清晰明了的认识,理解Hadoop系统适用的场景,掌握MapReduce与Hive的中高级应用开发技能,快速高效搭建稳定可靠的Hadoop集群,满足生产环境的标准。 课程内容的分为4个部分: 进入Hadoop的精彩世界,介绍Hadoop生态系统的各个组成模块与适用场景。 Hadoop部署,编程与管理,讲解演示在生产环境中选用和配置服务器需要注意的事项,介绍HDFS编程的Java API使用。 MapReduce编程:讲解演示MapReduce的中高级应用开发技能。 Hive与HBase编程:根据实际例子讲解Hive的使用与UDF的开发,以及如何通过JAVA编写HBase应用。 进入Hadoop的精彩世界 文件存储-HDFS HDFS-工作原理 数据计算MapReduce MapReduce工作原理 SQL分析-Hive 海量实时读写-HBase 工作流调度-Ooize 分布式协调系统--Zookeeper Hadoop部署与编程 Hadoop版本介绍与选择 Hadoop部署实践 Hadoop安装文件构成与配置体系 机器硬件建议配置 系统环境配置 基本参数配置与说明 进程分布规划与启动 Hadoop基本使用操作 HDFS 权限

Hadoop集群搭建-04安装配置HDFS

ぃ、小莉子 提交于 2020-03-23 20:28:34
Hadoop集群搭建-05安装配置YARN Hadoop集群搭建-04安装配置HDFS Hadoop集群搭建-03编译安装hadoop Hadoop集群搭建-02安装配置Zookeeper Hadoop集群搭建-01前期准备 HDFS是配合Hadoop使用的分布式文件系统,分为 namenode: nn1.hadoop nn2.hadoop datanode: s1.hadoop s2.hadoop s3.hadoop (看不明白这5台虚拟机的请看前面 01前期准备 ) 解压配置文件 [hadoop@nn1 hadoop_base_op]$ ./ssh_all.sh mv /usr/local/hadoop/etc/hadoop /usr/local/hadoop/etc/hadoop_back [hadoop@nn1 hadoop_base_op]$ ./scp_all.sh ../up/hadoop.tar.gz /tmp/ [hadoop@nn1 hadoop_base_op]$ #批量将自定义配置 压缩包解压到/usr/local/hadoop/etc/ #批量检查配置是否正确解压 [hadoop@nn1 hadoop_base_op]$ ./ssh_all.sh head /usr/local/hadoop/etc/hadoop/hadoop-env.sh [hadoop

04、Spark Standalone集群搭建

冷暖自知 提交于 2020-03-21 04:50:09
04、Spark Standalone集群搭建 4.1 集群概述 独立模式是Spark集群模式之一,需要在多台节点上安装spark软件包,并分别启动master节点和worker节点。master节点是管理节点,负责和各worker节点通信,完成worker的注册与注销。worker节点是任务执行节点,通过worker节点孵化出执行器子进程来执行任务。 4.2 集群规划 这里使用4台主机部署Spark集群,主机名称分别是s101、s102、s103和s104。 s101 #Master节点 s102 #Worker节点 s103 #Worker节点 s104 #Worker节点 4.3 集群搭建 4.3.1 安装Spark软件包 按照前文安装spark软件包的方式分别在以上四台主机上安装Spark,注意目录和权限尽量保持一致,以便集群容易维护和管理。也可以将之前的Spark安装目录和环境变量文件分发到以上四台主机。具体安装步骤略。 4.3.2 配置hadoop软连接 在以上四台机的spark配置目录下,创建core-site.xml和hdfs-site.xml软连接文件指向hadoop的配置文件。 #进入配置目录 $>cd /soft/spark/conf #创建软连接 $>ln -s /soft/hadoop/etc/hadoop/core-site.xml core-site

Hadoop高可用集群

故事扮演 提交于 2020-03-12 07:51:16
1.简介 若HDFS集群中只配置了一个NameNode,那么当该NameNode所在的节点宕机,则整个HDFS就不能进行文件的上传和下载。 若YARN集群中只配置了一个ResourceManager,那么当该ResourceManager所在的节点宕机,则整个YARN就不能进行任务的计算。 * Hadoop依赖Zookeeper进行各个模块的HA配置,其中状态为Active的节点对外提供服务,而状态为StandBy的节点则只负责数据的同步,在必要时提供快速故障转移。 Hadoop各个模块剖析: https://www.cnblogs.com/funyoung/p/9889719.html Hadoop集群管理: https://www.cnblogs.com/funyoung/p/9920828.html 2.HDFS HA集群 2.1 模型 当有两个NameNode时,提供哪个NameNode地址给客户端? 1.Hadoop提供了NameService进程,其是NameNode的代理,维护NameNode列表并存储NameNode的状态,客户端直接访问的是NameService,NameService会将请求转发给当前状态为Active的NameNode。 2.当启动HDFS时,DataNode将同时向两个NameNode进行注册。