hadoop集群搭建 | 易学教程

HBase集群搭建

阅读更多关于 HBase集群搭建

下载安装包我使用的是：hbase-0.99.2-bin.tar.gz 上传到指定目录：个人习惯，我放在了/home/hadoop/apps/ 解压 tar –zxvf hbase-0.99.2-bin.tar.gz 重命名 mv hbase-0.99.2 hbase 修改环境变量在node1机器上执行下面命令 vim /etc/profile 添加内容： export HBASE_HOME=/home/hadoop/apps/hbase export PATH=$PATH:$HBASE_HOME/bin 使其立即生效： source /etc/profile 同样在其他机器上也执行上述操作。修改配置文件 cd /home/hadoop/apps/hbase/conf hbase-env.sh主要配置如下几点： # jdk安装目录 export JAVA_HOME=/usr/jdk # hadoop配置文件的位置 export HBASE_CLASSPATH=/home/hadoop/hadoop/conf # 如果使用独立安装的zookeeper这个地方就是false export HBASE_MANAGES_ZK=true hbase-site.xml主要配置如下： <configuration> <property> <name>hbase.master</name>

centos7安装hadoop集群版本为2.9.1

阅读更多关于 centos7安装hadoop集群版本为2.9.1

安装大概步骤： 1.先安装一台虚拟机，装好jdk，hadoop配置 2.复制克隆出三台，搭建ssh免密登陆一.先准备一台虚拟机 1.防火墙：关闭防火墙：systemctl status firewalld 防止防火墙自启：systemctl disable firewalld 2.安装JDK 3.修改主机：hostnamectl set-hostname hdp-01 vi /etc/hosts 追加 192.168.31.114 hdp-01 192.168.31.115 hdp-02 192.168.31.116 hdp-03 192.168.31.117 hdp-04 4.修改hadoop配置 4.1修改hadoop-env.sh export JAVA_HOME=/root/jdk1.8.0_151 4.2修改core-site.xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://hdp-01:9000</value> </property> </configuration> 4.3修改hdfs-site.xml <configuration> <property> <name>dfs.namenode.name.dir</name> <value>/root/hdpdata

Hadoop（五）搭建Hadoop客户端与Java访问HDFS集群

阅读更多关于 Hadoop（五）搭建Hadoop客户端与Java访问HDFS集群

前言　　上一篇详细介绍了HDFS集群，还有操作HDFS集群的一些命令，常用的命令： hdfs dfs -ls xxx hdfs dfs -mkdir -p /xxx/xxx hdfs dfs -cat xxx hdfs dfs -put local cluster hdfs dfs -get cluster local hdfs dfs -cp /xxx/xxx /xxx/xxx hdfs dfs -chmod -R 777 /xxx hdfs dfs -chown -R zyh:zyh /xxx 　　注意：这里要说明一下-cp，我们可以从本地文件拷贝到集群，集群拷贝到本地，集群拷贝到集群。一、Hadoop客户端配置　　其实在前面配置的每一个集群节点都可以做一个Hadoop客户端。但是我们一般都不会拿用来做集群的服务器来做客户端，需要单独的配置一个客户端。 1）安装JDK 2）安装Hadoop 3）客户端配置子core-site.xml 　　 4）客户端配置之mapred-site.xml 　　 5）客户端配置之yarn-site.xml 　　以上就搭建了一个Hadoop的客户端二、Java访问HDFS集群 2.1、HDFS的Java访问接口　　　1）org.apache.hadoop.fs.FileSystem 　　　　是一个通用的文件系统API

如何使用Python为Hadoop编写一个简单的MapReduce程序

阅读更多关于如何使用Python为Hadoop编写一个简单的MapReduce程序

转载自： http://asfr.blogbus.com/logs/44208067.html 在这个实例中，我将会向大家介绍如何使用Python 为 Hadoop 编写一个简单的 MapReduce 程序。尽管 Hadoop 框架是使用Java编写的但是我们仍然需要使用像C++、Python等语言来实现 Hadoop 程序。尽管 Hadoop 官方网站给的示例程序是使用Jython编写并打包成Jar文件，这样显然造成了不便，其实，不一定非要这样来实现，我们可以使用Python与 Hadoop 关联进行编程，看看位于/src/examples/python/WordCount.py 的例子，你将了解到我在说什么。我们想要做什么？我们将编写一个简单的 MapReduce 程序，使用的是C-Python，而不是Jython编写后打包成jar包的程序。我们的这个例子将模仿 WordCount 并使用Python来实现，例子通过读取文本文件来统计出单词的出现次数。结果也以文本形式输出，每一行包含一个单词和单词出现的次数，两者中间使用制表符来想间隔。先决条件编写这个程序之前，你学要架设好 Hadoop 集群，这样才能不会在后期工作抓瞎。如果你没有架设好，那么在后面有个简明教程来教你在Ubuntu Linux 上搭建（同样适用于其他发行版linux、unix）

Hadoop1重新格式化HDFS

阅读更多关于 Hadoop1重新格式化HDFS

首先我们来认识一下HDFS， HDFS（Hadoop Distributed File System ）Hadoop分布式文件系统。它其实是将一个大文件分成若干块保存在不同服务器的多个节点中。通过联网让用户感觉像是在本地一样查看文件，为了降低文件丢失造成的错误，它会为每个小文件复制多个副本（默认为三个），以此来实现多机器上的多用户分享文件和存储空间。 Hadoop主要包含三个模块： HDFS模块：HDFS负责大数据的存储，通过将大文件分块后进行分布式存储方式，突破了服务器硬盘大小的限制，解决了单台机器无法存储大文件的问题，HDFS是个相对独立的模块，可以为YARN提供服务，也可以为HBase等其他模块提供服务。 YARN模块：YARN是一个通用的资源协同和任务调度框架，是为了解决Hadoop中MapReduce里NameNode负载太大和其他问题而创建的一个框架。YARN是个通用框架，不止可以运行MapReduce，还可以运行Spark、Storm等其他计算框架。 MapReduce模块：MapReduce是一个计算框架，它给出了一种数据处理的方式，即通过Map阶段、Reduce阶段来分布式地流式处理数据。它只适用于大数据的离线处理，对实时性要求很高的应用不适用。多相关信息可以参考博客：初识HDFS（10分钟了解HDFS、NameNode和DataNode）。

在Hadoop上用Python实现WordCount

阅读更多关于在Hadoop上用Python实现WordCount

一、简单说明　　本例中我们用Python写一个简单的运行在Hadoop上的MapReduce程序，即WordCount（读取文本文件并统计单词的词频）。这里我们将要输入的单词文本input.txt和Python脚本放到/home/data/python/WordCount目录下。 cd /home/data/python/WordCount vi input.txt 输入： There is no denying that hello python hello mapreduce mapreduce is good 二、编写Map代码　　这里我们创建一个mapper.py脚本，从标准输入(stdin)读取数据，默认以空格分隔单词，然后按行输出单词机器词频到标准输出(stdout)，整个Map处理过程不会统计每个单词出现的总次数，而是直接输出“word 1”,以便作为Reduce的输入进行统计，确保该文件是可执行的（chmod +x /home/data/python//WordCount/mapper.py)。 cd /home/data/python//WordCount vi mapper.py #!/usr/bin/env python # -*- coding:UTF-8 -*- import sys for line in sys.stdin: #sys

Hadoop原理与高级实践2019

阅读更多关于 Hadoop原理与高级实践2019

本次课程以实际的演练（环境部署，程序开发）为主，分享大规模Hadoop应用的一线最有效实用经验，实践与理论相结合，让学员能够对Hadoop生态系统有一个清晰明了的认识，理解Hadoop系统适用的场景，掌握MapReduce与Hive的中高级应用开发技能，快速高效搭建稳定可靠的Hadoop集群，满足生产环境的标准。课程内容的分为4个部分：进入Hadoop的精彩世界，介绍Hadoop生态系统的各个组成模块与适用场景。 Hadoop部署，编程与管理，讲解演示在生产环境中选用和配置服务器需要注意的事项，介绍HDFS编程的Java API使用。 MapReduce编程：讲解演示MapReduce的中高级应用开发技能。 Hive与HBase编程：根据实际例子讲解Hive的使用与UDF的开发，以及如何通过JAVA编写HBase应用。进入Hadoop的精彩世界文件存储-HDFS HDFS-工作原理数据计算MapReduce MapReduce工作原理 SQL分析-Hive 海量实时读写-HBase 工作流调度-Ooize 分布式协调系统--Zookeeper Hadoop部署与编程 Hadoop版本介绍与选择 Hadoop部署实践 Hadoop安装文件构成与配置体系机器硬件建议配置系统环境配置基本参数配置与说明进程分布规划与启动 Hadoop基本使用操作 HDFS 权限

Hadoop集群搭建-04安装配置HDFS

阅读更多关于 Hadoop集群搭建-04安装配置HDFS

Hadoop集群搭建-05安装配置YARN Hadoop集群搭建-04安装配置HDFS Hadoop集群搭建-03编译安装hadoop Hadoop集群搭建-02安装配置Zookeeper Hadoop集群搭建-01前期准备 HDFS是配合Hadoop使用的分布式文件系统，分为 namenode: nn1.hadoop nn2.hadoop datanode: s1.hadoop s2.hadoop s3.hadoop (看不明白这5台虚拟机的请看前面 01前期准备 ) 解压配置文件 [hadoop@nn1 hadoop_base_op]$ ./ssh_all.sh mv /usr/local/hadoop/etc/hadoop /usr/local/hadoop/etc/hadoop_back [hadoop@nn1 hadoop_base_op]$ ./scp_all.sh ../up/hadoop.tar.gz /tmp/ [hadoop@nn1 hadoop_base_op]$ #批量将自定义配置压缩包解压到/usr/local/hadoop/etc/ #批量检查配置是否正确解压 [hadoop@nn1 hadoop_base_op]$ ./ssh_all.sh head /usr/local/hadoop/etc/hadoop/hadoop-env.sh [hadoop

04、Spark Standalone集群搭建

阅读更多关于 04、Spark Standalone集群搭建

04、Spark Standalone集群搭建 4.1 集群概述独立模式是Spark集群模式之一，需要在多台节点上安装spark软件包，并分别启动master节点和worker节点。master节点是管理节点，负责和各worker节点通信，完成worker的注册与注销。worker节点是任务执行节点，通过worker节点孵化出执行器子进程来执行任务。 4.2 集群规划这里使用4台主机部署Spark集群，主机名称分别是s101、s102、s103和s104。 s101 #Master节点 s102 #Worker节点 s103 #Worker节点 s104 #Worker节点 4.3 集群搭建 4.3.1 安装Spark软件包按照前文安装spark软件包的方式分别在以上四台主机上安装Spark，注意目录和权限尽量保持一致，以便集群容易维护和管理。也可以将之前的Spark安装目录和环境变量文件分发到以上四台主机。具体安装步骤略。 4.3.2 配置hadoop软连接在以上四台机的spark配置目录下，创建core-site.xml和hdfs-site.xml软连接文件指向hadoop的配置文件。 #进入配置目录 $>cd /soft/spark/conf #创建软连接 $>ln -s /soft/hadoop/etc/hadoop/core-site.xml core-site

Hadoop高可用集群

阅读更多关于 Hadoop高可用集群

1.简介若HDFS集群中只配置了一个NameNode，那么当该NameNode所在的节点宕机，则整个HDFS就不能进行文件的上传和下载。若YARN集群中只配置了一个ResourceManager，那么当该ResourceManager所在的节点宕机，则整个YARN就不能进行任务的计算。 * Hadoop依赖Zookeeper进行各个模块的HA配置，其中状态为Active的节点对外提供服务，而状态为StandBy的节点则只负责数据的同步，在必要时提供快速故障转移。 Hadoop各个模块剖析： https://www.cnblogs.com/funyoung/p/9889719.html Hadoop集群管理： https://www.cnblogs.com/funyoung/p/9920828.html 2.HDFS HA集群 2.1 模型当有两个NameNode时，提供哪个NameNode地址给客户端？ 1.Hadoop提供了NameService进程，其是NameNode的代理，维护NameNode列表并存储NameNode的状态，客户端直接访问的是NameService，NameService会将请求转发给当前状态为Active的NameNode。 2.当启动HDFS时，DataNode将同时向两个NameNode进行注册。

订阅 hadoop集群搭建