hadoop集群搭建 | 易学教程

搭建Hadoop伪分布式集群

阅读更多关于搭建Hadoop伪分布式集群

目录版本与环境准备添加环境变量配置Hadoop 克隆节点配置主机名与IP 设置节点间免密登录配置脚本文件启动并验证运行测试用例版本与环境虚拟机：VMware Workstation Pro 15 Linux镜像： Ubuntu-18.04.2-live-server-amd64.iso Java版本： jdk-8u231-linux-x64.tar.gz Hadoop版本： version-3.1.3 准备（PS:以下配置需在克隆slave之前完成）安装Ubuntu（PS:记得安装OpenSSH）解压hadoop和jdk： tar -zxvf xxx.tar.gz 移动hadoop根目录： mv hadoop-3.1.3 /usr/local/hadoop3 移动jdk根目录： mv jdk-1.8.0_231 /usr/local/jdk1.8 添加环境变量执行以下命令将环境变量写入 .bashrc # cd ~ # vim .bashrc java variables export JAVA_HOME=/usr/local/jdk1.8/ export JRE_HOME=$JAVA_HOME/jre export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib export PATH=$JAVA_HOME/bin:

【Zookeeper】利用zookeeper搭建Hdoop HA高可用

阅读更多关于【Zookeeper】利用zookeeper搭建Hdoop HA高可用

利用zookeeper搭建Hdoop HA高可用 HA概述所谓HA（high available），即高可用（7*24小时不中断服务）。实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制：HDFS的HA和YARN的HA。 Hadoop2.0之前，在HDFS集群中NameNode存在单点故障（SPOF）。 NameNode主要在以下两个方面影响HDFS集群 NameNode机器发生意外，如宕机，集群将无法使用，直到管理员重启 NameNode机器需要升级，包括软件、硬件升级，此时集群也将无法使用 HDFS HA功能通过配置Active/Standby两个nameNodes实现在集群中对NameNode的热备来解决上述问题。如果出现故障，如机器崩溃或机器需要升级维护，这时可通过此种方式将NameNode很快的切换到另外一台机器。 HDFS-HA工作机制通过双namenode消除单点故障 HDFS-HA工作要点（1）元数据管理方式需要改变：内存中各自保存一份元数据； Edits日志只有Active状态的namenode节点可以做写操作；两个namenode都可以读取edits；共享的edits放在一个共享存储中管理（qjournal和NFS两个主流实现）；（2）需要一个状态管理功能模块

HA高可用集群搭建

阅读更多关于 HA高可用集群搭建

HA高可用集群搭建 1.总体集群规划在hadoop102、hadoop103和hadoop104三个节点上部署Zookeeper。 hadoop102 hadoop103 hadoop104 NameNode NameNode JournalNode JournalNode JournalNode DataNode DataNode DataNode ZK ZK ZK ResourceManager NodeManager NodeManager NodeManager 2.配置zookeeper集群 2.1 zookeeper集群规划在hadoop102、hadoop103和hadoop104三个节点上部署Zookeeper。 2.2 解压安装（1）解压Zookeeper安装包到 /opt/module/ 目录下 [simon@hadoop102 software]$ tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/module/ （2）在 /opt/module/zookeeper-3.4.10/ 这个目录下创建zkData mkdir -p zkData （3）重命名 /opt/module/zookeeper-3.4.10/conf 这个目录下的 zoo_sample.cfg 为 zoo.cfg mv zoo_sample.cfg

hadoop技术入门学习之发行版选择

阅读更多关于 hadoop技术入门学习之发行版选择

经常会看到这样的问题：零基础学习hadoop难不难？有的人回答说：零基础学习hadoop，没有想象的那么难，也没有想象的那么容易。看到这样的答案不免觉得有些尴尬，这个问题算是白问了，因为这个回答似乎什么也没给出来。这个问题的关键在于“零基础”到底是个什么样的基础？所谓的零基础大体可以分为两种：第一种是hadoop初学者，有一定的Linux基础、虚拟机和Java基础；第二种是hadoop兴趣爱好者，但缺乏最基本的Linux基础、虚拟机和Java基础。如果是第一种，其实学习hadoop的难度就会相对较小；但如果是第二种，那么难度就会非常大了。要学习hadoop除了要了解hadoop是什么？Hadoop能够帮助我们做什么？以及hadoop的使用场景等基本问题，对于初学者而言选择一个合适的hadoop版本作为学习平台也是非常重要的事情。国内的Hadoop商业发行版还是比较多，以对hadoop的二次包装为主。基本上国内的这些发行版hadoop的安装环境都是大同小异，网上查一下就会发现很多人在安装这些hadoop的运营环境时，整个安装过程非常复杂，耗时较长，重点就是很多人在经历了漫长的安装等待后，等到的结果可能是安装失败······ Hadoop运行环境的搭建就是初学者要解决的一个大问题，运行环境搭建不成功，也就无从着手学习了。各种发行版本的Hadoop运行环境的安装基本类似

Hadoop运行环境搭建

阅读更多关于 Hadoop运行环境搭建

安装hadoop2.7.2 解压(/opt/software -> /opt/module) tar -zxvf /hadoop-2.7.2.tar.gz -C /opt/module 环境变量 sudo vim /etc/profile export HADOOP_HOME=/opt/module/hadoop-2.7.2 export PATH=$PATH:$HADOOP_HOME/bin :export PATH=$PATH:$HADOOP_HOME/sbin 配置立即生效 source /etc/profile 查看hadoop版本 hadoop version 完全分布式运行模式集群部署规划配置集群(etc/hadoop/) 配置core-site.xml(核心配置文件) vi core-site.xml <configuration>  <property> <name>fs.defaultFS</name> <value>hdfs://fan102:9000</value> </property>  <property> <name>hadoop.tmp.dir</name> <value>/opt/module/hadoop-2.7.2/data

Hadoop集群（第5期副刊）_JDK和SSH无密码配置

阅读更多关于 Hadoop集群（第5期副刊）_JDK和SSH无密码配置

1、Linux配置java环境变量 1.1 原文出处地址： http://blog.csdn.net/jiedushi/article/details/6672894 1.2 解压安装jdk 　　在shell终端下进入jdk-6u14-linux-i586.bin文件所在目录，执行命令 ./jdk-6u14-linux-i586.bin 这时会出现一段协议，连继敲回车，当询问是否同意的时候，输入yes，回车。之后会在当前目录下生成一个jdk1.6.0_14目录，你可以将它复制到任何一个目录下。 1.3 需要配置的环境变量　　1）PATH环境变量　　作用是指定命令搜索路径，在shell下面执行命令时，它会到PATH变量所指定的路径中查找看是否能找到相应的命令程序。我们需要把 jdk安装目录下的bin目录增加到现有的PATH变量中，bin目录中包含经常要用到的可执行文件如javac/java/javadoc等待，设置好 PATH变量后，就可以在任何目录下执行javac/java等工具了。　　2）CLASSPATH环境变量　　作用是指定类搜索路径，要使用已经编写好的类，前提当然是能够找到它们了，JVM就是通过CLASSPTH来寻找类的。我们需要把jdk安装目录下的lib子目录中的dt.jar和tools.jar设置到CLASSPATH中，当然，当前目录".

linux之hadoop

阅读更多关于 linux之hadoop

hadoop架构 MapReduce:分布式计算架构 HDFS：分布式文件系统 YARN：集群资源管理系统 HDFS结构： hadoop单机模式搭建步骤：搭建四台服务器，分别为：server、node1、node2、node3 1、关闭防火墙和selinux 2、保证server到每一个node节点可以免密码登陆，配置无密码登陆 [root@Server ~]# vim /etc/ssh/ssh_config 2、配置本地域名解析，每一台都需要配置 59 ssh root@node1 yum -y install rsync 60 ssh root@node2 yum -y install rsync 61 ssh root@node3 yum -y install rsync 62 ssh root@node4 yum -y install rsync 63 ssh root@node5 yum -y install rsync 把集群中的每一台设备的本地域名解析文件进行同步 [root@Server ~]# for i in {11..15} ; do rsync -a /etc/hosts root@192.168.1.${i}:/etc/hosts -e 'ssh' & done 3、安装java 查询java安装包 [root@Server ~]# yum -y

hadoop初体验

阅读更多关于 hadoop初体验

今日课程内容大纲 01) hadoop的简介 02) hadoop集群的搭建发行版本集群规划 hadoop源码编译(了解) hadoop集群搭建 03) hadoop集群启动与初体验 04) MapReduce的历史记录 05) HDFS的垃圾桶机制 01--Apache Hadoop--介绍和发展历程 01) hadoop的介绍 00) hadoop1.x和hadoop2.x的区别: yarn(资源管理) 解决了单点故障问题提高资源的利用率 01) 狭义解释:特指Apache的一款java语言开发的开源软件,由一下三部分组成: HDFS: 解决海量数据存储的hadoop分布式文件系统 MapReduce: 解决海量数据分布式计算问题 YARN: 解决分布式架构中资源管理和任务调度 02) 广义解释:整个基于hadoop的生态系统,包括大数据处理流程中的各个阶段的软件 hive hbase zookeeper oozie sqoop flume impala storm spark flink kylin...... 02) hadoop发展历史 01) hadoop的创始人doug cutting lucene(海量数据搜索) -----> nutch (海量数据抓取)-----> 海量数据存储和海量数据计算问题? 参考: https://www.linkedin.com

大数据hadoop概念,安装与配置

阅读更多关于大数据hadoop概念,安装与配置

一.大数据概念概念 :最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡，麦肯锡称：“数据，已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素。人们对于海量数据的挖掘和运用，预示着新一波生产率增长和消费者盈余浪潮 Hadoop :Hadoop 实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。实现过程: 客户提出需求给--产品设计部门运维部门: 收集数据--搭建分析平台--部署软件开发部门: 算法--开发--分析大数据的由来: 随着计算机技术的发展,互联网的普及,信息的积累已经到了一个非常庞大的地步,信息的增长也在不断的加快,随着互联网,物联网建设的加快,信息更是爆炸式增长,收集,检索,统计这些信息越发困难,必须使用新的技术来解决这些问题. 大数据的定义: 大数据指无法在一定时间范围内常规软件工具进行捕捉,管理和处理的数据集合,需要新处理模式才能具有更强的决策力

快速搭建hadoop+hbase分布式集群

阅读更多关于快速搭建hadoop+hbase分布式集群

hadoop集群部署 1. 准备三台机器，如`10.8.177.23`,`10.8.177.24`,`10.8.177.25` 2. 修改主机名称，配置`hosts`文件(root用户下操作)： Shell代码 # 每台机器执行，我这里hd开头，后边的数字与机器ip的最后一个组一致 hostnamectl set-hostname hd-23 hostnamectl set-hostname hd-23 --static # 修改hosts文件， vi /etc/hosts #加入路由配置 10.8.177.23 hd-23 10.8.177.24 hd-24 10.8.177.25 hd-25 3. 每台机器上创建一个用户，如hadoop: Shell代码 useradd -d /home/hadoop -m hadoop # 最好创建一个用户，不要直接使用root进行操作 4. 设置免密登录（==hadoop用户，下同==） > 只需要设置master对于其他两台机器进行免密登录即可 Shell代码 # 1、在Master机器上的主目录中生成ssh公钥 ssh-keygen -t rsa # 2、在其余机器上主目录中创建.ssh目录（执行上边的命令也可以） # 3、将Master的公钥发送给其余两台服务器(需要输入免密) scp id_rsa.pub hadoop@hd

订阅 hadoop集群搭建