hadoop集群搭建

基于Docker搭建Hadoop数据计算集群

无人久伴 提交于 2019-11-28 17:26:45
安装步骤 Docker安装 1 sudo apt-get install docker.io 拉取Hadoop镜像 可以采用如下方式查找相关镜像 1 docker search hadoop 出现报错: Is the docker daemon running on this host? 原因解决: 权限不够,加 sudo ,或者采用[2]方法添加用户组解决。 切换源 源在国外的,可以切换Ubuntu系统的更新源为国内,直接拉取kiwenlau做好的镜像 1 sudo docker pull kiwenlau/hadoop:1.0 配置 clone项目 1 git clone https://github.com/kiwenlau/hadoop-cluster-docker 配置网桥 1 sudo docker network create --driver=bridge hadoop 之后进入刚刚clone的kiwenlau的github项目,运行相关进程,即运行配置好的docker(运行脚本),进入Docker之后运行脚本即可。 参考资料 [1]. 简书-从 0 开始使用 Docker 快速搭建 Hadoop 集群环境 [2]. CSDN-docker容器Cannot connect to the Docker daemon. Is the docker daemon

Ubuntu 17.10配置Hadoop+Spark环境

怎甘沉沦 提交于 2019-11-28 17:26:27
一、前言 最近导师带的项目是与大数据相关,感觉这几年大数据技术还挺火的,就想着也去学一下,丰富自己的技能栈。本文主要讲的是hadoop+spark的环境搭建,然后使用自带的examples测试环境,这里不涉及原理介绍。 二、Hadoop的三种运行模式介绍 2.1、 单机模式也叫独立模式(Local或Standalone Mode) 2.2、 伪分布式模式(Pseudo-Distrubuted Mode) Hadoop的守护进程运行在本机机器上,模拟一个小规模的集群 在一台主机上模拟多主机。 Hadoop启动NameNode、DataNode、JobTracker、TaskTracker这些守护进程都在同一台机器上运行,是相互独立的Java进程。 在这种模式下,Hadoop使用的是分布式文档系统,各个作业也是由JobTraker服务,来管理的独立进程。在单机模式之上增加了代码调试功能,允许检查内存使用情况,HDFS输入输出,以及其他的守护进程交互。类似于完全分布式模式,因此,这种模式常用来开发测试Hadoop进程的执行是否正确。 修改3个配置文档:core-site.xml(Hadoop集群的特性,作用于全部进程及客户端)、hdfs-site.xml(配置HDFS集群的工作属性)、mapred-site.xml(配置MapReduce集群的属性) 格式化文档系统 2.3、

Hadoop Getting Started

*爱你&永不变心* 提交于 2019-11-28 17:26:10
Hadoop Getting Started 文章导航 30 July 2015 更多 一、关于 Hadoop 1 Hadoop是什么: Hadoop是Apache的开源的分布式存储以及分布式计算平台 官网 2 Hadoop的两个核心组成: HDFS : 分布式文档系统,存储海量的数据 MapReduce : 并行处理框架,实现任务分解和调度 3 Hadoop的用途: 搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务. 搜索引擎 日志分析 商业智能 数据挖掘 4 Hadoop的优势: 1.高扩展 2.低成本 3.成熟的生态圈(Hadoop Ecosysten) 5 Hadoop的生态系统及版本: HDFS + MapReduce + 开源工具 1.HIVE : 只需要编写简单的SQL语句, 转化成Hadoop任务 2.HBASE : 存储结构化数据的分布式数据库. 和传统的关系型数据库区别, Hbase放弃失特性,追求更高的扩展 和HDFS区别: Hbase提供数据的随机读写和实时访问, 实现对表数据的读写功能. 3.Zookeeper : 监控Hadoop集群的状态,管理Hadoop集群的配置… 二、Hadoop的安装(Ubuntu 14.04) Step 1: 准备Linux, 这里用Ubuntu 14.04 Step 2: 安装JDK, 这里用OpenJDK 1,7

spark集群搭建

倖福魔咒の 提交于 2019-11-28 16:20:25
Standalone集群构建 基础环境准备 物理资源:CentOSA/B/C-6.10 64bit 内存2GB 主机名 IP CentOSA 192.168.221.136 CentOSB 192.168.221.137 CentOSC 192.168.221.138 [外链图片转存失败(img-l9lPb4wS-1566826494200)(assets/1566785920711.png)] 节点与主机映射关系 主机 节点服务 CentOSA NameNode、ZKFC、Zookeeper、journalnode、DataNode、master、worker、broker CentOSB NameNode、ZKFC、zookeeper、journalnode、DataNode、master、worker、broker CentOSC zookeeper、journalnode、DataNode、master、worker、broker 主机与Ip的映射关系 [ root@CentOSX ~ ] # vi /etc/hosts 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 ::1 localhost localhost.localdomain localhost6

零基础学习hadoop到上手工作线路指导(中级篇)

家住魔仙堡 提交于 2019-11-28 15:29:58
此篇是在 零基础学习hadoop到上手工作线路指导(初级篇) 的基础,一个继续总结。 五一假期:在写点内容,也算是总结。上面我们会了基本的编程,我们需要对hadoop有一个更深的理解: hadoop分为 hadoop1.X 、 hadoop2.X ,并且还有 hadoop生态系统 。这里只能慢慢介绍了。一口也吃不成胖子。 hadoop 1.x 分为 mapreduce 与 hdfs 其中mapreduce是很多人都需要迈过去的槛,它比较难以理解,我们有时候即使写出了mapreduce程序,但是还是摸不着头脑。 我们不知道key代表什么意思,我们不知道为什么会处理这个value。map有key、value,输出了key、value,有时候还会合并,reduce处理完毕之后又输出了key、value。这让我们产生了困惑,分不清。 mapreduce是一种编程模型,那么它能干什么,对我有什么用。它的原理是什么,为什么我们编写了map函数,reduce函数就可以在多台机器上运行。 这些问题或许都给初学者带来了困扰。是的,这些问题同样也困扰了我,这里写出来分享给大家,避免走同样的弯路。 面对mapreduce,有一篇文章,这里总结的很好,包括:该如何入门,该如何理解mapreduce,该如何练习mapreduce,该如何运用mapreduce。这里面介绍的很全。

Hadoop 启动没有 datanode 进程 解决方法

谁说胖子不能爱 提交于 2019-11-28 14:51:05
Hadoop 启动没有 datanode 进程 解决方法 2019-01-22 22:101930 0 原创 Hadoop 本文链接: https://www.cndba.cn/dave/article/3255 1 现象说明 新搭建的hadoop 3.1.1 的环境,在启动Hadoop时,通过jps目录发现Slave上没有datanode进程。如下: [cndba@hadoopmaster ~]$ jps 23234 ResourceManager 22998 SecondaryNameNode 23575 Jps 22683 NameNode [cndba@hadoopslave1 ~]$ jps 9682 Jps 9535 NodeManager [cndba@hadoopslave2 ~]$ jps 9356 Jps 9199 NodeManager 2 clusterID不匹配导致的问题 网上搜了下,网上的说法都是由于进行hadoop格式化的时候没有事先结束所有进程,或者多次进行了format导致的datanode的clusterID 和 namenode的clusterID不匹配,从而在启动后没有datanode进程。 解决方法有两种: 方案一: 保留现有数据 用NameNode节点的~/dfs/name/current/VERSION

hadoop HA (no zkfc to stop) DFSZKFailoverController进程没有启动

戏子无情 提交于 2019-11-28 14:49:36
这个bug确实恶心的不要不要的。我一开始以为是我自己打开方式(毕竟不熟悉搭建流程,别人怎么做,我照着做) 我照着视频或者博客编写hdfs-site.xml(dfs.ha.fencing.methods) 但是一直再start-dfs.sh 后(DFSZKFailoverController进程没有启动) 在stop-dfs.sh后提示(no zkfc to stop) 我一开始当然顺势去看日志(程序员不看日志处理,还能干什么?) 因为在start-dfs.sh看到 看到zkfc的日志在$HADOOP_HOME/log下的hadoop-root-zkfc-package.out,那log就估计也在这里了。 一开始没有调试经验,一进去看使用vim $HADOOP_HOME/log/hadoop-root-zkfc-package.log 看到的是 以为没有什么日志可看,就草草把vim关闭。 看到没有头绪,只好去百度,谷歌。发现有不少都是问这个问题。但是没有一个是真正解决的文章(正因为这样,我才写而已) 寻找了一个下午+一个晚上,没有解决! 又回到起点,去看日志吧。不过我当时不是使用vim,而是使用了cat(不建议用在文本太大的话,你会后悔的。不过也是因为我这个愚蠢的动作给我解决bug的思路), 如果你一直启动不了,最后肯定是能看到这个异常的。

环境搭建-Linux、ZooKeeper、Hadoop

人走茶凉 提交于 2019-11-28 13:56:50
Linux版本:Ubuntu 16.04 Server LTS 1. 安装Linux,初始用户名设置为hadoop,host依次是: Lead1,Lead2,Register1,Register2,Register3,Follower1,,Follower2,Follower3,Follower4,Follower5 Lead1,Lead2用于安置Namenode和Resourcemanager的HA Register1,Register2,Register3用来运行ZooKeeper集群和qjournal服务 Follower1,,Follower2,Follower3,Follower4,Follower5用来运行Datanode和Nodemanager 2. 安装软件:openjdk 1.8,openssh-server,vim 3. 配置ssh免密登录: a. ssh -keygen -t rsa b. cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys c. scp ~/.ssh/authorized_keys xxx(hostname):~/.ssh/authorized_keys 直到所有主机的authorized_keys文件中都含有所有主机的id_rsa.pub 4. 利用ifconfig查看ip地址,依次修改所有主机的

Debian下Hadoop 3.12 集群搭建

最后都变了- 提交于 2019-11-28 13:45:07
Debian系统配置 我这里在Vmware里面虚拟4个Debian系统,一个master,三个solver。hostname分别是 master、solver1、solver2、solver3 。对了,下面的JDK和hadoop安装配置操作都是使用 hadoop用户权限 来执行,并非root权限。 1. 静态网络的配置 编辑 /etc/network/interfaces 文件,注释自动获取IP,并添加下面内容 # The primary network interface #allow-hotplug ens33 #iface ens33 inet dhcp # static IP address auto ens33 iface ens33 inet static address 192.168.20.101 netmask 255.255.255.0 gateway 192.168.20.2 dns-nameservers 192.168.20.2 dns-nameservers 114.114.114.114 2. 修改 /etc/hosts 文件,添加如下内容 # Hadoop 192.168.20.101 master 192.168.20.102 solver1 192.168.20.103 solver2 192.168.20.104 solver3 3.

大话大数据(一)

大兔子大兔子 提交于 2019-11-28 11:56:16
大数据的4V特征: 数据量大,TB->PB 数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等; 商业价值高,但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖掘出来; 处理时效性高,海量数据的处理需求不再局限在离线计算当中。 现如今,正式为了应对大数据的这几个特点,开源的大数据框架越来越多,越来越强,先列举一些常见的: 文件存储 :Hadoop HDFS、Tachyon、KFS 离线计算 :Hadoop MapReduce、Spark 流式、实时计算 :Storm、Spark Streaming、S4、Heron K-V、NOSQL数据库 :HBase、Redis、MongoDB 资源管理 :YARN、Mesos 日志收集 :Flume、Scribe、Logstash、Kibana 消息系统 :Kafka、StormMQ、ZeroMQ、RabbitMQ 查询分析 :Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid 分布式协调服务 :Zookeeper 集群管理与监控 :Ambari、Ganglia、Nagios、Cloudera Manager 数据挖掘、机器学习 :Mahout、Spark MLLib 数据同步 :Sqoop 任务调度 :Oozie …… 眼花了吧