hadoop集群搭建 | 易学教程

基于Docker搭建Hadoop数据计算集群

阅读更多关于基于Docker搭建Hadoop数据计算集群

安装步骤 Docker安装 1 sudo apt-get install docker.io 拉取Hadoop镜像可以采用如下方式查找相关镜像 1 docker search hadoop 出现报错： Is the docker daemon running on this host? 原因解决：权限不够，加 sudo ，或者采用[2]方法添加用户组解决。切换源源在国外的，可以切换Ubuntu系统的更新源为国内，直接拉取kiwenlau做好的镜像 1 sudo docker pull kiwenlau/hadoop:1.0 配置 clone项目 1 git clone https://github.com/kiwenlau/hadoop-cluster-docker 配置网桥 1 sudo docker network create --driver=bridge hadoop 之后进入刚刚clone的kiwenlau的github项目，运行相关进程，即运行配置好的docker（运行脚本），进入Docker之后运行脚本即可。参考资料 [1]. 简书-从 0 开始使用 Docker 快速搭建 Hadoop 集群环境 [2]. CSDN-docker容器Cannot connect to the Docker daemon. Is the docker daemon

Ubuntu 17.10配置Hadoop+Spark环境

阅读更多关于 Ubuntu 17.10配置Hadoop+Spark环境

一、前言最近导师带的项目是与大数据相关，感觉这几年大数据技术还挺火的，就想着也去学一下，丰富自己的技能栈。本文主要讲的是hadoop+spark的环境搭建,然后使用自带的examples测试环境，这里不涉及原理介绍。二、Hadoop的三种运行模式介绍 2.1、单机模式也叫独立模式（Local或Standalone Mode） 2.2、伪分布式模式（Pseudo-Distrubuted Mode） Hadoop的守护进程运行在本机机器上，模拟一个小规模的集群在一台主机上模拟多主机。 Hadoop启动NameNode、DataNode、JobTracker、TaskTracker这些守护进程都在同一台机器上运行，是相互独立的Java进程。在这种模式下，Hadoop使用的是分布式文档系统，各个作业也是由JobTraker服务，来管理的独立进程。在单机模式之上增加了代码调试功能，允许检查内存使用情况，HDFS输入输出，以及其他的守护进程交互。类似于完全分布式模式，因此，这种模式常用来开发测试Hadoop进程的执行是否正确。修改3个配置文档：core-site.xml（Hadoop集群的特性，作用于全部进程及客户端）、hdfs-site.xml（配置HDFS集群的工作属性）、mapred-site.xml（配置MapReduce集群的属性）格式化文档系统 2.3、

Hadoop Getting Started

阅读更多关于 Hadoop Getting Started

Hadoop Getting Started 文章导航 30 July 2015 更多一、关于 Hadoop 1 Hadoop是什么: Hadoop是Apache的开源的分布式存储以及分布式计算平台官网 2 Hadoop的两个核心组成: HDFS : 分布式文档系统，存储海量的数据 MapReduce : 并行处理框架,实现任务分解和调度 3 Hadoop的用途: 搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务. 搜索引擎日志分析商业智能数据挖掘 4 Hadoop的优势: 1.高扩展 2.低成本 3.成熟的生态圈(Hadoop Ecosysten) 5 Hadoop的生态系统及版本: HDFS + MapReduce + 开源工具 1.HIVE : 只需要编写简单的SQL语句, 转化成Hadoop任务 2.HBASE : 存储结构化数据的分布式数据库. 和传统的关系型数据库区别, Hbase放弃失特性，追求更高的扩展和HDFS区别: Hbase提供数据的随机读写和实时访问, 实现对表数据的读写功能. 3.Zookeeper : 监控Hadoop集群的状态，管理Hadoop集群的配置… 二、Hadoop的安装(Ubuntu 14.04) Step 1: 准备Linux, 这里用Ubuntu 14.04 Step 2: 安装JDK, 这里用OpenJDK 1,7

spark集群搭建

阅读更多关于 spark集群搭建

Standalone集群构建基础环境准备物理资源：CentOSA/B/C-6.10 64bit 内存2GB 主机名 IP CentOSA 192.168.221.136 CentOSB 192.168.221.137 CentOSC 192.168.221.138 [外链图片转存失败(img-l9lPb4wS-1566826494200)(assets/1566785920711.png)] 节点与主机映射关系主机节点服务 CentOSA NameNode、ZKFC、Zookeeper、journalnode、DataNode、master、worker、broker CentOSB NameNode、ZKFC、zookeeper、journalnode、DataNode、master、worker、broker CentOSC zookeeper、journalnode、DataNode、master、worker、broker 主机与Ip的映射关系 [ root@CentOSX ~ ] # vi /etc/hosts 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 ::1 localhost localhost.localdomain localhost6

零基础学习hadoop到上手工作线路指导（中级篇）

阅读更多关于零基础学习hadoop到上手工作线路指导（中级篇）

此篇是在零基础学习hadoop到上手工作线路指导（初级篇）的基础，一个继续总结。五一假期：在写点内容，也算是总结。上面我们会了基本的编程，我们需要对hadoop有一个更深的理解： hadoop分为 hadoop1.X 、 hadoop2.X ，并且还有 hadoop生态系统。这里只能慢慢介绍了。一口也吃不成胖子。 hadoop 1.x 分为 mapreduce 与 hdfs 其中mapreduce是很多人都需要迈过去的槛，它比较难以理解，我们有时候即使写出了mapreduce程序，但是还是摸不着头脑。我们不知道key代表什么意思，我们不知道为什么会处理这个value。map有key、value，输出了key、value，有时候还会合并，reduce处理完毕之后又输出了key、value。这让我们产生了困惑，分不清。 mapreduce是一种编程模型，那么它能干什么，对我有什么用。它的原理是什么，为什么我们编写了map函数，reduce函数就可以在多台机器上运行。这些问题或许都给初学者带来了困扰。是的，这些问题同样也困扰了我，这里写出来分享给大家，避免走同样的弯路。面对mapreduce，有一篇文章，这里总结的很好，包括：该如何入门，该如何理解mapreduce，该如何练习mapreduce，该如何运用mapreduce。这里面介绍的很全。

Hadoop 启动没有 datanode 进程解决方法

阅读更多关于 Hadoop 启动没有 datanode 进程解决方法

Hadoop 启动没有 datanode 进程解决方法 2019-01-22 22:101930 0 原创 Hadoop 本文链接： https://www.cndba.cn/dave/article/3255 1 现象说明新搭建的hadoop 3.1.1 的环境，在启动Hadoop时，通过jps目录发现Slave上没有datanode进程。如下： [cndba@hadoopmaster ~]$ jps 23234 ResourceManager 22998 SecondaryNameNode 23575 Jps 22683 NameNode [cndba@hadoopslave1 ~]$ jps 9682 Jps 9535 NodeManager [cndba@hadoopslave2 ~]$ jps 9356 Jps 9199 NodeManager 2 clusterID不匹配导致的问题网上搜了下，网上的说法都是由于进行hadoop格式化的时候没有事先结束所有进程，或者多次进行了format导致的datanode的clusterID 和 namenode的clusterID不匹配，从而在启动后没有datanode进程。解决方法有两种：方案一: 保留现有数据用NameNode节点的~/dfs/name/current/VERSION

hadoop HA (no zkfc to stop) DFSZKFailoverController进程没有启动

阅读更多关于 hadoop HA (no zkfc to stop) DFSZKFailoverController进程没有启动

这个bug确实恶心的不要不要的。我一开始以为是我自己打开方式（毕竟不熟悉搭建流程，别人怎么做，我照着做）我照着视频或者博客编写hdfs-site.xml(dfs.ha.fencing.methods) 但是一直再start-dfs.sh 后（DFSZKFailoverController进程没有启动）在stop-dfs.sh后提示（no zkfc to stop）我一开始当然顺势去看日志（程序员不看日志处理，还能干什么？）因为在start-dfs.sh看到看到zkfc的日志在$HADOOP_HOME/log下的hadoop-root-zkfc-package.out，那log就估计也在这里了。一开始没有调试经验，一进去看使用vim $HADOOP_HOME/log/hadoop-root-zkfc-package.log 看到的是以为没有什么日志可看，就草草把vim关闭。看到没有头绪，只好去百度，谷歌。发现有不少都是问这个问题。但是没有一个是真正解决的文章（正因为这样，我才写而已）寻找了一个下午+一个晚上，没有解决！又回到起点，去看日志吧。不过我当时不是使用vim，而是使用了cat(不建议用在文本太大的话，你会后悔的。不过也是因为我这个愚蠢的动作给我解决bug的思路)，如果你一直启动不了，最后肯定是能看到这个异常的。

环境搭建-Linux、ZooKeeper、Hadoop

阅读更多关于环境搭建-Linux、ZooKeeper、Hadoop

Linux版本：Ubuntu 16.04 Server LTS 1. 安装Linux，初始用户名设置为hadoop，host依次是： Lead1,Lead2,Register1,Register2,Register3,Follower1,,Follower2,Follower3,Follower4,Follower5 Lead1,Lead2用于安置Namenode和Resourcemanager的HA Register1,Register2,Register3用来运行ZooKeeper集群和qjournal服务 Follower1,,Follower2,Follower3,Follower4,Follower5用来运行Datanode和Nodemanager 2. 安装软件：openjdk 1.8，openssh-server，vim 3. 配置ssh免密登录： a. ssh -keygen -t rsa b. cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys c. scp ~/.ssh/authorized_keys xxx(hostname):~/.ssh/authorized_keys 直到所有主机的authorized_keys文件中都含有所有主机的id_rsa.pub 4. 利用ifconfig查看ip地址，依次修改所有主机的

Debian下Hadoop 3.12 集群搭建

阅读更多关于 Debian下Hadoop 3.12 集群搭建

Debian系统配置我这里在Vmware里面虚拟4个Debian系统，一个master，三个solver。hostname分别是 master、solver1、solver2、solver3 。对了，下面的JDK和hadoop安装配置操作都是使用 hadoop用户权限来执行，并非root权限。 1. 静态网络的配置编辑 /etc/network/interfaces 文件，注释自动获取IP，并添加下面内容 # The primary network interface #allow-hotplug ens33 #iface ens33 inet dhcp # static IP address auto ens33 iface ens33 inet static address 192.168.20.101 netmask 255.255.255.0 gateway 192.168.20.2 dns-nameservers 192.168.20.2 dns-nameservers 114.114.114.114 2. 修改 /etc/hosts 文件，添加如下内容 # Hadoop 192.168.20.101 master 192.168.20.102 solver1 192.168.20.103 solver2 192.168.20.104 solver3 3.

大话大数据（一）

阅读更多关于大话大数据（一）

大数据的4V特征：数据量大，TB->PB 数据类型繁多，结构化、非结构化文本、日志、视频、图片、地理位置等；商业价值高，但是这种价值需要在海量数据之上，通过数据分析与机器学习更快速的挖掘出来；处理时效性高，海量数据的处理需求不再局限在离线计算当中。现如今，正式为了应对大数据的这几个特点，开源的大数据框架越来越多，越来越强，先列举一些常见的：文件存储：Hadoop HDFS、Tachyon、KFS 离线计算：Hadoop MapReduce、Spark 流式、实时计算：Storm、Spark Streaming、S4、Heron K-V、NOSQL数据库：HBase、Redis、MongoDB 资源管理：YARN、Mesos 日志收集：Flume、Scribe、Logstash、Kibana 消息系统：Kafka、StormMQ、ZeroMQ、RabbitMQ 查询分析：Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid 分布式协调服务：Zookeeper 集群管理与监控：Ambari、Ganglia、Nagios、Cloudera Manager 数据挖掘、机器学习：Mahout、Spark MLLib 数据同步：Sqoop 任务调度：Oozie …… 眼花了吧

订阅 hadoop集群搭建