hadoop集群搭建

Hadoop分布式集群环境搭建

旧城冷巷雨未停 提交于 2019-11-25 22:43:57
分布式环境搭建之环境介绍 之前我们已经介绍了如何在单机上搭建伪分布式的Hadoop环境,而在实际情况中,肯定都是多机器多节点的分布式集群环境,所以本文将简单介绍一下如何在多台机器上搭建Hadoop的分布式环境。 我这里准备了三台机器,IP地址如下: 192.168.77.128 192.168.77.130 192.168.77.134 首先在这三台机器上编辑 /etc/hosts 配置文件,修改主机名以及配置其他机器的主机名 [root@localhost ~]# vim /etc/hosts # 三台机器都需要操作 192.168.77.128 hadoop000 192.168.77.130 hadoop001 192.168.77.134 hadoop002 [root@localhost ~]# reboot 三台机器在集群中所担任的角色: hadoop000作为NameNode、DataNode、ResourceManager、NodeManager hadoop001作为DataNode、NodeManager hadoop002也是作为DataNode、NodeManager 配置ssh免密码登录 集群之间的机器需要相互通信,所以我们得先配置免密码登录。在三台机器上分别运行如下命令,生成密钥对: [root@hadoop000 ~]# ssh-keygen -t

使用Ambari搭建Hadoop集群

与世无争的帅哥 提交于 2019-11-25 21:07:58
Hadoop 介绍 Hadoop是一个开发和运行处理大规模数据的软件平台,是Apache的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心设计就是:MapReduce和HDFS。MapReduce提供了对数据的分布式计算,HDFS提供了海量数据的分布式存储。 在Hadoop家族中,收入了20多个用于计算、分析、存储、监控、管理等组件和工具,这些家族成员极大的丰富了Hadoop的各方面的功能。 Hadoop常见家族成员 下面简单的列举几个常见的组件: Apache Hadoop: 是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架构。 Apache Hive: 是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 Apache Pig: 是一个基于Hadoop的大规模数据分析工具,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。 Apache HBase: 是一个高可靠性、高性能、面向列

Hadoop2.0分布式集群的平台搭建

為{幸葍}努か 提交于 2019-11-25 20:47:15
一、Hadoop集群安装前的准备 基础环境 四台Centos6.5 IP地址: 192.168.174.128 192.168.174.129 192.168.174.130 192.168.174.131 四台主机新建hadoop用户并实现ssh免密登陆 iptables关闭和selinux为disabled 1.修改主机名和ip地址映射 为了后面操作方便,修改主机名分别为hadoop01、hadoop02、hadoop03、hadoop04。修改主机名只需修改/etc/sysconfig/network文件hostname行即可,这里博主不再复述。然后修改/etc/hosts文件,将ip地址和主机名的映射写入进去,这样,后面其它主机就可根据主机名去对应ip地址。 2.安装JDK Hadoop的核心组成之一MapReduce是基于java的,因此需要配置基本的java环境。JDK安装十分简单,前面也多次提到。下载jdk安装包,解压jdk到指定目录。 tar -zxvf jdk-8u181-linux-x64.tar.gz -C /usr/local/java 修改环境变量,进入/etc/profile export JAVA_HOME=/usr/local/java/jdk1.8.0_181 export PATH=$PATH:$JAVA_HOME/bin 重新加载环境变量生效

Hadoop 入门

Deadly 提交于 2019-11-25 20:46:46
1 大数据概率 大数据是指在一定时间内无法用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息增长。 主要解决海量的存储和海量数据的分析计算问题。 1.1 大数据的特点 Volume(大量) Velocity(高速) Variety(多样) Value(低价值密度) 1.2 大数据应用场景 物流仓储:大数据分析系统助力商家精细化运营、提升销量、节约成本。 零售:分析用户消费习惯,为用户购买商品提供方便,从而提升商品销量。 旅游:深度结合大数据能力与旅游行业需求,共建旅游产业智慧管理、智慧服务和智慧营销的未来。 商品推荐:根据用户购买记录推荐商品。 保险:海量数据挖掘及风险预测,助力保险行业精准营销,提升精细化定价能力。 金融:多维度体现用户特征,帮助金融机构推荐优质客户,防范欺诈风险。 房地产:大数据全面助力房地产行业,打造精准投策与营销,选出更合适的地,建造更合适的楼,卖给更合适的人。 人工智能:以大数据为依托。 2 从 Hadoop 框架讨论大数据生态 2.1 Hadoop 是什么? Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 主要解决,海量数据的存储和海量数据的分析计算问题。 广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。 2.2