hadoop开发环境搭建

hadoop技术入门学习之发行版选择

五迷三道 提交于 2019-12-02 09:59:44
经常会看到这样的问题:零基础学习hadoop难不难?有的人回答说:零基础学习hadoop,没有想象的那么难,也没有想象的那么容易。看到这样的答案不免觉得有些尴尬,这个问题算是白问了,因为这个回答似乎什么也没给出来。这个问题的关键在于“零基础”到底是个什么样的基础? 所谓的零基础大体可以分为两种:第一种是hadoop初学者,有一定的Linux基础、虚拟机和Java基础;第二种是hadoop兴趣爱好者,但缺乏最基本的Linux基础、虚拟机和Java基础。如果是第一种,其实学习hadoop的难度就会相对较小;但如果是第二种,那么难度就会非常大了。 要学习hadoop除了要了解hadoop是什么?Hadoop能够帮助我们做什么?以及hadoop的使用场景等基本问题,对于初学者而言选择一个合适的hadoop版本作为学习平台也是非常重要的事情。 国内的Hadoop商业发行版还是比较多,以对hadoop的二次包装为主。基本上国内的这些发行版hadoop的安装环境都是大同小异,网上查一下就会发现很多人在安装这些hadoop的运营环境时,整个安装过程非常复杂,耗时较长,重点就是很多人在经历了漫长的安装等待后,等到的结果可能是安装失败······ Hadoop运行环境的搭建就是初学者要解决的一个大问题,运行环境搭建不成功,也就无从着手学习了。各种发行版本的Hadoop运行环境的安装基本类似

Hadoop集群(第5期副刊)_JDK和SSH无密码配置

你离开我真会死。 提交于 2019-12-02 03:48:28
1、Linux配置java环境变量 1.1 原文出处 地址: http://blog.csdn.net/jiedushi/article/details/6672894 1.2 解压安装jdk   在shell终端下进入jdk-6u14-linux-i586.bin文件所在目录,执行命令 ./jdk-6u14-linux-i586.bin 这时会出现一段协议,连继敲回车,当询问是否同意的时候,输入yes,回车。之后会在当前目录下生成一个jdk1.6.0_14目录,你可以将它复制到 任何一个目录下。 1.3 需要配置的环境变量   1)PATH环境变量   作用是指定命令搜索路径,在shell下面执行命令时,它会到PATH变量所指定的路径中查找看是否能找到相应的命令程序。我们需要把 jdk安装目录下的bin目录增加到现有的PATH变量中,bin目录中包含经常要用到的可执行文件如javac/java/javadoc等待,设置好 PATH变量后,就可以在任何目录下执行javac/java等工具了。   2)CLASSPATH环境变量   作用是指定类搜索路径,要使用已经编写好的类,前提当然是能够找到它们了,JVM就是通过CLASSPTH来寻找类的。我们 需要把jdk安装目录下的lib子目录中的dt.jar和tools.jar设置到CLASSPATH中,当然,当前目录".

hadoop初体验

瘦欲@ 提交于 2019-12-02 03:20:34
今日课程内容大纲 01) hadoop的简介 02) hadoop集群的搭建 发行版本 集群规划 hadoop源码编译(了解) hadoop集群搭建 03) hadoop集群启动与初体验 04) MapReduce的历史记录 05) HDFS的垃圾桶机制 01--Apache Hadoop--介绍和发展历程 01) hadoop的介绍 00) hadoop1.x和hadoop2.x的区别: yarn(资源管理) 解决了单点故障问题 提高资源的利用率 01) 狭义解释:特指Apache的一款java语言开发的开源软件,由一下三部分组成: HDFS: 解决海量数据存储的hadoop分布式文件系统 MapReduce: 解决海量数据分布式计算问题 YARN: 解决分布式架构中资源管理和任务调度 02) 广义解释:整个基于hadoop的生态系统,包括大数据处理流程中的各个阶段的软件 hive hbase zookeeper oozie sqoop flume impala storm spark flink kylin...... 02) hadoop发展历史 01) hadoop的创始人doug cutting lucene(海量数据搜索) -----> nutch (海量数据抓取)-----> 海量数据存储和海量数据计算问题? 参考: https://www.linkedin.com

大数据hadoop概念,安装与配置

天大地大妈咪最大 提交于 2019-12-01 15:31:39
一.大数据概念 概念 :最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮 Hadoop :Hadoop 实现了一个 分布式文件系统 (Hadoop Distributed File System),简称HDFS。HDFS有高 容错性 的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问 应用程序 的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。 实现过程: 客户提出需求给--产品设计部门 运维部门: 收集数据--搭建分析平台--部署软件 开发部门: 算法--开发--分析 大数据的由来: 随着计算机技术的发展,互联网的普及,信息的积累已经到了一个非常庞大的地步,信息的增长也在不断的加快,随着互联网,物联网建设的加快,信息更是爆炸式增长,收集,检索,统计这些信息越发困难,必须使用新的技术来解决这些问题. 大数据的定义: 大数据指无法在一定时间范围内常规软件工具进行捕捉,管理和处理的数据集合,需要新处理模式才能具有更强的决策力

Hbase

巧了我就是萌 提交于 2019-11-30 23:29:16
版本:V2.0 第1章 HBase简介 1.1 什么是HBase HBase的原型是Google的BigTable论文,受到了该论文思想的启发,目前作为Hadoop的子项目来开发维护,用于支持结构化的数据存储。 官方网站:http://hbase.apache.org -- 2006年Google发表BigTable白皮书 -- 2006年开始开发HBase -- 2008年北京成功开奥运会,程序员默默地将HBase弄成了Hadoop的子项目 -- 2010年HBase成为Apache顶级项目 -- 现在很多公司二次开发出了很多发行版本,你也开始使用了。 HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBase的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。 HBase是Google Bigtable的开源实现,但是也有很多不同之处。比如:Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MAPREDUCE来处理Bigtable中的海量数据,HBase同样利用Hadoop MapReduce来处理HBase中的海量数据;Google

大数据hadoop 面试经典题

ε祈祈猫儿з 提交于 2019-11-30 18:09:56
1.从前到后从你教育背景(学过哪些课)到各个项目你负责的模块,问的很细(本以为他是物理学博士,但是所有的技术都懂) 2.hadoop 的 namenode 宕机,怎么解决 先分析宕机后的损失,宕机后直接导致client无法访问,内存中的元数据丢失,但是硬盘中的元数据应该还存在,如果只是节点挂了, 重启即可,如果是机器挂了,重启机器后看节点是否能重启,不能重启就要找到原因修复了。但是最终的解决方案应该是在设计集群的初期 就考虑到这个问题,做namenode的HA。 3.一个datanode 宕机,怎么一个流程恢复 Datanode宕机了后,如果是短暂的宕机,可以实现写好脚本监控,将它启动起来。如果是长时间宕机了,那么datanode上的数据应该已经 被备份到其他机器了,那这台datanode就是一台新的datanode了,删除他的所有数据文件和状态文件,重新启动。 4.Hbase 的特性,以及你怎么去设计 rowkey 和 columnFamily ,怎么去建一个table 因为hbase是列式数据库,列非表schema的一部分,所以在设计初期只需要考虑rowkey 和 columnFamily即可,rowkey有位置相关性,所以 如果数据是练习查询的,最好对同类数据加一个前缀,而每个columnFamily实际上在底层是一个文件,那么文件越小,查询越快,所以讲经

Hadoop 伪分布式模式安装

∥☆過路亽.° 提交于 2019-11-30 12:06:46
Hadoop简介 Hadoop由Apache基金会开发的分布式系统基础架构,是利用集群对大量数据进行分布式处理和存储的软件框架。用户可以轻松地在Hadoop集群上开发和运行处理海量数据的应用程序。Hadoop有高可靠,高扩展,高效性,高容错等优点。Hadoop 框架最核心的设计就是HDFS和MapReduce。HDFS为海量的数据提供了存储,MapReduce为海量的数据提供了计算。此外,Hadoop还包括了Hive,Hbase,ZooKeeper,Pig,Avro,Sqoop,Flume,Mahout等项目。 Hadoop的运行模式分为3种: 本地运行模式 , 伪分布运行模式 , 完全分布运行模式 。 本地模式(local mode) 这种运行模式在一台单机上运行,没有HDFS分布式文件系统,而是直接读写本地操作系统中的文件系统。在本地运行模式(local mode)中不存在守护进程,所有进程都运行在一个JVM上。单机模式适用于开发阶段运行MapReduce程序,这也是最少使用的一个模式。 伪分布模式 这种运行模式是在单台服务器上模拟Hadoop的完全分布模式,单机上的分布式并不是真正的分布式,而是使用线程模拟的分布式。在这个模式中,所有守护进程(NameNode,DataNode,ResourceManager,NodeManager,SecondaryNameNode

hadoop环境搭建总结

六眼飞鱼酱① 提交于 2019-11-30 07:58:16
最近一段时间在看Hadoop The Definitive Guide, 3rd Edition.pdf,学习hadoop,个人想不能总看书,不实践呀,于是准备搭建一套开发环境,果然遇到很多问题,最终调试出了运行结果,在此记录。 我实践的过程比较坎坷,分别尝试了centos,Ubuntu,windows下的Eclipse的hadoop插件,都加载成功,但是windows下的示例没有运行成功。下面详细说明 参考 Hadoop The Definitive Guide, 3rd Edition.pdf附录A,先下载hadoop: http://hadoop.apache.org/common/releases.html ,我下载的版本是2.6.4。解压后放到/usr/local/下,我个人安装的程序都在这个目录下。但是java和Eclipse都是系统自带的或者yum安装,都不在这个目录下。 设置JAVA_HOME,java是系统自带的,java的安装你可以去网上搜一下,或者按照下面的方法,也可以找到 zhang@oradt:/etc/alternatives$ java -version java version "1.7.0_95" OpenJDK Runtime Environment (IcedTea 2.6.4) (7u95-2.6.4-0ubuntu0.14.04.1)

Ubuntu上搭建Hadoop环境(单机模式+伪分布模式)

允我心安 提交于 2019-11-29 21:27:35
Hadoop在处理海量数据分析方面具有独天优势。今天花时间在自己的Linux上搭建了伪分布模式,期间经历很多曲折,现在将经验总结如下。 首先,了解Hadoop的三种安装模式: 1. 单机模式. 单机模式是Hadoop的默认模。当配置文件为空时,Hadoop完全运行在本地。因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何Hadoop的守护进程。该模式主要用于开发调试MapReduce程序的应用逻辑。 2. 伪分布模式. Hadoop守护进程运行在本地机器上,模拟一个小规模的的集群。该模式在单机模式之上增加了代码调试功能,允许你检查内存使用情况,HDFS输入输出,以及其他的守护进程交互。 3. 全分布模式. Hadoop守护进程运行在一个集群上。 参考资料: 1. Ubuntu11.10下安装Hadoop1.0.0(单机伪分布式) 2. 在Ubuntu上安装Hadoop 3. Ubuntu 12.04搭建hadoop单机版环境 4. Ubuntu下安装及配置单点hadoop 5. Ubuntu上搭建Hadoop环境(单机模式+伪分布模式) 6. Hadoop的快速入门之 Ubuntu上搭建Hadoop环境(单机模式+伪分布模式) 本人极力推荐 5 和 6 ,这两种教程从简到难,步骤详细,且有运行算例。下面我就将自己的安装过程大致回顾一下,为省时间,很多文字粘贴子参考资料

Eclipse集成hadoop插件开发环境

六月ゝ 毕业季﹏ 提交于 2019-11-29 19:05:58
首先在win10下搭建好hadoop的环境,hadoop可以运行 解压hadoop2.7.7的安装包和源码包,解压后创建一个空的目录,把解压的源码包,安装包下share/hadoop下的除了kms的目录包外其他包下的所有jar包都拷贝到刚新建的空目录中。大概有120多个 把之前安装win10的hadoop/bin下的hadoop.dll 放到c:windows/system32下,重启电脑 检查之前安装的本地hadoop环境是否配置了hadoop的环境变量和hadoop的HADOOP_USER_NAME默认用root。把hadoop.dll文件放到C盘windows/system32下 在安装eclipse路径下plugins,dropins,把hadoop-eclipse-plugin-2.6.0.jar(可以对应下载自己版本的插件)放到该路径/eclipse/plugins/ 和/eclipse/dropins下,启动eclipse 安装成功 6.在ecplise里面window->preferences里找到 Hadoop Map/Reduce 把本地安装的hadoop路径指定到这。 7.先确认hadoop集群是否启动,然后 在第二步的Map/Reduce Locations里新建 然后点完成,就能看到ecplise连接hadoop了