HDFS、HBase、MapReduce、Zookeeper、Oozie、Pig、Hive、Sqoop、Fulme

hadoop 各个组件介绍

阅读更多关于 hadoop 各个组件介绍

HDFS(Hadoop distribute file system)——Hadoop生态系统的基础组件Hadoop分布式文件系统。它是其他一些工具的基础HDFS的机制是将大量数据分布到计算机集群上，数据一次写入，但可以多次读取用于分析。HDFS让Hadoop可以最大化利用磁盘。 HBase—— 一个构建在HDFS之上的面向列的NoSql数据库，HBase用于对打量数据进行快速读取/写入。HBase将Zookeeper用于自身的管理，以保证其所有组件都正在运行。HBase使得Hadoop可以最大化利用内存。 MapReduce——MapReduce是Hadoop的主要执行框架，它是一个用于分布式并行数据处理的编程模型，将作业分为mapping阶段和reduce阶段。开发人员谓Hadoop编写MapReduce作业，并使用HDFS中存储的数据，而HDFS可以保证快速的数据访问。鉴于MapReduce作业的特性，Hadoop以并行的方式将处理过程移向数据。MapReduce使得Hadoop可以最大化利用CPU。 Zookeeper——Zookeeper是Hadoop的分布式协调服务。Zookeeper被设计成可以在机器集群上运行，是一个具有高度可用性的服务，用于Hadoop操作的管理，而且很多Hadoop组件都依赖它。 Oozie——

订阅 HDFS、HBase、MapReduce、Zookeeper、Oozie、Pig、Hive、Sqoop、Fulme