Hadoop实战之一~Hadoop概述
对技术,我还是抱有敬畏之心的。 Hadoop概述 Hadoop是一个开源分布式云计算平台,基于Map/Reduce模型的,处理海量数据的 离线分析工具 。基于Java开发,建立在HDFS上,最早由Google提出,有兴趣的同学可以从 Google三驾马车: GFS,mapreduce,Bigtable 开始了解起,这里我不详细介绍了,因为网上的资料实在是太多了。 Hadoop项目的结构如下: Hadoop中最重要的应该就是HDFS和Mapreduce了,从HDFS讲起: HDFS 主要由以下优点: 1)、支持超大文件,一般来说,一个Hadoop文件系统可以轻松的存储TB、PB级别的数据。 2)、检测和快速应对硬件故障,在大量通用的廉价硬件构建的集群上,特别是硬件故障很常见,一班的HDFS系统由成百上千台存储着数据文件的服务器组成,越多的服务器也就意味着高故障率,因此故障检测和制动恢复就是HDFS的一个设计目标。 3)、流式数据访问方式,HDFS要处理的数据规模都比较大,应用程序一次需要访问大量数据, 适用于批量处理而非用户交互式处理数据,HDFS以流式方式访问数据,注重的是数据的高吞吐量而非访问速度 。 HDFS是建立在最有效的数据处理模式是一次写多次读(write-once,read-many-times)的模式的概念之上的, 当写入操作被关闭后