Hadoop详解 - HDFS - MapReduce - YARN - HA
为什么要有Hadoop? 结构的数据,并且这些海量的数据存储和检索就成为了一大问题。 Hadoop就是为了解决这些问题而出现的。 Hadoop的诞生 Doug Cutting等人就去研究这三篇论文,发现价值巨大,于是Doug Cutting等人在Nutch上实现了GFS和Map-Reduce,使得Nutch的性能飙升。 这三篇论文对应Hadoop的组件: 什么是Hadoop? 技术生态圈 之一。 Hadoop发行版本 1、Apache版本最原始的版本 2、Clodera版本,在大型互联网企业中用的比较多,软件免费,通过服务收费。 3、Hortonworks文档比较好 特点 高可靠: 维护多个副本,假设计算元素和存储出现故障时,可以对失败节点重新分布处理 高扩展: 在集群间分配任务数据,可方便的扩展数以千计的节点 高效性: 并行工作 高容错: 自动保存多个副本,并且能够对失败任务重新分配 Hadoop组成 HDFS:一个高可靠高吞吐量的分布式文件系统 :存储文件的元数据,如:文件名、文件目录结构等信息 DataNode(dn) : 在文件系统存储文件块数据,以及数据的校验和,也就是真正存储文件内容的,只是文件大的时候会切割成一小块一小块的。 SecondayNameNode(2nn) : 用于监控HDFS状态的辅助后台程序,每隔一段时间就获取HDFS的快照,就是备份和监控状态