hadoop(一HDFS)
hadoop(一HDFS) 介绍 狭义上来说: hadoop指的是以下的三大系统: HDFS :分布式文件系统(高吞吐,没有延时要求,容错性,扩展能力) MapReduce : 分布式计算系统 Yarn:分布式样集群资源管理 但是hadoop可不止这三个系统 广义上来说: hadoop指的是大数据的一个生态圈 架构模型 1.X版本的架构 NameNode:集群的主节点,主要是管理集群中的各种元数据() secondaryNameNode:主节点的辅助管理,主节点宕机后无法代替它(SecondaryNameNode 定期合并 fsimage 和 edits, 把 edits 控制在一个范围内 ) DataNode:从节点,主要用于存储集群中的各种数据 JobTracker:主节点,接收用户的计算请求,并分配给从节点 TaskTracker:负责执行主节点JobTracker分配的任务 2.x的版本架构模型 数据计算核心模块: ResourceManager:接收用户的计算请求任务,并负责集群的资源分配 NodeManager:负责执行主节点APPmaster分配的任务 高可用的实现 文件管理系统多了JournalNode,目的是为了实现NameNode里面元数据的同步,当其中一个宕机,另外一个能完美代替它 多了一个备份节点,让Zookeeper来管理实现高可用 配置的作用 cd