Hadoop(四)HDFS集群详解
前言 前面几篇简单介绍了什么是大数据和Hadoop,也说了怎么搭建最简单的伪分布式和全分布式的hadoop集群。接下来这篇我详细的分享一下HDFS。 HDFS前言: 设计思想:(分而治之) 将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析。 在大数据系统中作用: 为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务 。 分布式文件系统: 问题引发:海量数据超过了单台物理计算机的存储能力 解决方案:对数据分区存储与若干台物理主机中 分布式文件系统应运而生: 1)管理网络中跨多台计算机存储的文件系统 2)HDFS就是这样的一个分布式文件系统 一、HDFS概述 1.1、HDFS概述 1)HDFS集群分为两大角色: NameNode、DataNode 2)NameNode负责 管理整个文件系统的元数据 3)DataNode负责 管理用户的文件数据块 4)文件会 按照固定的大小(blocksize)切成若干块后分布式存储在若干台datanode上 5)每一个 文件块可以有多个副本,并存放在不同的datanode 上 6)DataNode会定期向NameNode汇报 自身保存的block信息