浅析HDFS架构和设计
作者 | 大尊 hdfs是hadoop的分布式文件系统,即Hadoop Distributed Filesystem。下面主要讲下HDFS设计中的比较重要的点,使读者能通过简短的文章一窥HDFS的全貌,适合对HDFS有一点了解,但是对HDFS又感到困惑的初学者。本文主要参考的是hadoop 3.0的官方文档。 链接: http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html 当数据集的大小超过了一台物理机所能存储的能力时,就需要将它进行分区并存储到若干不同的独立的计算机上,其中管理跨多台计算机存储的文件系统称为分布式文件系统。 目录 使用HDFS的场景 HDFS的工作模式 文件系统命名空间(namespace) 数据复制 文件系统元数据的持久化 通讯协议 健壮性 数据组织 可访问性 存储空间回收 1、使用HDFS的场景 HDFS适合于以流式数据访问模式来存储超大的文件。即一次写入,多次读取,在数据集上长时间进行各种分析,每次分析都涉及该数据集数据的大部分甚至全部,对于超大文件,hadoop目前以支持存储PB级数据。 HDFS并不适合要求低时间延迟数据访问的应用,因为HDFS是为高数据吞吐量应用而优化的,这就有可能以时间延迟大为代价。