1.hdfs是通过分布式集群存储文件,为客户端提供了一个便捷的访问方式,其实就是一个虚拟目录;
2.文件存储到集群中被分割成多个block(一个block默认为128M);
3.文件的block存储在若干个datanode上;
4.hdfs文件系统中的文件与真实的block存在映射关系,由namenode管理;
5.每一个block在集群中的datanode存储会由多个副本,好处就是提高数据的可靠性,还可以提高访问的吞吐量;
来源:oschina
链接:https://my.oschina.net/u/4434424/blog/3187718