1.1 什么是HDFS?
HDFS是一个分布式文件系统,它将文件切成多个小块(block),每块随机存放到任意存储节点。块的大小可通过指定参数设置,最新版默认为128M,旧版为64M。为了避免单点故障引起数据丢失,每块数据会存储多一个相同的副本到不同的存储节点(此专为高并发计算分析设计)。
1.2 优缺点
优点:高并发,高吞吐量数据访问,高容错
缺点:由于特性是存储较大的数据,因此延时高
1.3 namenode和datanode
namenode:响应客户端请求,存储元数据(记录数据块分布在哪个机器上),管理目录树
datanode:只要是datanode就可以作为存储节点
1.4 元数据管理
元数据存放在内存空间,同时会镜像到磁盘产生一个叫fsimages的文件,但由于元数据过大,fsimages不会实时同步内存里的元数据,他们之间的差异记录在日志文件edit,每隔一段时间,edit就会和fsimages合并一次,这样和内存里的元数据差异就缩小了
1.5 HDFS shell命令格式
hdfs dfs -操作命令 参数
详细参考官网https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html
来源:oschina
链接:https://my.oschina.net/u/4264517/blog/4654625