HDFS2.0
HDFS2.0的新特性 • NameNode HA(高可用) • NameNode Federation • HDFS 快照 • HDFS 缓存 • HDFS ACL • 异构层级存储结构 NameNode HA HDFS1.0中存在的问题: Hadoop 1.0中NameNode在整个HDFS中只有一个,存在单点故障 风险,一旦NameNode挂掉,整个集群无法使用 解决方法: HDFS的高可用性将通过在同一个集群中运行两个NameNode (active NameNode & standby NameNode )来解决 • 在任何时间,只有一台机器处于Active状态;另一台机器是处于Standby状态 • Active NameNode负责集群中所有客户端的操作; • Standby NameNode主要用于备用,它主要维持足够的状态,如果必要,可以提供快速 的故障恢复。 • 同步问题:需要依赖JournalNodes守护进程,完成元数据的一致性 • 快速的故障恢复:心跳保证,Standby NN也需要保存集群中各个文件块的存储位置 • 避免分歧:任何情况下,NameNode只有一个Active状态,否则导致数据的丢失及其它不正确的结果 – 如何做到? – 在任何时间,JNs只允许一个 NN充当writer。在故障恢复期间,将要变成Active 状态的NN