删了HDFS又能怎样?记一次删库不跑路事件
一、事发背景 二、应急措施 直观的方案 三、分析过程 hdfs文件删除过程 BlockManager EditLog hdfs元数据的加载 方案确定 四、灾难重演 五、经验总结 一、事发背景 上个月的某一天,由于集群空间不足,公司有一位技术经理级别的大数据leader在通过跳板机在某个线上集群执行手动清理命令,疯狂地执行 hadoop fs -rmr -skipTrash /user/hive/warehouse/xxxxx ,突然,不知道是编辑器的问题还是换行问题,命令被截断,命令变成了 hadoop fs -rmr -skipTrash /user/hive/warehouse ,悲剧此刻开始发生!? /user/hive/warehouse 目录下存储了所有hive表的数据,关联公司多个业务线,一旦丢失,意味着巨大的损失。由于加了 -skipTrash 参数,意味着删除的数据不会放入回收站而是直接删除,这个参数不加的话很容易挽回,回收站里直接找,可惜逃不了墨菲定律,最担心的事还是发生了。 领导解决不了的事,只有小弟上,看我接下来怎样四两拨千斤。 二、应急措施 运维跟这位大数据经理第一时间找到我,当时说误删了 /user/hive/warehouse 目录。当时我也是一震惊,完了完了!凭我仅有的直觉,立马停掉了HDFS集群!后面证明是很明智的选择。 直观的方案