hdfs报错 'There are 10 missing blocks...'

场景

今天本要部署spark on yarn，因为要在hdfs创建一些共享文件，于是到hdfs web UI去看了一下，结果发现下面的错误，顺手处理一下。

刚刚接触大数据，还是有点小慌张的，学习了...

Tips： hdfs集群下线DataNode要严格遵守顺序，不然... (PS：大数据开发人员蜜汁自信纯手动搭建hadoop，不知道接手后还有多少坑要踩，奉劝大家不要重复造轮子。。。移步CDH)

There are 10 missing blocks. The following files may be corrupted:

执行命令： hdfs fsck /user/work02 查看丢失的文件详细信息

以上MISSING状态的文件和web界面的一致。

直接查看文件，显示该文件是存在的：hdfs dfs -ls /path/to/file

检查文件内容是否可查看：hdfs dfs -tail /path/to/file

即，当前存活的node中没有该block，该block存在于Dead nodes。

$ hdfs fsck -delete /user/work02/.flink/application_1576583910922_0101/logback.xml
...

删除之后到web查看：此时missing blocks变为9。

依次删除其他的block，清理完后结果如下：

在NameNode所在的机器(master)上的配置文件hdfs-site.xml中增加"黑名单"配置:

<property>
    <!-- 黑名单信息-->
    <name>dfs.hosts.exclude</name>
    <value>/path/to/hadoop/etc/hadoop/dfs.exclude</value>
</property>

在master机器上执行下面的命令：

# 创建黑名单文件
$ touch /home/hadoop-twq/bigdata/hadoop-2.7.5/etc/hadoop/dfs.exclude

在/path/to/hadoop/etc/hadoop/dfs.exclude文件中增加要下线的机器清单：
```
node11
```
在/path/to/hadoop/etc/hadoop/slaves文件中删除要下线的机器 node11 行
然后在NameNode所在的机器上执行如下的命令：
```
# 更新节点信息
$ hdfs dfsadmin -refreshNodes
```
然后我们刷新HDFS的Web UI的DataNode信息，如下图：、

这个时候，master上的DataNode的状态变为Decommission In Progress。这个时候，在master上的DataNode的数据都在复制转移到其他的DataNode上，当数据转移完后，我们再刷新HDFS Web UI后，可以看到DataNode的状态变为Decommissioned，表示这个DataNode已经下线，如下图：
在node11上停止DataNode服务：
```
$ hadoop-daemon.sh stop datanode
```
刷新DataNode：　
```
$ hdfs dfsadmin -refreshNodes
```