分享一个Flink checkpoint失败的问题和解决办法
本文来自: PerfMa技术社区 PerfMa(笨马网络)官网 接触Flink一段时间了,遇到了一些问题,其中有一个checkpoint失败导致作业重启的问题,遇到了很多次,重启之后一般也能恢复正常,没有太在意,最近2天有同事又频繁遇到,这里记录一下解决方案和分析过程。 我们的flink测试环境有3个节点,部署架构是每个flink节点上部署一个HDFS的DataNode节点,hdfs用于flink的checkpoint和savepoint 现象 看日志是说有个3个datanode活着,文件副本是1,但是写文件失败 There are 3 datanode(s) running and no node(s) are excluded 网上搜了一下这种报错,没有直接的答案,我看了下namenode的日志,没有更多直接的信息 50070 web ui上看一切正常,datanode的剩余空间都还有很多,使用率不到10% 我试了一下往hdfs上put一个文件再get下来,都ok,说明hdfs服务没有问题,datanode也是通的 日志现象1 继续前后翻了一下namenode的日志,注意到有一些warning信息, 这时候怀疑块放置策略有问题 按照日志提示打开相应的的debug开关 修改 etc/hadoop/log4j.properties 找到 log4j.logger.org