Flink系列之Metrics
Flink是一个针对流数据和批处理的分布式处理引擎,近两年才真正的频繁出现在数据处理领域 。其实Flink在2014年就已经成为ASF(Apache Software Foundation)的顶级项目之一,也许之前是被spark掩盖了光芒,spark在数据处理上的优势不可否认,但是个人经过对spark和flink的源码研读和项目实战后,更偏爱flink一些。在实时计算方面,相对于spark的微批处理(micro batch),flink的数据处理方式更真正称得上流处理,不久前release的spark 2.3目前也已经提供了类似flink流处理的方式,但是目前还没有经过大型互联网公司的实战验证,不知道其线上表现如何,我们可以拭目以待;除了流处理的方式以外,flink在内存管理,网络传输方面也很有其独特之处,另外spark SQL和flink SQL相比,在代码层面上,flink做了简单的封装后直接利用了calcite的API,让SQL变的不再那么的神秘,更便于我们自定义语义,定制我们自己的SQL语句;Flink基于其状态机制提供的CEP(Complex Event Processing)Library可以让我们在流处理过程匹配出我们定义的事件组合。这些我之后都会在flink系列里一一做其原理说明和代码解读。 回到此篇文章的标题:flink-metrics