Flink是最接近于谷歌Dataflow大数据分析平台的设计的开源分布式计算引擎,其核心设计理念与Spark有很大的不同。
从设计出发点,Flink是一个流计算处理计算引擎,把批处理视为无限流计算的一种特例,Spark是批处理计算引擎,把流处理视为迷你批处理,因为设计上的差异,导致在对处理时延要求高的场景中,Flink更加合适。
从生态上来说,二者都有SQL、机器学习、图计算等基本的组件,但是Spark在丰富程度、成熟度方面比Flink有优势。
关于Flink的资料已经相当多了,笔者就不做画蛇添足写了,要掌握Flink的精妙,必须要了解其底层的基本原理,以下是必读的资料:
理解Flink的设计原则
Google Stream 101越了批处理的流处理世界
Google Stream 102超越了批处理的流处理世界
Flink原理和实现
Flink的架构和拓扑概览
理解 Flink 中的计算资源
Flink如何生成ExecutionGraph及物理执行图
Flink 生成StreamGraph
Flink Window的实现原理
Flink中的状态管理
Flink中的反压Back-Pressure
Flink Operator Chain原理
Flink内存管理
Flink异步快照机制-Failover
数据流的类型和操作
Flink Async IO(异步IO)
Flink SQL
Flink SQL的大部分代码实现是阿里巴巴的Blink团队贡献给Apache的。
Flink SQL 核心功能解密
Flink SQL维表Join和异步优化
Flink SQL 异步IO设计
Flink SQL数据去重的技巧和思考
Flink SQL TOP N的挑战与实现
Flink SQL 流计算“撤回(Retraction)”案例分析
Flink SQL 解决热点问题的大杀器MiniBatch
Flink Table API&SQL的概念和通用API
Flink CEP复杂事件处理
Flink-CEP论文与源码解读之状态与状态转换
Flink之CEP-API简介
Flink之CEP案例分析-网络攻击检测
Flink-CEP之NFA
Flink-CEP之NFA编译器
Flink-CEP之模式流与运算符
Flink事务
Flink Streaming Ledger 支持流式处理ACID事务!
Flink源码解析
Apache Flink源码解析 DataStream API
Flink Exactly Once语义
flink的两阶段提交协议-实现端到端的Exactly Once语义
Flink案例
Flink在唯品会的实践
Flink在美团的实践应用
Flink在G7的实践
Flink在饿了么的应用
基于Flink的实时特征平台在Flink的应用
未完待续!
来源:oschina
链接:https://my.oschina.net/u/2935389/blog/3022894