Flink基础之为什么选择Flink
目录 前言: 1、连续事件处理的目标 2、流处理技术的演变 Lambda 架构概述:优势和局限性 3、初探Flink 批处理与流处理 4、为什么选择Flink 前言: 我们渴望按照流的方式处理数据,但要做好很困难;随着大规模数据在各行各业中出现,难度越来越大。这是一个属于物理学范畴的难题:在大型 分布式系统中,数据一致性和对事件发生顺序的理解必然都是有限的。伴随着方法和技术的演化,我们尽可能使这种局限性不危及商业目标和运营目标。 在这样的背景下, Apache Flink (以下简称 Flink )应运而生。作为在公共社 区中诞生的开源软件,Flink 为大容量数据提供流处理,并用同一种技术实现批处理。 1、连续事件处理的目标 能够以非常低的延迟处理数据,这并不是流处理的唯一优势。人们希望流 处理不仅做到低延迟和高吞吐,还可以处理中断。优秀的流处理技术应该 能使系统在崩溃之后重新启动,并且产出准确的结果;换句话说,优秀的 流处理技术可以容错,而且能保证 exactly-once 2 。 与此同时,获得这种程度的容错性所采用的技术还需要在没有数据错误的 情况下不产生太大的开销。这种技术需要能够基于事件发生的时间(而不是随意地设置处理间隔)来保证按照正确的顺序跟踪事件。对于开发人员而言,不论是写代码还是修正错误,系统都要容易操作和维护。同样重要的是