最简单流处理引擎——Kafka Streams简介
Kafka在0.10.0.0版本以前的定位是分布式,分区化的,带备份机制的日志提交服务。而kafka在这之前也没有提供数据处理的顾服务。大家的流处理计算主要是还是依赖于Storm,Spark Streaming,Flink等流式处理框架。 Storm,Spark Streaming,Flink流处理的三驾马车各有各的优势. Storm低延迟,并且在市场中占有一定的地位,目前很多公司仍在使用。 Spark Streaming借助Spark的体系优势,活跃的社区,也占有一定的份额。 而Flink在设计上更贴近流处理,并且有便捷的API,未来一定很有发展。 但是他们都离不开Kafka的消息中转,所以Kafka于0.10.0.0版本推出了自己的流处理框架,Kafka Streams。Kafka的定位也正式成为Apache Kafka® is *a distributed streaming platform,*分布式流处理平台。 实时流式计算 近几年来实时流式计算发展迅速,主要原因是实时数据的价值和对于数据处理架构体系的影响。实时流式计算包含了 无界数据 近实时 一致性 可重复结果 等等特征。 a type of data processing engine that is designed with infinite data sets in mind 一种考虑了无线数据集的数据处理引擎