Kafka
Kafka 入门 什么是 Kafka kafka最初是 LinkedIn 的一个内部基础设施系统。最初开发的起因是, LinkedIn虽然有了数据库和其他系统可以用来存储数据,但是缺乏一个可以帮助处理持续数据流的组件。所以在设计理念上,开发者不想只是开发一个能够存储数据的系统,如关系数据库、Nosql 数据库、搜索引擎等等,更希望把数据看成一个持续变化和不断增长的流,并基于这样的想法构建出一个数据系统,一个数据架构。 Kafka外在表现很像消息系统,允许发布和订阅消息流,但是它和传统的消息系统有很大的差异, 首先,Kafka 是个现代分布式系统,以集群的方式运行,可以自由伸缩。 其次,Kafka 可以按照要求存储数据,保存多久都可以, 第三,流式处理将数据处理的层次提示到了新高度,消息系统只会传递数据,Kafka 的流式处理能力可以让我们用很少的代码就能动态地处理派生流和数据集。所以 Kafka 不仅仅是个消息中间件。 Kafka不仅仅是一个消息中间件,同时它是一个流平台,这个平台上可以发布和订阅数据流(Kafka 的流,有一个单独的包 Stream 的处理),并把他们保存起来,进行处理,这个是 Kafka作者的设计理念。 大数据领域,Kafka 还可以看成实时版的 Hadoop,但是还是有些区别,Hadoop 可以存储和定期处理大量的数据文件,往往以 TB 计数,而