Flume+Kafka+SparkStreaming整合

Flume+Kafka+SparkStreaming 最新最全整合

泪湿孤枕 提交于 2019-12-18 11:39:33
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 1.架构 第一步,Flume和Kakfa对接,Flume抓取日志,写到Kafka中 第二部,Spark Streaming读取Kafka中的数据,进行实时分析 本文首先使用Kakfa自带的消息处理(脚本)来获取消息,走通Flume和Kafka的对接 2.安装flume,kafka flume install: http://my.oschina.net/u/192561/blog/692225 kafka install: http://my.oschina.net/u/192561/blog/692357 3.Flume和Kafka整合 3.1 两者整合优势 Flume更倾向于数据传输本身,Kakfa是典型的消息中间件用于解耦生产者消费者。 具体架构上,Agent并没把数据直接发送到Kafka,在Kafka前面有层由Flume构成的forward。这样做有两个原因: Kafka的API对非JVM系的语言支持很不友好,forward对外提供更加通用的HTTP接口。forward层可以做路由、Kafka topic和Kafkapartition key等逻辑,进一步减少Agent端的逻辑。 数据有数据源到flume再到Kafka时,数据一方面可以同步到HDFS做离线计算,另一方面可以做实时计算