Flume入门学习
一、概述 ①Flume最早是由Cloudera提供的 日志收集系统 ,后贡献给apache。 ②Flume是一个高可用、高可靠、健壮性,分布式的海量日志采集、聚合和传输的系统。 ③Flume支持在日志系统中定制各类数据发送方,用于收集数据(source)。 ④Flume提供对数据进行简单处理,并写到各种数据接收方(可定制)的能力(sink)。 二、版本历史 ①Flume0.9X:又称Flume-og,老版本的flume,需要引入zookeeper集群管理,性能比较低(单线程工作)。 ②Flume1.X:又称Flume-ng,新版本的flume,需要引入zookeeper,和flume-og不兼容。 三、Flume特性 ①可靠性:事务型的数据传递,保证数据的可靠性。一个日志交给flume来处理,不会出现日志丢失或未被处理的情况。 ②可恢复性:通道可以以内存或文件的方式实现,内存更快,但不可恢复。文件方式较慢但提供了可恢复性。 四、Flume的总体架构 Flume的apache官网地址: http://flume.apache.org/ (1)event事件 ① Flume的核心: 把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的地(sink)。为了保证输送的数据一定成功,在送到目的地之前,会缓存数据(Channel)