(二)数据采集——Flume
文章目录 一、Flume概述 1. 引言 2. 数据源 二、Flume架构 1. 架构图 2. 组件及其功能 3. Flume运行流程 4. Flume核心组件 Source Channel Sink 三、Flume安装 1. 运行环境 2. 安装步骤 四、Flume使用入门 1. 配置文件 2. 启动Flume 五、Flume和log4j集成 1. 依赖 2. 配置日志文件 3. 配置flume配置文件 4. 启动运行 5. 查看结果 六、多级数据采集结构 1. 多级串联 2. 多级数据采集结构 一、Flume概述 1. 引言 Flume是一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统,可用于从不同来源的系统中采集、汇总和传输大容量的日志数据到指定的数据存储中。 2. 数据源 Flume的采集源包括:console、avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy等。 二、Flume架构 1. 架构图 2. 组件及其功能 组件 功能 Source 从Client收集数据,传递给Channel。不同的Source可以接受不同的数据格式 Channel 是一个存储池,连接 sources 和 sinks