日志实时收集之FileBeat+Kafka

之前，我们的某一个业务用于实时日志收集处理的架构大概是这样的：

在日志的产生端（LogServer服务器），都部署了FlumeAgent，实时监控产生的日志，然后发送至Kafka。经过观察，每一个FlumeAgent都占用了较大的系统资源（至少会占用一颗CPU 50%以上的资源）。而另外一个业务，LogServer压力大，CPU资源尤其紧张，如果要实时收集分析日志，那么就需要一个更轻量级、占用资源更少的日志收集框架，于是我试用了一下Filebeat。

Filebeat是一个开源的文本日志收集器，采用go语言开发，它重构了logstash采集器源码，安装在日志产生服务器上来监视日志目录或者特定的日志文件，并把他们发送到logstash、elasticsearch以及kafka上。Filebeat是代替logstash-forwarder的数据采集方案，原因是logstash运行在jvm上，对服务器的资源消耗比较大（Flume也是如此）。正因为Filebeat如此轻量级，因此不要奢望它能在日志收集过程中做更多清洗和转换的工作，它只负责一件事，就是高效可靠的传输日志数据，至于清洗和转换，可以在后续的过程中进行。

Filebeat官网地址为：https://www.elastic.co/guide/en/beats/filebeat/current/index.html 你可以在该地址中下载Filebeat和查看文档。

Filebeat安装配置

Filebeat的安装和配置非常简单。

下载filebeat-5.6.3-linux-x86_64.tar.gz，并解压。

进入filebeat-5.6.3-linux-x86_64目录，编辑配置文件filebeat.yml

配置input，监控日志文件：

filebeat.prospectors:

- input_type: log

paths:

- /data/dmp/openresty/logs/dmp_intf_*.log

配置output到Kafka

#—————————– Kafka output ——————————–