网站日志流量分析系统之数据清洗处理(离线分析)
一、概述    网站日志流量分析系统之(日志埋点) 这里我们已经将相关数据通过ajax发送至日志服务器,这里我只用了一台日志服务器(本机Windows环境),日志收集主要分为以下几个步骤:   ①日志服务器集结合logback,并自定义日志过滤器,将日志发给对应FlumeAgent客户端   ②FlumeAgent客户端根据接收器策略分发至中心服务器   ③中心服务器将数据分别落地至HDFS及Kafka(这里先做 离线分析 ,中心服务器落地HDFS;实时分析中心服务器的Flume策略暂时不加,后续实时分析时加上) 二、服务器规划 三、日志收集实现 ①日志服务器结合logback,并自定义日志过滤器,将日志发送至FlumeAgent客户端   继续编写日志服务器代码(代码已经上传Github: https://github.com/Simple-Coder/log-demo ),增加logback.xml配置如下: <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE configuration> <configuration> <appender name="consoleAppender" class="ch.qos.logback.core.ConsoleAppender"> <encoder> <pattern>%d{yyy