flume | 易学教程

flume的配置和开启

阅读更多关于 flume的配置和开启

配置文件：编辑 flume-conf.properties agent1.sources=source1 agent1.sinks=sink1 agent1.channels=channel1 agent1.sources.source1.type=spooldir agent1.sources.source1.spoolDir=/usr/local/flume_logs agent1.sources.source1.channels=channel1 agent1.sources.source1.fileHeader = false agent1.sources.source1.interceptors = i1 agent1.sources.source1.interceptors.i1.type = timestamp agent1.channels.channel1.type=file agent1.channels.channel1.checkpointDir=/usr/local/flume_logs_tmp_cp agent1.channels.channel1.dataDirs=/usr/local/flume_logs_tmp agent1.sinks.sink1.type=hdfs agent1.sinks.sink1.hdfs.path=hdfs:/

Flume技术原理

阅读更多关于 Flume技术原理

Flume是开源日志系统。是一个分布式、可靠性和高可用的海量日志聚合系统，支持在系统中定制各类数据发送方，用于收集数据；同时，FLume提供对数据进行简单处理，并写到各种数据接收方（可定制）的能力。 Flume是流式日志采集工具，FLume提供对数据进行简单处理并且写到各种数据接收方（可定制）的能力，Flume提供从本地文件（spooling directory source）、实时日志（taildir、exec）、REST消息、Thift、Avro、Syslog、Kafka等数据源上收集数据的能力。提供从固定目录下采集日志信息到目的地（HDFS，HBase，Kafka）能力。提供实时采集日志信息（taidir）到目的地的能力。 FLume支持级联（多个Flume对接起来），合并数据的能力。 Flume支持按照用户定制采集数据的能力。图：Flume在FusionInsight中的位置 Flume是收集、聚合事件流数据的分布式框架。图：Flume基础架构图 Flume基础架构：Flume可以单节点直接采集数据，主要应用于集群内数据。图：Flume多agent架构 Flume多agent架构：Flume可以将多个节点连接起来，将最初的数据源经过收集，存储到最终的存储系统中。主要应用于集群外的数据导入到集群内。图：Flume架构图各组件具体介绍如下： events

写给大数据开发初学者的话 | 附教程

阅读更多关于写给大数据开发初学者的话 | 附教程

导读：第一章：初识 Hadoop 第二章：更高效的WordCount 第三章：把别处的数据搞到Hadoop上第四章：把Hadoop上的数据搞到别处去第五章：快一点吧，我的SQL 第六章：一夫多妻制第七章：越来越多的分析任务第八章：我的数据要实时第九章：我的数据要对外第十章：牛逼高大上的机器学习经常有初学者在博客和QQ问我，自己想往大数据方向发展，该学哪些技术，学习路线是什么样的，觉得大数据很火，就业很好，薪资很高。如果自己很迷茫，为了这些原因想往大数据方向发展，也可以，那么我就想问一下，你的专业是什么，对于计算机/软件，你的兴趣是什么？是计算机专业，对操作系统、硬件、网络、服务器感兴趣？是软件专业，对软件开发、编程、写代码感兴趣？还是数学、统计学专业，对数据和数字特别感兴趣。。其实这就是想告诉你的大数据的三个发展方向，平台搭建/优化/运维/监控、大数据开发/设计/架构、数据分析/挖掘。请不要问我哪个容易，哪个前景好，哪个钱多。先扯一下大数据的4V特征：数据量大，TB->PB 数据类型繁多，结构化、非结构化文本、日志、视频、图片、地理位置等；商业价值高，但是这种价值需要在海量数据之上，通过数据分析与机器学习更快速的挖掘出来；处理时效性高，海量数据的处理需求不再局限在离线计算当中。现如今，正式为了应对大数据的这几个特点，开源的大数据框架越来越多

Flume介绍

阅读更多关于 Flume介绍

Flume 介绍 Flume是什么是一个分布式的高效的海量日志数据收集工具。是一个分布式、可靠、可用的高效的日志数据收集、聚合、移动的工具。 Hadoop总体的业务流程特点以及优势 Fulme可以将数据存储到任何集中的存储器中，比如HDFS、HBase 可以对数据生产者和数据接收容器之间做个均衡，保证二者的平衡。 Flume的管道是基于事务的，保证了数据在传输和接收时的一致性。 Flume是可靠的、容错性高的、可升级的、易管理的并且可定制的。为什么用Flume 问：要将公司收集到的本地数据上传到HDFS上(后面的过程先不论)，而这个数据可能是很大的。我们可以怎么做？答：能等数据都准备好了，然后我们put上我们的HDFS上问：如果好多数据是不需要的,我们只要我们需要的那一部分？或者我们需要对数据进行某种格式化处理？答：那我们手写一个MR程序自定义一个InputFormat。用MR来读数据然后Map阶段处理一下再写入HDFS? 问：那如果数据量太大(爬虫残生)？没法等数据都准备好再存HDFS上呢？或者这些数据我需要很快的让web页面展示出来，怎么处理呢？答：。。。？工作原理数据流模型 Event(封装数据的对象) 官网这样介绍Event: An Event is a unit of data that flows through a Flume agent. The

flume之多source配置

阅读更多关于 flume之多source配置

# Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional information # regarding copyright ownership. The ASF licenses this file # to you under the Apache License, Version 2.0 (the # "License"); you may not use this file except in compliance # with the License. You may obtain a copy of the License at # # http://www.apache.org/licenses/LICENSE-2.0 # # Unless required by applicable law or agreed to in writing, # software distributed under the License is distributed on an # "AS IS" BASIS,

Flume实现扇出流动

阅读更多关于 Flume实现扇出流动

flume扇出流动的过程实现过程首先准备三台机器：hadoop01,hadoop02,hadoop03 (我在三台机器上已配置好hosts) 然后每台机器上配置Agent 配置hadoop01 配置hadoop02和hadoop03一样配置完了后，首先启动hadoop02和hadoop03上的Agent flume-ng agent -n a1 -c /usr/flume/conf -f ./fan-out.conf -Dflume.root.logger=INFO,console 我已经配置好了flume的环境变量，所以直接调用flume-ng命令,如下参数说明 -n agent名称 -c flume配置文件的的路径 -f 我们创建的fan-out.conf（配置Agent）文件的路径两台机器执行命令后控制台都回看到如下信息然后在hadoop01机器上也启动flume flume-ng agent -n a1 -c /usr/flume/conf -f ./fan-out.conf -Dflume.root.logger=INFO,console 成功连接会显示如下信息都启动成功了，可以打开另一个hadoop01客户端执行：nc hadoop01 44444 可以发送事件打开hadoop02和hadoop03可以看到已经收到事件来源：博客园作者：

Flume多对一，一个telnet 监听端口,一个监听文件,sink 到 hdfs

阅读更多关于 Flume多对一，一个telnet 监听端口,一个监听文件,sink 到 hdfs

flume11.conf #agent a1.sources = r1 a1.sinks = k1 a1.channels = c1 # 2 source a1.sources.r1.type = exec a1.sources.r1.command = tail -F /opt/Andy a1.sources.r1.shell = /bin/bash -c # 3 sink a1.sinks.k1.type = avro a1.sinks.k1.hostname = bigdata121 a1.sinks.k1.port = 4141 # 4 channel a1.channels.c1.type = memory a1.channels.c1.capacity = 1000 a1.channels.c1.transactionCapacity = 100 # 5. Bind a1.sources.r1.channels = c1 a1.sinks.k1.channel = c1 flume22.conf #agent a2.sources = r1 a2.sinks = k1 a2.channels = c1 # 2 source a2.sources.r1.type = netcat a2.sources.r1.bind = bigdata121 a2.sources.r1

Flume实战案例运维篇

阅读更多关于 Flume实战案例运维篇

　　　　　　　　　　　　　　Flume实战案例运维篇　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　作者：尹正杰版权声明：原创作品，谢绝转载！否则将追究法律责任。一.Flume概述 1>.什么是Flume 　　Flume是一个分布式、可靠、高可用的海量日志聚合系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接收方。　　　　官方地址：http://flume.apache.org/。 2>.Flume特性（1）高可靠性　　　　Flume提供了end to end的数据可靠性机制（2）易于扩展　　　　Agent为分布式架构，可水平扩展（3）易于恢复　　　　Channel中保存了与数据源有关的事件，用于失败时的恢复（4）功能丰富　　　　Flume内置了多种组件，包括不同数据源和不同存储方式 3>.Flume常用组件（1）Source：　　　　数据源，简单的说就是agent获取数据的入口。（2）Channel：　　　　管道，数据流通和存储的通道。一个source必须至少和一个channel关联。（3）Sink：　　　　用来接收channel传输的数据并将之传送到指定的地方，成功后从channel中删除。 4>.Flume架构二. 三.

flume-ng 1.5.0安装部署

阅读更多关于 flume-ng 1.5.0安装部署

1.安装环境：jdk1.7 ,flume-ng-1.5.0.tar.gz 2.解压 flume-ng-1.5.0.tar.gz tar zxf flume-ng-1.5.0.tar.gz 3. 修改flume配置，指定JAVA_HOME,FLUME_HOME vi flume-env.sh JAVA_HOME=/usr/java/jdk1.7.0_71 vi ~/.bashrc export FLUME_HOME=/data0/apache-flume-1.5.0-bin export PATH=$PATH:$FLUME_HOME/bin source ~/.bashrc 4.编辑配置文件，监控指定文件，收集到控制台输出 vi exec.conf a1.sources = r1 a1.sinks = k1 a1.channels = c1 # For each one of the sources, the type is defined a1.sources.r1.type = exec a1.sources.r1.shell = /bin/bash -c a1.sources.r1.command = tail -F /data0/1.log a1.channels.c1.type = memory #a1.channels.c1.checkpointDir=/home

flume项目经验

阅读更多关于 flume项目经验

1、Flume内存参数设置及优化 ERROR hdfs.HDFSEventSink: process failed java.lang.OutOfMemoryError: GC overhead limit exceeded （1）在hadoop102服务器的/opt/module/flume/conf/flume-env.sh文件中增加如下配置 export JAVA_OPTS="-Xms100m -Xmx2000m -Dcom.sun.management.jmxremote" （2）同步配置到hadoop103、hadoop104服务器 [yang@hadoop102 conf]$ xsync flume-env.sh JVM heap一般设置为4G或更高，部署在单独的服务器上（4核8线程16G内存） -Xmx与-Xms最好设置一致，减少内存抖动带来的性能影响，如果设置不一致容易导致频繁fullgc。 2、file channel优化 3、flume采集数据会丢失吗数据传输本身有两个事务来维护数据不丢失，channel可以选择file channel 把数据存储在文件系统中文章来源: https://blog.csdn.net/qq_34897849/article/details/91399842

订阅 flume