flume

flume的配置和开启

匿名 (未验证) 提交于 2019-12-03 00:26:01
配置文件: 编辑 flume-conf.properties agent1.sources=source1 agent1.sinks=sink1 agent1.channels=channel1 agent1.sources.source1.type=spooldir agent1.sources.source1.spoolDir=/usr/local/flume_logs agent1.sources.source1.channels=channel1 agent1.sources.source1.fileHeader = false agent1.sources.source1.interceptors = i1 agent1.sources.source1.interceptors.i1.type = timestamp agent1.channels.channel1.type=file agent1.channels.channel1.checkpointDir=/usr/local/flume_logs_tmp_cp agent1.channels.channel1.dataDirs=/usr/local/flume_logs_tmp agent1.sinks.sink1.type=hdfs agent1.sinks.sink1.hdfs.path=hdfs:/

Flume技术原理

匿名 (未验证) 提交于 2019-12-03 00:22:01
Flume是开源日志系统。是一个分布式、可靠性和高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集数据;同时,FLume提供对数据进行简单处理,并写到各种数据接收方(可定制)的能力。 Flume是流式日志采集工具,FLume提供对数据进行简单处理并且写到各种数据接收方(可定制)的能力,Flume提供从本地文件(spooling directory source)、实时日志(taildir、exec)、REST消息、Thift、Avro、Syslog、Kafka等数据源上收集数据的能力。 提供从固定目录下采集日志信息到目的地(HDFS,HBase,Kafka)能力。 提供实时采集日志信息(taidir)到目的地的能力。 FLume支持级联(多个Flume对接起来),合并数据的能力。 Flume支持按照用户定制采集数据的能力。 图:Flume在FusionInsight中的位置 Flume是收集、聚合事件流数据的分布式框架。 图:Flume基础架构图 Flume基础架构:Flume可以单节点直接采集数据,主要应用于集群内数据。 图:Flume多agent架构 Flume多agent架构:Flume可以将多个节点连接起来,将最初的数据源经过收集,存储到最终的存储系统中。主要应用于集群外的数据导入到集群内。 图:Flume架构图 各组件具体介绍如下: events

写给大数据开发初学者的话 | 附教程

匿名 (未验证) 提交于 2019-12-03 00:22:01
导读: 第一章:初识 Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hadoop上 第四章:把Hadoop上的数据搞到别处去 第五章:快一点吧,我的SQL 第六章:一夫多妻制 第七章:越来越多的分析任务 第八章:我的数据要实时 第九章:我的数据要对外 第十章:牛逼高大上的机器学习 经常有初学者在博客和QQ问我,自己想往 大数据 方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高。如果自己很迷茫,为了这些原因想往大数据方向发展,也可以,那么我就想问一下,你的专业是什么,对于计算机/软件,你的兴趣是什么?是计算机专业,对操作系统、硬件、网络、服务器感兴趣?是软件专业,对软件开发、编程、写代码感兴趣?还是数学、统计学专业,对数据和数字特别感兴趣。。 其实这就是想告诉你的大数据的三个发展方向,平台搭建/优化/运维/监控、大数据开发/设计/架构、数据分析/挖掘。请不要问我哪个容易,哪个前景好,哪个钱多。 先扯一下大数据的4V特征: 数据量大,TB->PB 数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等; 商业价值高,但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖掘出来; 处理时效性高,海量数据的处理需求不再局限在离线计算当中。 现如今,正式为了应对大数据的这几个特点,开源的 大数据框架 越来越多

Flume介绍

匿名 (未验证) 提交于 2019-12-03 00:05:01
Flume 介绍 Flume是什么 是一个分布式的高效的海量日志数据收集工具。 是一个分布式、可靠、可用的高效的日志数据收集、聚合、移动的工具。 Hadoop总体的业务流程 特点以及优势 Fulme可以将数据存储到任何集中的存储器中,比如HDFS、HBase 可以对数据生产者和数据接收容器之间做个均衡,保证二者的平衡。 Flume的管道是基于事务的,保证了数据在传输和接收时的一致性。 Flume是可靠的、容错性高的、可升级的、易管理的并且可定制的。 为什么用Flume 问:要将公司收集到的本地数据上传到HDFS上(后面的过程先不论),而这个数据可能是很大的。我们可以怎么做? 答:能等数据都准备好了,然后我们put上我们的HDFS上 问:如果好多数据是不需要的,我们只要我们需要的那一部分?或者我们需要对数据进行某种格式化处理? 答:那我们手写一个MR程序自定义一个InputFormat。用MR来读数据然后Map阶段处理一下再写入HDFS? 问:那如果数据量太大(爬虫残生)?没法等数据都准备好再存HDFS上呢?或者这些数据我需要很快的让web页面展示出来,怎么处理呢? 答:。。。? 工作原理 数据流模型 Event(封装数据的对象) 官网这样介绍Event: An Event is a unit of data that flows through a Flume agent. The

flume之多source配置

匿名 (未验证) 提交于 2019-12-03 00:03:02
# Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional information # regarding copyright ownership. The ASF licenses this file # to you under the Apache License, Version 2.0 (the # "License"); you may not use this file except in compliance # with the License. You may obtain a copy of the License at # # http://www.apache.org/licenses/LICENSE-2.0 # # Unless required by applicable law or agreed to in writing, # software distributed under the License is distributed on an # "AS IS" BASIS,

Flume实现扇出流动

匿名 (未验证) 提交于 2019-12-03 00:02:01
flume扇出流动的过程 实现过程 首先准备三台机器:hadoop01,hadoop02,hadoop03 (我在三台机器上已配置好hosts) 然后每台机器上配置Agent 配置hadoop01 配置hadoop02和hadoop03一样 配置完了后,首先启动hadoop02和hadoop03上的Agent flume-ng agent -n a1 -c /usr/flume/conf -f ./fan-out.conf -Dflume.root.logger=INFO,console 我已经配置好了flume的环境变量,所以直接调用flume-ng命令,如下参数说明 -n agent名称 -c flume配置文件的的路径 -f 我们创建的fan-out.conf(配置Agent)文件的路径 两台机器执行命令后控制台都回看到如下信息 然后在hadoop01机器上也启动flume flume-ng agent -n a1 -c /usr/flume/conf -f ./fan-out.conf -Dflume.root.logger=INFO,console 成功连接会显示如下信息 都启动成功了,可以打开另一个hadoop01客户端执行:nc hadoop01 44444 可以发送事件 打开hadoop02和hadoop03可以看到已经收到事件 来源:博客园 作者:

Flume多对一,一个telnet 监听端口,一个监听文件,sink 到 hdfs

匿名 (未验证) 提交于 2019-12-02 23:57:01
flume11.conf #agent a1.sources = r1 a1.sinks = k1 a1.channels = c1 # 2 source a1.sources.r1.type = exec a1.sources.r1.command = tail -F /opt/Andy a1.sources.r1.shell = /bin/bash -c # 3 sink a1.sinks.k1.type = avro a1.sinks.k1.hostname = bigdata121 a1.sinks.k1.port = 4141 # 4 channel a1.channels.c1.type = memory a1.channels.c1.capacity = 1000 a1.channels.c1.transactionCapacity = 100 # 5. Bind a1.sources.r1.channels = c1 a1.sinks.k1.channel = c1 flume22.conf #agent a2.sources = r1 a2.sinks = k1 a2.channels = c1 # 2 source a2.sources.r1.type = netcat a2.sources.r1.bind = bigdata121 a2.sources.r1

Flume实战案例运维篇

匿名 (未验证) 提交于 2019-12-02 23:48:02
               Flume实战案例运维篇                                            作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.Flume概述 1>.什么是Flume   Flume是一个分布式、可靠、高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接收方。     官方地址:http://flume.apache.org/。 2>.Flume特性 (1)高可靠性     Flume提供了end to end的数据可靠性机制 (2)易于扩展     Agent为分布式架构,可水平扩展 (3)易于恢复     Channel中保存了与数据源有关的事件,用于失败时的恢复 (4)功能丰富     Flume内置了多种组件,包括不同数据源和不同存储方式 3>.Flume常用组件 (1)Source:     数据源,简单的说就是agent获取数据的入口。 (2)Channel:     管道,数据流通和存储的通道。一个source必须至少和一个channel关联。 (3)Sink:     用来接收channel传输的数据并将之传送到指定的地方,成功后从channel中删除。 4>.Flume架构 二. 三.

flume-ng 1.5.0安装部署

走远了吗. 提交于 2019-12-02 23:46:27
1.安装环境:jdk1.7 ,flume-ng-1.5.0.tar.gz 2.解压 flume-ng-1.5.0.tar.gz tar zxf flume-ng-1.5.0.tar.gz 3. 修改flume配置,指定JAVA_HOME,FLUME_HOME vi flume-env.sh JAVA_HOME=/usr/java/jdk1.7.0_71 vi ~/.bashrc export FLUME_HOME=/data0/apache-flume-1.5.0-bin export PATH=$PATH:$FLUME_HOME/bin source ~/.bashrc 4.编辑配置文件,监控指定文件,收集到控制台输出 vi exec.conf a1.sources = r1 a1.sinks = k1 a1.channels = c1 # For each one of the sources, the type is defined a1.sources.r1.type = exec a1.sources.r1.shell = /bin/bash -c a1.sources.r1.command = tail -F /data0/1.log a1.channels.c1.type = memory #a1.channels.c1.checkpointDir=/home

flume项目经验

匿名 (未验证) 提交于 2019-12-02 23:39:01
1、Flume内存参数设置及优化 ERROR hdfs.HDFSEventSink: process failed java.lang.OutOfMemoryError: GC overhead limit exceeded (1)在hadoop102服务器的/opt/module/flume/conf/flume-env.sh文件中增加如下配置 export JAVA_OPTS="-Xms100m -Xmx2000m -Dcom.sun.management.jmxremote" (2)同步配置到hadoop103、hadoop104服务器 [yang@hadoop102 conf]$ xsync flume-env.sh JVM heap一般设置为4G或更高,部署在单独的服务器上(4核8线程16G内存) -Xmx与-Xms最好设置一致,减少内存抖动带来的性能影响,如果设置不一致容易导致频繁fullgc。 2、file channel优化 3、flume采集数据会丢失吗 数据传输本身有两个事务来维护数据不丢失,channel可以选择file channel 把数据存储在文件系统中 文章来源: https://blog.csdn.net/qq_34897849/article/details/91399842