flume | 易学教程

2 安装部署flume

阅读更多关于 2 安装部署flume

本文对flume进行安装部署 flume是什么？传送门： https://www.cnblogs.com/zhqin/p/12230301.html 0、要安装部署在日志所在的服务器，或者把日志发送到日志所在的节点上安装前准备 1） Flume官网地址 http://flume.apache.org/ 2）文档查看地址 http://flume.apache.org/FlumeUserGuide.html 3）下载地址 http://archive.apache.org/dist/flume/ 1、将apache-flume-1.7.0-bin.tar.gz上传到linux的/opt/software目录下 2.解压apache-flume-1.7.0-bin.tar.gz到/opt/module/目录下 [crazycat@hadoop102 software]$ tar -zxf apache-flume-1.7.0-bin.tar.gz -C /opt/module/ 3.修改apache-flume-1.7.0-bin的名称为flume [crazycat@hadoop102 module]$ mv apache-flume-1.7.0-bin flume 4.将flume/conf下的flume-env.sh.template文件修改为flume-env.sh

Flume,Sqoop学习以及应用

阅读更多关于 Flume,Sqoop学习以及应用

目录 1.Flume是什么? 2.Flume如何搭建 3.Flume应用 4.Sqoop是什么？ 5.使用Sqoop将HBase数据计算并导入MySql 学习文档参考： http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html 1.Flume是什么? Flume简单概括就是一个收集日志的工具，它可以通过调用接口，RPC，还有网页的一些操作进行日志的收集。它是一个分布式开源的Java编写的由Apache维护的项目。 2.Flume如何搭建搭建前提条件 2.1下载并解压到指定目录崇尚授人以渔的思想，我说给大家怎么下载就行了，就不直接放连接了，大家可以直接输入官网地址 http://flume.apache.org ，一般在官网的上方或者左边都会有Download按钮，这个在左侧，然后点进去下载想要的版本即可。这个会有点慢，如果嫌弃的化，可以通过相关镜像网站进行下载，可以百度搜索软件镜像，就能搜到很多镜像网站，在里面就可以下载，如果你下载的东西属于Apache旗下的，可以看的有专门的一个Apache目录，里面存的都是Apache旗下相关产品。可以先本地下载，然后通过ftp上传，也可以直接在服务器下载。我这里下载好后，解压到了服务器/opt 目录下面，并修改了下目录名称为flume(你也可以不改

MySQL数据实时增量同步到Kafka - Flume

阅读更多关于 MySQL数据实时增量同步到Kafka - Flume

写在前面的话　　需求，将MySQL里的数据实时增量同步到Kafka。接到活儿的时候，第一个想法就是通过读取MySQL的binlog日志，将数据写到Kafka。不过对比了一些工具，例如：Canel，Databus，Puma等，这些都是需要部署server和client的。其中server端是由这些工具实现，配置了就可以读binlog，而client端是需要我们动手编写程序的，远没有达到我即插即用的期望和懒人的标准。　　再来看看flume，只需要写一个配置文件，就可以完成数据同步的操作。官网： http://flume.apache.org/FlumeUserGuide.html#flume-sources 。它的数据源默认是没有读取binlog日志实现的，也没有读数据库表的官方实现，只能用开源的自定义source： https://github.com/keedio/flume-ng-sql-source 同步的格式　　原作者的插件 flume-ng-sql-source 只支持csv的格式，如果开始同步之后，数据库表需要增减字段，则会给开发者造成很大的困扰。所以我添加了一个分支版本，用来将数据以JSON的格式，同步到kafka，字段语义更加清晰。　　sql-json插件包下载地址： https://github.com/yucy/flume-ng-sql-source

Flume高可用+断点续传

阅读更多关于 Flume高可用+断点续传

Flume高可用集群工欲善其事，必先利其器。感谢以下博主： https://www.cnblogs.com/qingyunzong/p/8994494.html https://blog.csdn.net/peng_0129/article/details/80793440 https://blog.csdn.net/suojie123/article/details/86577935 https://blog.csdn.net/kelong_xhu/article/details/42677045 https://blog.csdn.net/johnnychu/article/details/82780521 flume简介官网：http://flume.apache.org/ 打开官网【经翻译】 Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architecture based on streaming data flows. It is robust and fault tolerant

flume与kafka整合

阅读更多关于 flume与kafka整合

flume与kafka整合前提： flume安装和测试通过，可参考：http://www.cnblogs.com/rwxwsblog/p/5800300.html kafka安装和测试通过，可参考：http://www.cnblogs.com/rwxwsblog/p/5800224.html 在上诉条件满足的情况下才能进行flume和kafka的整合。 flume与kafka整合修改/usr/local/flume/conf/flume-conf.properties agent.sinks.s1.type = org.apache.flume.sink.kafka.KafkaSink agent.sinks.s1.topic = mytopic agent.sinks.s1.brokerList = localhost:9092 agent.sinks.s1.requiredAcks = 1 agent.sinks.s1.batchSize = 20 agent.sinks.s1.channel = c1 启动kafka 启动zookeeper /usr/local/kafka/bin/zookeeper-server-start.sh -daemon config/zookeeper.properties 启动kafka /usr/local/kafka/bin/kafka

flume的负载均衡load balancer

阅读更多关于 flume的负载均衡load balancer

负载均衡是用于解决一台机器(一个进程)无法解决所有请求而产生的一种算法。Load balancing Sink Processor 能够实现 load balance 功能，如下图Agent1 是一个路由节点，负责将 Channel 暂存的 Event 均衡到对应的多个 Sink组件上，而每个 Sink 组件分别连接到一个独立的 Agent 上，示例配置，如下所示：在此处我们通过三台机器来进行模拟flume的负载均衡三台机器规划如下： node01：采集数据，发送到node02和node03机器上去 node02：接收node01的部分数据 node03：接收node01的部分数据第一步：开发 node01 服务器的 flume 配置 node01服务器配置： cd /export/servers/apache-flume-1.6.0-cdh5.14.0-bin/conf vim load_banlancer_client.conf #agent name a1.channels = c1 a1.sources = r1 a1.sinks = k1 k2 #set gruop a1.sinkgroups = g1 #set sink group a1.sinkgroups.g1.sinks = k1 k2 #set sources a1.sources.r1.type

flume的配置详解

阅读更多关于 flume的配置详解

Flume： ===================== Flume是一种分布式的、可靠的、可用的服务，可以有效地收集、聚合和移动大量的日志数据。它有一个基于流数据的简单而灵活的体系结构。它具有健壮性和容错能力，具有可调的可靠性机制和许多故障转移和恢复机制。它使用一个简单的可扩展数据模型，允许在线分析应用程序。 source：源对channel而言，相当于生产者，通过接收各种格式数据发送给channel进行传输 channel：通道相当于数据缓冲区，接收source数据发送给sink sink：沉槽对channel而言，相当于消费者，通过接收channel数据通过指定数据类型发送到指定位置 Event： =============== flume传输基本单位： head + body flume安装： ================ 1、解压 2、符号链接 3、配置环境变量并使其生效 4、修改配置文件 1)重命名flume-env.ps1.template为flume-env.ps1 2)重命名flume-env.sh.template为flume-env.sh 3)修改flume-env.sh，配置jdk目录,添加 export JAVA_HOME=/soft/jdk 5、flume 查看版本 flume-ng version flume使用： ==========

Flume - Tiering data flows using the Avro Source and Sink [closed]

阅读更多关于 Flume - Tiering data flows using the Avro Source and Sink [closed]

问题 Closed. This question is off-topic. It is not currently accepting answers. Want to improve this question? Update the question so it's on-topic for Stack Overflow. Closed 2 years ago . I'm attempting to set up a simple tiered data flow using an Avro source/sink between two agents on different machines. The first agent on the vm-host-01 node (called "agent") has a netcat source, a memory channel, and an avro sink. The second agent on the vm-host-02 node (called "collector" has a avro source, a

大数据架构：flume-ng+Kafka+Storm+HDFS 实时系统组合

阅读更多关于大数据架构：flume-ng+Kafka+Storm+HDFS 实时系统组合

http://www.aboutyun.com/thread-6855-1-1.html 个人观点：大数据我们都知道hadoop，但并不都是hadoop.我们该如何构建大数据库项目。对于离线处理，hadoop还是比较适合的，但是对于实时性比较强的，数据量比较大的，我们可以采用Storm，那么Storm和什么技术搭配，才能够做一个适合自己的项目。下面给大家可以参考。可以带着下面问题来阅读本文章： 1.一个好的项目架构应该具备什么特点？ 2.本项目架构是如何保证数据准确性的？ 3.什么是Kafka？ 4.flume+kafka如何整合？ 5.使用什么脚本可以查看flume有没有往Kafka传输数据做软件开发的都知道模块化思想，这样设计的原因有两方面：一方面是可以模块化，功能划分更加清晰，从“数据采集--数据接入--流失计算--数据输出/存储” 1）.数据采集负责从各节点上实时采集数据，选用cloudera的flume来实现 2）.数据接入由于采集数据的速度和数据处理的速度不一定同步，因此添加一个消息中间件来作为缓冲，选用apache的kafka 3）.流式计算对采集到的数据进行实时分析，选用apache的storm 4）.数据输出对分析后的结果持久化，暂定用mysql 另一方面是模块化之后，假如当Storm挂掉了之后，数据采集和数据接入还是继续在跑着，数据不会丢失

大数据学习之 Flume + kafka + SparkStreaming

阅读更多关于大数据学习之 Flume + kafka + SparkStreaming

1.搭建Kafka 环境：可参考 https://blog.csdn.net/weixin_37835915/article/details/103786157 （1）启动zookeeper （2）启动kafka （3）创建topic （4）启动Consumer 2. 搭建Flume 环境： http://www.apache.org/dyn/closer.lua/flume/1.9.0/apache-flume-1.9.0-bin.tar.gz （1）解压在conf文件夹下面添加example.conf 文件文件内容如下： # 定义这个agent中各组件的名字 a1 就是agent得名字 a1.sources = r1 a1.sinks = k1 a1.channels = c1 # 描述和配置source组件：r1 a1.sources.r1.type = netcat a1.sources.r1.bind = localhost a1.sources.r1.port = 44444 # 描述和配置sink组件：k1 a1.sinks.k1.channel = c1 a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink a1.sinks.k1.kafka.topic = flume a1.sinks.k1

订阅 flume