flume

2 安装部署flume

妖精的绣舞 提交于 2020-01-23 12:18:54
本文对flume进行安装部署 flume是什么?传送门: https://www.cnblogs.com/zhqin/p/12230301.html 0、要安装部署在日志所在的服务器,或者把日志发送到日志所在的节点上 安装前准备 1) Flume官网地址 http://flume.apache.org/ 2)文档查看地址 http://flume.apache.org/FlumeUserGuide.html 3)下载地址 http://archive.apache.org/dist/flume/ 1、将apache-flume-1.7.0-bin.tar.gz上传到linux的/opt/software目录下 2.解压apache-flume-1.7.0-bin.tar.gz到/opt/module/目录下 [crazycat@hadoop102 software]$ tar -zxf apache-flume-1.7.0-bin.tar.gz -C /opt/module/ 3.修改apache-flume-1.7.0-bin的名称为flume [crazycat@hadoop102 module]$ mv apache-flume-1.7.0-bin flume 4.将flume/conf下的flume-env.sh.template文件修改为flume-env.sh

Flume,Sqoop学习以及应用

依然范特西╮ 提交于 2020-01-22 10:17:51
目录 1.Flume是什么? 2.Flume如何搭建 3.Flume应用 4.Sqoop是什么? 5.使用Sqoop将HBase数据计算并导入MySql 学习文档参考: http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html 1.Flume是什么? Flume简单概括就是一个收集日志的工具,它可以通过调用接口,RPC,还有网页的一些操作进行日志的收集。它是一个分布式开源的Java编写的由Apache维护的项目。 2.Flume如何搭建 搭建前提条件 2.1下载并解压到指定目录 崇尚授人以渔的思想,我说给大家怎么下载就行了,就不直接放连接了,大家可以直接输入官网地址 http://flume.apache.org ,一般在官网的上方或者左边都会有Download按钮,这个在左侧,然后点进去下载想要的版本即可。 这个会有点慢,如果嫌弃的化,可以通过相关镜像网站进行下载,可以百度搜索软件镜像,就能搜到很多镜像网站,在里面就可以下载,如果你下载的东西属于Apache旗下的,可以看的有专门的一个Apache目录,里面存的都是Apache旗下相关产品。 可以先本地下载,然后通过ftp上传,也可以直接在服务器下载。 我这里下载好后,解压到了服务器/opt 目录下面,并修改了下目录名称为flume(你也可以不改

MySQL数据实时增量同步到Kafka - Flume

依然范特西╮ 提交于 2020-01-20 10:25:02
写在前面的话   需求,将MySQL里的数据实时增量同步到Kafka。接到活儿的时候,第一个想法就是通过读取MySQL的binlog日志,将数据写到Kafka。不过对比了一些工具,例如:Canel,Databus,Puma等,这些都是需要部署server和client的。其中server端是由这些工具实现,配置了就可以读binlog,而client端是需要我们动手编写程序的,远没有达到我即插即用的期望和懒人的标准。   再来看看flume,只需要写一个配置文件,就可以完成数据同步的操作。官网: http://flume.apache.org/FlumeUserGuide.html#flume-sources 。它的数据源默认是没有读取binlog日志实现的,也没有读数据库表的官方实现,只能用开源的自定义source: https://github.com/keedio/flume-ng-sql-source 同步的格式   原作者的插件 flume-ng-sql-source 只支持csv的格式,如果开始同步之后,数据库表需要增减字段,则会给开发者造成很大的困扰。所以我添加了一个分支版本,用来将数据以JSON的格式,同步到kafka,字段语义更加清晰。   sql-json插件包下载地址: https://github.com/yucy/flume-ng-sql-source

Flume高可用+断点续传

我的梦境 提交于 2020-01-19 16:13:20
Flume高可用集群 工欲善其事,必先利其器。 感谢以下博主: https://www.cnblogs.com/qingyunzong/p/8994494.html https://blog.csdn.net/peng_0129/article/details/80793440 https://blog.csdn.net/suojie123/article/details/86577935 https://blog.csdn.net/kelong_xhu/article/details/42677045 https://blog.csdn.net/johnnychu/article/details/82780521 flume简介 官网:http://flume.apache.org/ 打开官网【经翻译】 Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architecture based on streaming data flows. It is robust and fault tolerant

flume与kafka整合

徘徊边缘 提交于 2020-01-18 21:59:37
flume与kafka整合 前提: flume安装和测试通过,可参考:http://www.cnblogs.com/rwxwsblog/p/5800300.html kafka安装和测试通过,可参考:http://www.cnblogs.com/rwxwsblog/p/5800224.html 在上诉条件满足的情况下才能进行flume和kafka的整合。 flume与kafka整合 修改/usr/local/flume/conf/flume-conf.properties agent.sinks.s1.type = org.apache.flume.sink.kafka.KafkaSink agent.sinks.s1.topic = mytopic agent.sinks.s1.brokerList = localhost:9092 agent.sinks.s1.requiredAcks = 1 agent.sinks.s1.batchSize = 20 agent.sinks.s1.channel = c1 启动kafka 启动zookeeper /usr/local/kafka/bin/zookeeper-server-start.sh -daemon config/zookeeper.properties 启动kafka /usr/local/kafka/bin/kafka

flume的负载均衡load balancer

左心房为你撑大大i 提交于 2020-01-18 04:38:18
负载均衡是用于解决一台机器(一个进程)无法解决所有请求而产生的一种算法。Load balancing Sink Processor 能够实现 load balance 功能,如下图Agent1 是一个路由节点,负责将 Channel 暂存的 Event 均衡到对应的多个 Sink组件上,而每个 Sink 组件分别连接到一个独立的 Agent 上,示例配置,如下所示: 在此处我们通过三台机器来进行模拟flume的负载均衡 三台机器规划如下: node01:采集数据,发送到node02和node03机器上去 node02:接收node01的部分数据 node03:接收node01的部分数据 第一步 : 开发 node01 服务器 的 flume 配置 node01服务器配置: cd /export/servers/apache-flume-1.6.0-cdh5.14.0-bin/conf vim load_banlancer_client.conf #agent name a1.channels = c1 a1.sources = r1 a1.sinks = k1 k2 #set gruop a1.sinkgroups = g1 #set sink group a1.sinkgroups.g1.sinks = k1 k2 #set sources a1.sources.r1.type

flume的配置详解

时光怂恿深爱的人放手 提交于 2020-01-17 12:35:23
Flume: ===================== Flume是一种分布式的、可靠的、可用的服务,可以有效地收集、聚合和移动大量的日志数据。 它有一个基于流数据的简单而灵活的体系结构。 它具有健壮性和容错能力,具有可调的可靠性机制和许多故障转移和恢复机制。 它使用一个简单的可扩展数据模型,允许在线分析应用程序。 source:源 对channel而言,相当于生产者,通过接收各种格式数据发送给channel进行传输 channel:通道 相当于数据缓冲区,接收source数据发送给sink sink:沉槽 对channel而言,相当于消费者,通过接收channel数据通过指定数据类型发送到指定位置 Event: =============== flume传输基本单位: head + body flume安装: ================ 1、解压 2、符号链接 3、配置环境变量并使其生效 4、修改配置文件 1)重命名flume-env.ps1.template为flume-env.ps1 2)重命名flume-env.sh.template为flume-env.sh 3)修改flume-env.sh,配置jdk目录,添加 export JAVA_HOME=/soft/jdk 5、flume 查看版本 flume-ng version flume使用: ==========

Flume - Tiering data flows using the Avro Source and Sink [closed]

别来无恙 提交于 2020-01-17 05:18:13
问题 Closed. This question is off-topic. It is not currently accepting answers. Want to improve this question? Update the question so it's on-topic for Stack Overflow. Closed 2 years ago . I'm attempting to set up a simple tiered data flow using an Avro source/sink between two agents on different machines. The first agent on the vm-host-01 node (called "agent") has a netcat source, a memory channel, and an avro sink. The second agent on the vm-host-02 node (called "collector" has a avro source, a

大数据架构:flume-ng+Kafka+Storm+HDFS 实时系统组合

£可爱£侵袭症+ 提交于 2020-01-16 06:41:26
http://www.aboutyun.com/thread-6855-1-1.html 个人观点:大数据我们都知道hadoop,但并不都是hadoop.我们该如何构建大数据库项目。对于离线处理,hadoop还是比较适合的,但是对于实 时性比较强的,数据量比较大的,我们可以采用Storm,那么Storm和什么技术搭配,才能够做一个适合自己的项目。下面给大家可以参考。 可以带着下面问题来阅读本文章: 1.一个好的项目架构应该具备什么特点? 2.本项目架构是如何保证数据准确性的? 3.什么是Kafka? 4.flume+kafka如何整合? 5.使用什么脚本可以查看flume有没有往Kafka传输数据 做软件开发的都知道模块化思想,这样设计的原因有两方面: 一方面是可以模块化,功能划分更加清晰,从“数据采集--数据接入--流失计算--数据输出/存储” 1).数据采集 负责从各节点上实时采集数据,选用cloudera的flume来实现 2).数据接入 由于采集数据的速度和数据处理的速度不一定同步,因此添加一个消息中间件来作为缓冲,选用apache的kafka 3).流式计算 对采集到的数据进行实时分析,选用apache的storm 4).数据输出 对分析后的结果持久化,暂定用mysql 另一方面是模块化之后,假如当Storm挂掉了之后,数据采集和数据接入还是继续在跑着,数据不会丢失

大数据学习之 Flume + kafka + SparkStreaming

半腔热情 提交于 2020-01-15 01:43:26
1.搭建Kafka 环境: 可参考 https://blog.csdn.net/weixin_37835915/article/details/103786157 (1)启动zookeeper (2)启动kafka (3)创建topic (4)启动Consumer 2. 搭建Flume 环境: http://www.apache.org/dyn/closer.lua/flume/1.9.0/apache-flume-1.9.0-bin.tar.gz (1)解压在conf文件夹下面添加example.conf 文件 文件内容如下: # 定义这个agent中各组件的名字 a1 就是agent得名字 a1.sources = r1 a1.sinks = k1 a1.channels = c1 # 描述和配置source组件:r1 a1.sources.r1.type = netcat a1.sources.r1.bind = localhost a1.sources.r1.port = 44444 # 描述和配置sink组件:k1 a1.sinks.k1.channel = c1 a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink a1.sinks.k1.kafka.topic = flume a1.sinks.k1