flume

Hadoop简介

假如想象 提交于 2019-12-25 19:58:27
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> Hadoop是什么? Hadoop 是一个由Apache基金会所开发的 分布式系统 基础架构。主要解决海量数据 存储 和海量数据的 分析计算 问题。广义上来说,Hadoop通常是指一个更广泛的概念———Hadoop生态圈。 Hadoop的优势 高可靠性 :Hadoop底层维护多个数据副本,所以即使Hadoop的某个计算元素或存储出现故障,也不会丢失数据。 高扩展性 :在集群间分配任务数据,可方便扩展数以千计的节点。 高效性 :在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。 高容错性 :能够自动将任务重新分配。 低成本 :Hadoop项目是开源的,项目软件的成本因此会大大降低。 Hadoop的组成 Common :为 Hadoop 其他模块提供支持的基础模块。 HDFS (Hadoop Distributed File System)是可扩展、容错、高性能的分布式文件系统,异步复制,一次写入多次读取,主要负责存储。 MapReduce 为分布式计算框架,包含map(映射)和 reduce(归约)过程,负责在 HDFS 上进行计算。 YARN :任务分配和集群资源管理框架。 Hadoop的生态圈 HBase :HBase(Hadoop Database)是一个高可靠性、高性能、面向列

Apache Flume stopped streaming Twitter data after Twitter API SSL/TLS mandatory requirements.

丶灬走出姿态 提交于 2019-12-25 07:47:45
问题 I have followed cloudera's tutorial (http://blog.cloudera.com/blog/2012/09/analyzing-twitter-data-with-hadoop/) for an application to ingest twitter data into HDFS using Apache Flume. Twitter has restricted its api connection to SSL/TLS only with effect from 15th January 2014. After this change my Flume agent has stopped streaming the twitter data. Kindly reply if you have already implemented the respective changes to cater for new requirements based on specs in follwoing article. https://dev

Too many small files HDFS Sink Flume

核能气质少年 提交于 2019-12-25 07:46:49
问题 agent.sinks=hpd agent.sinks.hpd.type=hdfs agent.sinks.hpd.channel=memoryChannel agent.sinks.hpd.hdfs.path=hdfs://master:9000/user/hduser/gde agent.sinks.hpd.hdfs.fileType=DataStream agent.sinks.hpd.hdfs.writeFormat=Text agent.sinks.hpd.hdfs.rollSize=0 agent.sinks.hpd.hdfs.batchSize=1000 agent.sinks.hpd.hdfs.fileSuffix=.i agent.sinks.hpd.hdfs.rollCount=1000 agent.sinks.hpd.hdfs.rollInterval=0 I'm trying to use HDFS Sink to write events to HDFS. And have tried Size, Count and Time bases rolling

Connection is not being established

亡梦爱人 提交于 2019-12-25 05:29:14
问题 I have two running container for flume and hadoop. Let it be hadoop2 and flume2. I created these two containers from two images namely hadoop_alone and flume_alone. docker run -d -p 10.236.173.XX:8020:8020 -p 10.236.173.XX:50030:50030 -p 10.236.173.XX:50060:50060 -p 10.236.173.XX:50070:50070 -p 10.236.173.XX:50075:50075 -p 10.236.173.XX:50090:50090 -p 10.236.173.XX:50105:50105 --name hadoopservices hadoop_alone I get into hadoop container and checked for exposed ports. So All the ports are

大数据-Flume实战案例

落爺英雄遲暮 提交于 2019-12-25 04:55:03
2. Flume 实战案例 案例:使用网络telent命令向一台机器发送一些网络数据,然后通过flume采集网络端口数据 2.1. Flume 的安装部署 Step 1: 下载解压修改配置文件 下载地址: http://archive.apache.org/dist/flume/1.8.0/apache-flume-1.8.0-bin.tar.gz Flume的安装非常简单,只需要解压即可,当然,前提是已有hadoop环境 上传安装包到数据源所在节点上 这里我们采用在第三台机器来进行安装 cd / export / softwares / tar - zxvf apache - flume - 1.8 .0 - bin . tar . gz - C . . /servers / cd / export / servers / apache - flume - 1.8 .0 - bin / conf cp flume - env . sh . template flume - env . sh vim flume - env . sh export JAVA_HOME = / export / servers / jdk1 . 8.0 _141 Step 2: 开发配置文件 根据数据采集的需求配置采集方案,描述在配置文件中(文件名可任意自定义) 配置我们的网络收集的配置文件

flume基础总结

假装没事ソ 提交于 2019-12-24 21:38:06
Flume概述 Flume是一种基于流式架构的日志采集,聚合和传输系统。可以用来把Java EE平台的日志数据(比如实时推荐)传输给HDFS 主要目的:实时读取服务器日志,写到HDFS中 架构 Agent:JVM进程。以事件(event)的形式把数据传送到目的地,主要由三部分组成:source,channel,sink 🌿 source: 负责生产事件(接收数据)。Source组件可以处理各种类型的日志数据,包括avro, thrift, exec, jms netcat等等 🌿channel:是source和sink中间的缓冲区,这样两端读写速度可以不同。同时channel是线程安全 ,可以对接多个source和sink。channel分为:Memory channel(内存存储)或者File channel(磁盘中),Kafka channel 🌿 sink: 负责消费事件。不断轮询channel中的数据并且批量清除数据,并将这些数据写入到存储或者另一个flume。可以写入hdfs,logger控制台,avro,file等等。 🌿 event :flume传输数据的形式,由 header(kv结构) + body(字节数组)组成 Avro source: 对接多个flume Exec source #flume安装 Flume官网地址 文档查看地址 下载地址 将apache

Flume - TwitterSource language filter

穿精又带淫゛_ 提交于 2019-12-24 13:08:16
问题 I would like to ask your help in the following case. I'm currently using Cloudera CDH 5.1.2 and I tried to collect Twitter data using Flume as it is described in the following porsts (Cloudera): http://blog.cloudera.com/blog/2012/10/analyzing-twitter-data-with-hadoop-part-2-gathering-data-with-flume/ github.com/cloudera/cdh-twitter-example I downloaded the source and rebuilt the flume-sources after updating the versions in pom.xml: <flume.version>1.5.0-cdh5.1.2</flume.version> <hadoop.version

Write a custom HTTPSource Handler for Flume-ng

北城余情 提交于 2019-12-24 00:59:52
问题 Are there any resources available to help me out in writing a custom handler for a HTTPSource for Flume-ng. I read the documentation and there is a sample handler for Json but I am wondering if anybody has had the need to write a handler for creating Flume events from a XML message body. The HttpSource is now available in Flume-ng 1.3.1 but we need handlers to interpret our data. Thanks. 回答1: Did you look at JSONHandler source? The only difference for XMLHandler would be usage of some XML

带你看懂大数据采集引擎之Flume&采集目录中的日志

て烟熏妆下的殇ゞ 提交于 2019-12-23 10:27:48
一、Flume的介绍: Flume由Cloudera公司开发,是一种提供高可用、高可靠、分布式海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于采集数据;同时,flume提供对数据进行简单处理,并写到各种数据接收方的能力,如果能用一句话概括Flume,那么Flume是实时采集日志的数据采集引擎。 二、Flume的体系结构: Flume的体系结构分成三个部分:数据源、Flume、目的地 数据源种类有很多:可以来自directory、http、kafka等,flume提供了source组件用来采集数据源。 1、source作用:采集日志 source种类:1、spooling directory source:采集目录中的日志 2、htttp source:采集http中的日志 3、kafka source:采集kafka中的日志 …… 采集到的日志需要进行缓存,flume提供了channel组件用来缓存数据。 2、channel作用:缓存日志 channel种类:1、memory channel:缓存到内存中(最常用) 2、JDBC channel:通过JDBC缓存到关系型数据库中 3、kafka channel:缓存到kafka中 …… 缓存的数据最终需要进行保存,flume提供了sink组件用来保存数据。 3、sink作用:保存日志 sink种类

基于Hadoop集群的Flume实例二例

隐身守侯 提交于 2019-12-23 04:15:03
Flume实例 实例来源: 《Hadoop+Spark大数据技术》——刘彬斌,清华大学出版社 实例一:实时测试客户端传输的数据 在 Slave001 中创建 netcat.conf : cd ~ vi netcat.conf 添加以下内容: # Name the components on this agent agent.sources = seqGenSrc agent.sinks = loggerSink agent.channels = memoryChannel # Describe configure the source agent.sources.seqGenSrc.type = netcat agent.sources.seqGenSrc.bind = Slave001 agent.sources.seqGenSrc.port = 44444 # Describe the sink agent.sinks.loggerSink.type = logger # Use a channel which buffers events in memory agent.channels.memoryChannel.type = memory agent.channels.memoryChannel.capacity = 1000 agent.channels