flume

#研发解决方案介绍#Recsys-Evaluate(推荐评测)

家住魔仙堡 提交于 2019-11-29 19:50:00
郑昀 基于刘金鑫文档 最后更新于2014/12/1 关键词: recsys 、推荐评测、Evaluation of Recommender System、piwik、flume、kafka、storm、redis、mysql 本文档适用人员:研发 推荐系统可不仅仅是围着推荐算法打转 先明确一下,我们属于工业领域。很多在学术论文里行之有效的新特奇算法,在工业界是行不通的。当年我们做语义聚合时,分词、聚类、相似性计算、实体词识 别、情感分析等领域最终还都采用了工业界十几年前乃至于几十年前就流行的成熟算法。如果算法不能决定命运,那什么是关键呢? 算法+规则库+人工干预 (整理语料、标识、调参数等),大都是脏活儿累活儿。 或者叫, 特征+算法+人工干预 ,用 特征缩小数据范围 或降维。 我在2009年曾经 写道 : 在语义的世界里,可以近似地说:万事万物都是特征提取。 你只要找到特征,事情就好办。…… ……你期望毕其功于一役吗?自然语言处理的真实应用里是很难有什么场景找到一个通吃特征的。都是一层一层特征叠加的。 一层特征去掉一部分垃圾数据。如此反复,终成正果。注意方法论。 梁斌 在2012年微博说道: 统计粗且糙,乃大锤。规则细而精,乃小锤。先大场后细棋。 规则库怎么来的? 得建设一些方便观测的外围系统,才能发现特征、建立规则、调整参数、观察效果 。所以与此类似,做了推荐服务后

JMeter - Could not find the TestPlan class

独自空忆成欢 提交于 2019-11-29 18:22:46
问题 I have a simple flume setup with a HTTP souce and a sink that writes the POST request payload to a file. (This complete setup is on a Linux machine). After that my task is to do a performance test on ths setup. So I decided to use JMeter (this is the first time, I am using it). So I created a test plan on my windows machine (using GUI) and then copied it to the jmeter/bin folder in the linux enviornment. When I tried ruuning it - java -jar ApacheJMeter.jar -n -t flume_http_test.jmx I am

Flume HDFS sink keeps rolling small files

喜欢而已 提交于 2019-11-29 16:43:25
I'm trying to stream twitter data into hdfs using flume and this: https://github.com/cloudera/cdh-twitter-example/ Whatever I try here, it keeps creating files in HDFS that range in size from 1.5kB to 15kB where I would like to see large files (64Mb). Here is the agent configuration: TwitterAgent.sources = Twitter TwitterAgent.channels = MemChannel TwitterAgent.sinks = HDFS TwitterAgent.sources.Twitter.type = com.cloudera.flume.source.TwitterSource TwitterAgent.sources.Twitter.channels = MemChannel TwitterAgent.sources.Twitter.consumerKey = xxxxxx TwitterAgent.sources.Twitter.consumerSecret =

Flume介绍

左心房为你撑大大i 提交于 2019-11-29 16:37:25
Flume 介绍 Flume是什么 是一个分布式的高效的海量日志数据收集工具。 是一个分布式、可靠、可用的高效的日志数据收集、聚合、移动的工具。 Hadoop总体的业务流程 特点以及优势 Fulme可以将数据存储到任何集中的存储器中,比如HDFS、HBase 可以对数据生产者和数据接收容器之间做个均衡,保证二者的平衡。 Flume的管道是基于事务的,保证了数据在传输和接收时的一致性。 Flume是可靠的、容错性高的、可升级的、易管理的并且可定制的。 工作原理 数据流模型 Event(封装数据的对象) 官网这样介绍Event: An Event is a unit of data that flows through a Flume agent. The Event flows from Source to Channel to Sink , and is represented by animplementation of the Event interface. An Event carries a payload (byte array) that is accompanied by an optional set of headers (string attributes). 翻译: Event是一个Flume agent传递数据的基本单位。

Flume伪分布式配置

谁说我不能喝 提交于 2019-11-29 12:14:51
配置Flume tar -zxvf apache-flume-1.8.0-bin.tar.gz mkdir /opt/flume/ mv apache-flume-1.8.0-bin.tar.gz /opt/flume/flume1.8.0/ 配置环境变量 vim /etc/profile export FLUME_HOME=/opt/flume/flume1.8.0 export FLUME_CONF_DIR=${FLUME_HOME}/conf export PATH=.:${JAVA_HOME}/bin:${SCALA_HOME}/bin:${SPARK_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:${ZK_HOME}/bin:${HBASE_HOME}/bin:${HIVE_HOME}/bin:${KAFKA_HOME}/bin:${SQOOP_HOME}/bin:${FLUME_HOME}/bin:$PATH source /etc/profile 修改flume-env.sh cd /opt/flume/flume1.8.0/conf/ mv flume-env.sh.template flume-env.sh vim flume-env.sh 修改Hbase的hbase-env.sh(未出现异常可以忽略)

Filtering log files in Flume using interceptors

让人想犯罪 __ 提交于 2019-11-29 10:24:50
问题 I have an http server writing log files which I then load into HDFS using Flume First I want to filter data according to data I have in my header or body. I read that I can do this using an interceptor with regex, can someone explain exactly what I need to do? Do I need to write Java code that overrides the Flume code? Also I would like to take data and according to the header send it to a different sink (i.e source=1 goes to sink1 and source=2 goes to sink2) how is this done? thank you,

Flume(一)

泄露秘密 提交于 2019-11-29 06:36:17
Flume简介 (1) Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume只能在Unix环境下运行。 (2) Flume基于流式架构,容错性强,也很灵活简单。 (3) Flume、Kafka用来实时进行数据收集,Spark、Flink用来实时处理数据,impala用来实时查询。 Flume角色 Source 数据源,用于采集数据,Source是产生数据流的地方,同时Source会将产生的数据流传输到Channel,这个有点类似于Java IO部分的Channel。 Channel 用于桥接Sources和Sinks,类似于一个队列。 Sink 从Channel收集数据,将数据写到目标源(可以是下一个Source,也可以是HDFS或者HBase)。 Event 传输单元,Flume数据传输的基本单元,以事件的形式将数据从源头送至目的地。 Flume传输过程 source监控某个文件或数据流,数据源产生新的数据,拿到该数据后,将数据封装在一个Event中,并put到channel后commit提交,channel队列先进先出,sink去channel队列中拉取数据,然后写入到HDFS中。 Flume部署及使用 (1)上传压缩包并且解压 tar -zxvf apache-flume1.8.0-bin.tar.gz -C /opt/module/

Flume-1.6.0 源码分析0:环境准备

有些话、适合烂在心里 提交于 2019-11-29 05:36:26
要想知道flume,请看 http://www.oschina.net/p/apache+flume 官方文档: http://flume.apache.org/FlumeUserGuide.html 1 下载源码 http://flume.apache.org/download.html 或者 http://archive.apache.org/dist/flume/ 请自己下载源码包,解压缩后,放入eclipse工程 当前分析版本 1.6.0 ===================================== 2尝试编译 mvn compile 出现无法从maven.twttr.com下载jar包的情况 解决方案:在pom.xml里加入 <repository> <id>maven.tempo-db.com</id> <url>http://maven.oschina.net/service/local/repositories/sonatype-public-grid/content/</url> </repository> 顺利编译完毕! http://www.iteblog.com/archives/1043 3 引入到Eclipse工程 剩下就可以编写自己的main函数了! 使用参考: https://cwiki.apache.org/confluence

flume 基本知识

余生长醉 提交于 2019-11-29 04:12:07
官网指导文档: http://flume.apache.org/releases/content/1.7.0/FlumeDeveloperGuide.html http://flume.apache.org/releases/content/1.9.0/FlumeDeveloperGuide.html 4.2.1 、案例一:监控端口数据 目标: Flume 监控一端 Console ,另一端 Console 发送消息,使被监控端实时显示。 分步实现: 1) 创建 Flume Agent 配置文件 flume-telnet.conf # Name the components on this agent a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configure the source a1.sources.r1.type = netcat a1.sources.r1.bind = localhost a1.sources.r1.port = 44444 # Describe the sink a1.sinks.k1.type = logger # Use a channel which buffers events in memory a1.channels.c1.type = memory a1

flume安装与使用

寵の児 提交于 2019-11-29 03:51:09
日志采集框架Flume Flume介绍 概述 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以采集文件,socket数据包、文件、文件夹、kafka等各种形式源数据,又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中 运行机制 Flume分布式系统最核心的角色是agent,flume采集系统就是由一个个agent所连接起来而成 每一个agent相当于一个数据传递员,内部有三个组件: Source:采集组件,用于跟数据源对接,获取数据 Sink:下沉组件,用于往下一级agent传递数据或者往最终存储系统传递数据 Channel:传输通道组件,用于从source将数据传递到sink 采集系统结构图 简单结构 复杂结构 多级agent之间串联 Flume实战案例 安装部署 第一步:下载解压修改配置文件 Flume的安装非常简单,只需要解压即可,当然,前提是已有hadoop环境 # 上传安装包到数据源所在节点上 这里采用在第三台机器来进行安装 软件目录 => flume-ng-1.6.0-cdh5.14.0.tar.gz tar -zxvf flume-ng-1.6.0-cdh5.14.0.tar.gz -C ../servers/ cd ../servers/apache-flume-1.6.0