flume | 易学教程

How to setup a HTTP Source for testing Flume setup?

阅读更多关于 How to setup a HTTP Source for testing Flume setup?

问题 I am a newbie to Flume and Hadoop. We are developing a BI module where we can store all the logs from different servers in HDFS. For this I am using Flume. I just started trying it out. Succesfully created a node but now I am willing to setup a HTTP source and a sink that will write incoming requests over HTTP to local file. Any suggesstions? Thanks in Advance/ 回答1: Hopefully this helps you get started. I'm having some problems testing this on my machine and don't have time to fully

没有编程基础，大数据学习步骤是怎么样的？

阅读更多关于没有编程基础，大数据学习步骤是怎么样的？

很多初学者在萌生向大数据方向发展的想法之后，不免产生一些疑问，应该怎样入门？应该学习哪些技术？学习路线又是什么？所有萌生入行的想法与想要学习Java的同学的初衷是一样的。岗位非常火，就业薪资比较高,，前景非常可观。基本都是这个原因而向往大数据，但是对大数据却不甚了解。如果你想学习，那么首先你需要学会编程，其次你需要掌握数学，统计学的知识，最后融合应用，就可以想在数据方向发展，笼统来说，就是这样的。但是仅仅这样并没有什么帮助。现在你需要问自己几个问题：对于计算机/软件，你的兴趣是什么？是计算机专业，对操作系统、硬件、网络、服务器感兴趣？是软件专业，对软件开发、编程、写代码感兴趣？还是数学、统计学专业，对数据和数字特别感兴趣。你自己的专业又是什么？如果你是金融专业，你可以学习，因为这结合起来你自己的专业，将让你在只有你专业知识的竞争者之中脱颖而出，毕竟现在AI+已经涉及到金融行业了。说了这么多，无非就是想告诉你，大数据的三个大的发展方向：平台搭建/优化/运维/监控；大数据开发/ 设计/ 架构；数据分析/挖掘。请不要问我哪个容易，只能说能挣钱的都不简单。如果你对大数据开发感兴趣，想系统学习大数据的话，可以加入大数据技术学习交流扣群：数字4583+数字45782，私信管理员即可免费领取开发工具以及入门学习资料说一下大数据的四个典型的特征：数据量大；

Apache Flume篇

阅读更多关于 Apache Flume篇

Apache Flume 概述 flume是一款大数据中海量数据采集传输汇总的软件。特别指的是数据流转的过程，或者说是数据搬运的过程。把数据从一个存储介质通过flume传递到另一个存储介质中。核心组件 source ：用于对接各个不同的数据源 sink：用于对接各个不同存储数据的目的地（数据下沉地） channel：用于中间临时存储缓存数据运行机制 flume本身是java程序在需要采集数据机器上启动 ----->agent进程 agent进程里面包含了：source sink channel 在flume中，数据被包装成event 真是的数据是放在event body中 event是flume中最小的数据单元运行架构简单架构只需要部署一个agent进程即可复杂架构多个agent之间的串联相当于大家手拉手共同完成数据的采集传输工作在串联的架构中没有主从之分大家的地位都是一样的 flume的安装部署在conf/flume-env.sh 导入java环境变量保证flume工作的时候一定可以正确的加载到环境变量 flume开发步骤中的就是根据业务需求编写采集方案配置文件文件名见名知意通常以souce——sink.conf 具体需要描述清楚sink source channel组件配置信息结合官网配置启动命令 bin/flume-ng agent -

FLUME NG的基本架构

阅读更多关于 FLUME NG的基本架构

Flume简介 Flume 是一个cloudera提供的高可用高可靠，分布式的海量日志收集聚合传输系统。原名是 Flume OG (original generation)，但随着 FLume 功能的扩展，Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来，尤其是在 Flume OG 的最后一个发行版本 0.94.0 中，日志传输不稳定的现象尤为严重，为了解决这些问题，2011 年 10 月 22 号，cloudera 完成了 Flume-728，对 Flume 进行了里程碑式的改动：重构核心组件、核心配置以及代码架构，重构后的版本统称为 Flume NG（next generation，改动的另一原因是将 Flume 纳入 apache 旗下，cloudera Flume 改名为 Apache Flume）。 FLUME NG 1、NG 只有一种角色的节点：代理节点（agent）。 2、agent 节点的组成也发生了变化。Flume NG 的 agent 由 source、sink、Channel 组成。 flume ng 节点组成图: 多 Agent 并联下的架构图: Flume 的特性 flume 支持在日志系统中定制各类数据发送方，用于收集数据；同时支持对数据进行简单处理，并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力。

踩过的坑

阅读更多关于踩过的坑

1.hbase开启后regionserver自动关闭，节点与master上的时间不一致，差的太远。解决：配时间同步器，或者修改虚拟机上的时间：date -s 'xxxx-xx-xx xx:xx:xx' hwclock -w(将时间写入虚拟机的主板，不然下次启动时间又会还原) 2.vi模式下查找关键字 esc+/关键字 3.用flume上传文件到hdfs上报错flume java.lang.OutOfMemoryError: GC overhead limit exceeded 解决：vim apache-flume-1.6.0-bin/bin/flume-ng 将 JAVA_OPTS= "-Xmx20m" 参数调大 JAVA_OPTS= "-Xmx2048m" 注意配置文件不能有错，参数后面多个空格也会报错其他用户配置环境变量vim ~/.bash_profile source ~/.bash_profile 来源： https://www.cnblogs.com/djh222/p/11270732.html

#研发解决方案介绍#Recsys-Evaluate（推荐评测）

阅读更多关于 #研发解决方案介绍#Recsys-Evaluate（推荐评测）

关键词： recsys 、推荐评测、Evaluation of Recommender System、piwik、flume、kafka、storm、redis、mysql 本文档适用人员：研发推荐系统可不仅仅是围着推荐算法打转先明确一下，我们属于工业领域。很多在学术论文里行之有效的新特奇算法，在工业界是行不通的。当年我们做语义聚合时，分词、聚类、相似性计算、实体词识别、情感分析等领域最终还都采用了工业界十几年前乃至于几十年前就流行的成熟算法。如果算法不能决定命运，那什么是关键呢？算法+规则库+人工干预（整理语料、标识、调参数等），大都是脏活儿累活儿。或者叫，特征+算法+人工干预，用特征缩小数据范围或降维。我在2009年曾经写道：在语义的世界里，可以近似地说：万事万物都是特征提取。你只要找到特征，事情就好办。…… ……你期望毕其功于一役吗？自然语言处理的真实应用里是很难有什么场景找到一个通吃特征的。都是一层一层特征叠加的。一层特征去掉一部分垃圾数据。如此反复，终成正果。注意方法论。梁斌在2012年微博说道：统计粗且糙，乃大锤。规则细而精，乃小锤。先大场后细棋。规则库怎么来的？得建设一些方便观测的外围系统，才能发现特征、建立规则、调整参数、观察效果。所以与此类似，做了推荐服务后，就需要推荐效果评测了。推荐评测应用场景

flume使用

阅读更多关于 flume使用

flume架构介绍 flume之所以这么神奇，是源于它自身的一个设计，这个设计就是agent，agent本身是一个 Java 进程，运行在日志收集节点—所谓日志收集节点就是服务器节点。 agent里面包含3个核心的组件：source—->channel—–>sink,类似生产者、仓库、消费者的架构。 source：source组件是专门用来收集数据的，可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy、自定义。 channel：source组件把数据收集来以后，临时存放在channel中，即channel组件在agent中是专门用来存放临时数据的——对采集到的数据进行简单的缓存，可以存放在memory、jdbc、file等等。 sink：sink组件是用于把数据发送到目的地的组件，目的地包括hdfs、logger、avro、thrift、ipc、file、null、 Hbase 、solr、自定义。 Agent文件的说明定义Agent和组件的名字。 # a1: 自定义agent的名字 # 分别给 sources，channels，sinks取名 a1.sources = r1 a1.channels = c1 a1

大数据分布式集群搭建大全

阅读更多关于大数据分布式集群搭建大全

系统准备 Centos6.5 Windows10 相关软件包下载：链接：https://pan.baidu.com/s/1EOLUphwZgzwSX01HsDJM0g 提取码：1tsf 说明特别说明: 教程用的主机名分别为master,slave1,slave2 所以发现有出现主机名为 ” spark1”的主机名等同于 “master”如果如果看见配置文件为spark1,一定要修改成master ;有些图片是后面添加的才出现主机名不一致但并不影响理解. 没有特别说明操作都是在 master 机器操作关闭防火墙关闭Linux和Windows的防火墙（防止机器之间应为防火墙拦截而不能连通） Windows： window系统: 控制面板 -> 系统和安全 ->Windows Defender 防火墙 -> 启用或关闭Windows Defender 防火墙 -> 关闭Windows Defender 防火墙 //一般只关闭”专用网络设置”的防火墙就行 Linux：停止防火墙: service iptables stop 启动防火墙: service iptables start 重启防火墙: service iptables restart 永久关闭防火墙: chkconfig iptables off 永久开启防火墙: chkconfig iptables no

电商搜索引擎的架构设计和性能优化

阅读更多关于电商搜索引擎的架构设计和性能优化

「 OneAPM 技术公开课」由应用性能管理第一品牌 OneAPM 发起，内容面向 IT 开发和运维人员。云集技术牛人、知名架构师、实践专家共同探讨技术热点。本文系「OneAPM 技术公开课」第一期演讲嘉宾前当当网高级架构师吴英昊的演讲整理：首先，非常感谢 OneAPM 技术公开课举办的这次活动。首先，我想说的是电商搜索引擎和普通的搜索引擎有很大的差别，因为电商搜索引擎主要是解决用户要「买什么」，而通用搜索引擎主要是解决用户「搜什么」。比如同样搜索一个词「百年孤独」，电商的搜索肯定是给你推荐这本书的商家，而百度主要是告诉你：《百年孤独》是一本书。电商搜索引擎的特点众所周知，标准的搜索引擎主要分成三个大的部分，第一步是爬虫系统，第二步是数据分析，第三步才是检索结果。首先，电商的搜索引擎并没有爬虫系统，因为所有的数据都是结构化的，一般都是微软的数据库或者 Oracle 的数据库，所以不用像百度一样用「爬虫」去不断去别的网站找内容，当然，电商其实也有自己的「爬虫」系统，一般都是抓取友商的价格，再对自己进行调整。第二点，就是电商搜索引擎的过滤功能其实比搜索功能要常用。甚至大于搜索本身。什么是过滤功能？一般我们网站买东西的时候，搜了一个关健词，比如尿不湿，然后所有相关品牌或者其他分类的选择就会呈现在我们面前。对百度而言，搜什么词就是什么词，如果是新闻的话

Flume HDFS sink keeps rolling small files

阅读更多关于 Flume HDFS sink keeps rolling small files

问题 I'm trying to stream twitter data into hdfs using flume and this: https://github.com/cloudera/cdh-twitter-example/ Whatever I try here, it keeps creating files in HDFS that range in size from 1.5kB to 15kB where I would like to see large files (64Mb). Here is the agent configuration: TwitterAgent.sources = Twitter TwitterAgent.channels = MemChannel TwitterAgent.sinks = HDFS TwitterAgent.sources.Twitter.type = com.cloudera.flume.source.TwitterSource TwitterAgent.sources.Twitter.channels =

订阅 flume