大数据(hadoop-flume的原理架构)

北城以北 提交于 2019-12-03 08:06:05

背景介绍

Hadoop提供了一个中央化的存储系统
   有利于进行集中式的数据分析与数据共享

Hadoop对存储格式没有要求:
   用户访问日志
   产品信息
   网页数据等

如何将数据存入Hadoop:
   数据分散在各个离散的设备上
   数据保存在传统的存储设备和系统中
 

常见的两种数据来源

分散的数据源:
   机器产生的数据;
   用户访问日志;
   用户购买日志。

传统系统中的数据:
   传统关系型数据库:Mysql、Oracle等;

Hadoop收集和入库基本要求

分布式
   数据源多样化
   数据源分散

可靠性
   保证不丢数据
   允许丢部分数据

可扩展
   数据源可能会不断增加

通过并行提高性能

数据收集
   Flume
   Kafka
   Scribe

传统数据库与Hadoop同步
   Sqoop
 

Flume

Flume OG
   OG:“Original Genaration”
   0.9.x或cdh3以及更早版本
   由agent、collector、master等组件构成

Flume NG
   NG:“Next/New Generation” 
   1.x或cdh4以及之后的版本
   由Agent、Client等组件构成

为什么要推出NG版本
   精简代码
   架构简化
 

Flume OG基本架构

 

Flume NG基本架构

 

 

 

 

 

 

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!