大数据篇:数据仓库案例
离线数据仓库 数据仓库(Data WareHouse)是为企业所有决策制定过程,提供所有系统数据支持的战略集合 通过对数据仓库中数据的分析,可以帮助企业,改进业务流程、控制、成本、提高产品质量等 数据仓库,并不是数据最终目的地,而是为数据最终的目的地做好准备:清洗、转义、分类、重组、合并、拆分、统计等等 1 项目简介 1.1 项目需求 用户行为数据采集平台搭建 业务数据采集平台搭建 数据仓库维度建模 分析:用户、流量、会员、商品、销售、地区、活动等主题 采用即席查询工具,随时进行指标分析 对集群性能进行监控,发生异常需要报警 元数据管理 质量监控 1.2 技术选型 数据采集功能如何技术选型 采集框架名称 主要功能 Sqoop 大数据平台和关系型数据库的导入导出 Datax 大数据平台和关系型数据库的导入导出 flume 擅长日志数据的采集和解析 logstash 擅长日志数据的采集和解析 maxwell 常用作实时解析mysql的binlog数据 canal 常用作实时解析mysql的binlog数据 waterDrop 数据导入导出工具 消息中间件的技术选型 开源MQ 概述 RabbitMQ LShift 用Erlang实现,支持多协议,broker架构,重量级 ZeroMQ AMQP最初设计者iMatix公司实现,轻量消息内核,无broker设计。C++实现 Kafka