实时数仓与离线数仓总结(一)
今 天主要聊聊数仓的基础知识,分为两篇文章介绍,这是第一篇。 主要内容: 数仓基本概念 数仓架构演变 实时数仓和离线数仓的区别 数仓基本概念 首先说一下数据仓库的概念,以下简称数仓。 数仓是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。 主题 是公司从宏观出发,为了分析数据,分了用户主题、商品主题、设备主题等有助于决策的数据模型。 随着互联网的发展,数据源头越来越多且是分散的,除了业务库,APP埋点,web网站log,LOT 设备等会产生各种各样的海量数据,这些数据在进入数据仓库之前(或之后),需要进行统一(字段定义、主题归属、项目划分等),数据 集成 在一起。 数仓中的数据是不可修改的,主要用于数据查询,是相对 稳定 的。 数仓的数据一般都带有时间特征,数据是随着时间的变化而变化的。 数据反映的是一段相当长的时间内历史数据的内容,是不同时点的数据库快照的集合, 反应历史变化 。 数仓从模型层面分为三层: ODS,操作数据层,保存原始数据; DWD,数据仓库明细层,根据主题定义好事实与维度表,保存最细粒度的事实数据; DM,数据集市/轻度汇总层,在DWD层的基础之上根据不同的业务需求做轻度汇总; 很多面试的时候