浅谈数据中台与数据仓库的异同
一、数据仓库 数据仓库的概念大家并不陌生,关于数据仓库的理论和应用已经非常成熟,持续不断地帮助高层决策者和业务人员做分析和决策。简单来说,数据仓库是一个面向主题的、集成的、非易失性的,随时间变化的用来支持管理人员决策的数据集合,数据仓库的展现形式一般是报表和数据图形。 传统的数据仓库通常具有以下几个特点: 1. 业务主题性:比如对一个生产型企业来说公司的主题域是产品、订单、销售商、材料等,要解决应用问题可能是库存、销售、销售商等。其有业务是面向主题的。 2. 系统集成性:在传统数据仓库中,集成是最重要的,由于计算和存储的成本原因,其数据需要从不同的数据源抽取过来并集中,其数据的冗余度需要尽可能的降低,因此数据进入数据仓库中需要进行转化、格式化、重新排列和汇总等操作,其所有数据具有单一物理特性,都是结构化方式存在。在系统架构方面,也是以集中式存储和计算方式存在,新一代的数仓采用分布式计算,但软件产品采用集中部署方式存在。 3. 非易失性:数仓系统会记录所有记录,与业务系统相比,它不会对记录进行变化操作( update 和 delete ),它会保留所有记录的变化,但受限于成本和计算能力考虑,数仓不会记录全量明细数据,特别是日志数据,因此大部分数仓平台的数据容量在 TB 级别以下。 4. 时间变化性:数据仓库中每个数据单元只是在某一时间是准确的,因此数据单元的准确性与时间相关