数据仓库实践杂谈(十)——拉链处理
[目录] 第一章:概述 第二章:整体数据分层 第三章:整体实现框架 第四章:元数据 第五章:ETL 第六章:数据校验 第七章:数据标准化 第八章:去重 第九章:增量/全量 第十章:拉链处理 第十一章:分布式处理增量 第十二章:列式存储 第十三章:逻辑数据模型(数仓模型) 第十四章:数据模型参考 第十五章:维模型 第十六章:渐变维 第十七章:数据回滚 第十八章:关于报表 第十九章:数据挖掘 数据仓库实践杂谈(十)——拉链处理 现代业务系统处理的数据越来越大,尤其大型金融机构、电商平台等,账户表,订单表都是庞大的。数据仓库要保留历史变更情况,需要每天加载当天的变更数据到仓库。相比整个全量数据来说,每天变化的数据还是属于少数的。比如千万账户级别的银行每天交易量一般也就是几十万条,也就意味着账户表中涉及变动的记录最多也就是几十万条。电商订单表可能数千万条,但每天新增以及之前订单变化的,可能不到一百万条。这种情况下,拉链方式做增量存储是最合适的方法。 考虑到大部分源系统只是单纯的交易系统,并不会预先做增量的处理。所以,往往我们面对的场景是源系统每天给一份当前系统的快照(包含所有或者有效时间内的订单),这里面有大量没有被修改以及小部分被修改过的、新增数据。这样我们需要做的事情就有两件: 找出增量(新增、变化)的数据; 把增量数据追加到历史库中。 考虑历史数据库的存储情况