kettle自动化的那些事儿
一、kettle介绍 Kettle 是一款国外开源的 ETL 工具,纯 Java 编写,绿色无需安装,数据抽取高效稳定(数据迁移工具)。Kettle 中有两种脚本文件,transformation 和 job,transformation 完成针对数据的基础转换,job 则完成整个工作流的控制。 二、 ETL介绍 ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据, ETL是BI(商业智能)项目重要的一个环节。 三、 ETL实现细说 其实实现 ETL功能的工具很多,我熟悉并使用过的:Informatica PowerCenter、kettle、sql、PLSQL编程、python等等。 分别简单聊聊这些实现 ETL的手段: (1)、Informatica PowerCenter 此软件是商用的,网上成熟的中文资料比较少,而且版本较旧。英文资料居多,给很多初学者带来了困扰。国内最出名的大神就是杨晓东,国内的中文资料几乎全是杨晓东分享的,资料对应的版本还停留在 7.6和8.5。( 我当年学的时候,自己买了书,在淘宝上淘的视频,还在杨晓东的群里打酱油,经过 6个月的努力,才能上手正常工作 ) (2)、kettle 此软件是开源的,纯 java编写,网上文档和视频资料特别多