大数据技术之kettle
大数据技术之 kettle 第1章 kettle概述 1.1 什么是kettle kettle是一款开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 1.2 kettle核心知识点 1.2.1 kettle工程存储方式 1) 以XML形式存储 2) 以资源库方式存储(数据库资源库和文件资源库) 1.2.2 kettle的两种设计 简述: Transformation(转换):完成针对数据的基础转换。 Job(作业):完成整个工作流的控制。 区别:(1)作业是步骤流,转换是数据流。 (2)作业的每一个步骤必须等到前面的步骤都跑完了后面的步骤才会执行;而转换会一次性把所有控件全部先启动(一个控件对应启动一个线程),然后数据流会从第一个控件开始,一条记录、一条记录的流向最后的控件。 1.2.3 Kettle的组成 1. 勺子(Spoon.bat/spoon.sh):是一个图形化的界面,可以让我们用图形化的方式开发转换和作业。Windows选择.bat;Linux选择.sh 2. 煎锅(Pan.bat/pan.sh):利用Pan可以用命令行的形式调用Trans 3. 厨房(Ktitchen.bat/kitchen.sh):利用Kitchen可以使用命令行调用Job 4. 菜单(Carte.bat/carte.sh)