2概述 设计模块最主要的操作分为: 转换和作业 选择转换和作业后就可以选择对应主对象树和核心对象 主对象树大同小异 核心对象是不同的 比如转换需要用到的CSV表输入, 表输入等都在这里可以选择 而作业的核心对象是: 2.1 转换 转换是ETL解决方案中最主要的部分, 它处理抽取、转换、加载各阶段各中对数据行的操作。转换1/N个步骤。 如图, 下面是一个转换的过程 图中每个框都是一个步骤(step),而连接框的线就是所谓的跳(hop). 跳定义了一个单向通道 , 允许数据由一个通道向另一个通道移动。在Kettle中数据的 单位是行 。 步骤 步骤是转换的基本组成部分(图中的框框) 它有以下关键属性: 1 每个步骤都有一个名字,在转换范围内唯一 2 每个步骤都会读,写数据行 (唯一的例外是生成记录的步骤) 3 步骤将数据写到与之相连的一个或多个输出跳, 再传送到跳的另一端的步骤. 对另一端步骤来说, 这个跳就是一个输入 跳, 步骤通过输入跳接受数据 4 大多数的步骤都可以有多个输出跳. 【一个步骤的数据发送(输出)可以设置为轮流发送和复制发送。轮流发送是将数据行依次发给每一个输出跳(每个输出获得的输出合起来才是完整数据),复制发送是将全部数据发给所有输出跳(每个输出都一样,是全部的数据)。】 在创建跳的时候可以选择: 5 运行转换时,一个线程运行一个步骤和步骤的多份copy