kettle

kettle下载地址

扶醉桌前 提交于 2019-12-03 13:11:28
Kettle下载和安装: 1、官网各个版本下载地址: https://sourceforge.net/projects/pentaho/files/Data%20Integration/ 2、Kettle是纯JAVA编程的开源软件,本地环境配置JDK1.7以上即可运行,解压后直接使用无需安装。 需准备的其他东西: 数据库驱动,如笔者连接的是mysql则需将mysql的驱动放在kettle根目录的bin下面,然后到服务中启动mysql,重启kettle。 作者:蒲公英不是梦 链接:https://www.jianshu.com/p/c76bac247cce 来源:简书 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 来源: https://www.cnblogs.com/smile502/p/11796336.html

How to schedule Pentaho Kettle transformations?

匿名 (未验证) 提交于 2019-12-03 08:30:34
可以将文章内容翻译成中文,广告屏蔽插件可能会导致该功能失效(如失效,请关闭广告屏蔽插件后再试): 问题: I've set up four transformations in Kettle. Now, I would like to schedule them so that they will run daily at a certain time and one after the another. For example, tranformation1 -> transformation2 -> transformation3 -> transformation4 should run daily at 8.00 am. How can I do that? 回答1: You can execute transformation from the command line using the tool Pan : Pan.bat /file:transform.ktr /param:name=value The syntax might be different depending on your system - check out the link above for more information. When you have a batch file

Kettle 6.x 源码开发环境搭建

ぃ、小莉子 提交于 2019-12-03 03:43:36
1、引言 Data Integration - Kettle 作为免费开源的ETL工具,可以通过其桌面程序进行ETL步骤的开发并执行。kettle以插件形式来实现每个转换步骤的工作,发行版中已经提供了常用的转换清洗插件,如果还不能满足业务需求的话,则可以自己开发相应插件实现。但在使用原有插件或者自定义插件的过程中遇到问题时,如果不好定位原因,则可以通过源码环境来调试,可以更加方便和容易地解决问题。另外,通过源码的开发和学习,也能更加深入地理解kettle的原理。 2、环境准备 ◆下载kettle工具包 在 kettle官网 找到下载地址,下载pdi-ce-{version}.zip的免安装包,本文以 pdi-ce-6.1.0.1-196.zip 为例,具体的地址在https://sourceforge.net/projects/pentaho/files/Data%20Integration/6.1/pdi-ce-6.1.0.1-196.zip/download。下载完成后,解压之。本文解压后命名为data-integration6.1,如图: ◆下载kettle源码 前往github下载kettle源码( github上kettle源码pentaho-kettle-6.1.0.1-R最近重新发布过,按此教程搭建后代码可能报“org.pentaho.vfs.ui

pentaho-kettle-8.2.0.0-R源码开发环境搭建

孤街浪徒 提交于 2019-12-03 03:43:06
1.从Kettle官网下载源码,本文使用的是pentaho-kettle-8.2.0.0-R 下载地址: https://codeload.github.com/pentaho/pentaho-kettle/zip/8.2.0.0-R 2.打开eclipse,选择一个新的工作空间,然后设置maven的信息,settings.xml使用官方提供的配置文件 点击下载 。下载可以根据需要设置自己本地仓库的存储路径。 因为为引入kettle项目源码的时候,会去默认的maven仓库地址下载项目构建所需的依赖,但这些依赖只在Kettle官方的仓库有,所以先配置好kettle的maven仓库地址。 3.引入已存在的maven项目,将解压后的kettle源码引入工作空间,如下图所示选择所有的项目 4.修改pom.xml中swt版本信息,官方的源码在linux系统中开发的,若在windows系统或其他系统中开发时需要更换为相应的swt版本,本文在在windows环境中开发。 工作空间全文搜索“<artifactId>org.eclipse.swt.gtk.linux.x86_64</artifactId>”更改为“ <artifactId>org.eclipse.swt.win32.win32.x86_64</artifactId>” 修改前 修改后 5.配置maven的Lifecycle

关于kettle初始化的那点事

匿名 (未验证) 提交于 2019-12-03 00:37:01
1. KettleEnvironment.init()详解 在Kettle的客户端工具,如Spoon、Pan、Kitchen、Carte等的源码中,都会有如下调用: KettleEnvironment .init () 这篇文章主要从源码的层面分析这个方法具体干了些什么。 kettle源码使用5.3版本。 1.1 KettleEnvironment.init()初始化流程分析 (1) 首先判断KettleClientEnvironment是否初始化,没初始化的话就调用 KettleClientEnvironment .init () 进行初始化。该方法完成的动作主要是: 创建.kettle文件夹及kettle.properties(不存在的话) 读取kettle.properties的配置 初始化KettleLogStore 加载部分plugin,并在PluginRegistry中注册这些plugin 其中加载plugin的代码如下所示: // Load value meta data plugins // PluginRegistry.addPluginType( LoggingPluginType.getInstance() ); PluginRegistry.addPluginType( ValueMetaPluginType.getInstance() );

Kettle解决方案: 第二章 Kettle基本概念

匿名 (未验证) 提交于 2019-12-03 00:37:01
2概述 设计模块最主要的操作分为: 转换和作业 选择转换和作业后就可以选择对应主对象树和核心对象 主对象树大同小异 核心对象是不同的 比如转换需要用到的CSV表输入, 表输入等都在这里可以选择 而作业的核心对象是: 2.1 转换 转换是ETL解决方案中最主要的部分, 它处理抽取、转换、加载各阶段各中对数据行的操作。转换1/N个步骤。 如图, 下面是一个转换的过程 图中每个框都是一个步骤(step),而连接框的线就是所谓的跳(hop). 跳定义了一个单向通道 , 允许数据由一个通道向另一个通道移动。在Kettle中数据的 单位是行 。 步骤 步骤是转换的基本组成部分(图中的框框) 它有以下关键属性: 1 每个步骤都有一个名字,在转换范围内唯一 2 每个步骤都会读,写数据行 (唯一的例外是生成记录的步骤) 3 步骤将数据写到与之相连的一个或多个输出跳, 再传送到跳的另一端的步骤. 对另一端步骤来说, 这个跳就是一个输入 跳, 步骤通过输入跳接受数据 4 大多数的步骤都可以有多个输出跳. 【一个步骤的数据发送(输出)可以设置为轮流发送和复制发送。轮流发送是将数据行依次发给每一个输出跳(每个输出获得的输出合起来才是完整数据),复制发送是将全部数据发给所有输出跳(每个输出都一样,是全部的数据)。】 在创建跳的时候可以选择: 5 运行转换时,一个线程运行一个步骤和步骤的多份copy

kettle的简单应用

匿名 (未验证) 提交于 2019-12-03 00:34:01
登陆时可以选择 ” 没有资源库 ” 即可进入Kettle,此时所定义的转换和工作将只能存储在本地磁盘上,以 .ktr 文件和 .kjb 文件的方式。若使用资源库登录,则所有定义的转换和工作将会存储到资源库里。实际上,资源库就是一个数据库,比如SQL SERVER数据库,里面存储了 Kettle定义的元素的相关元数据,简单而言,就是元数据库。如果资源库创建完毕,则资源库的相关信息将存储在文件 “reposityries.xml”中,它位于你的缺省home 目录的隐藏目录“.kettle”中。如果是windows 系统,这个路径就是 c:\Documents andSettings\<username>\.kettle。 1.1新建资源库 1 )新建到资源库的的数据库连接 点击 ” 新建 ” 按钮,弹出以下对话框: a.数据库连接是让我们选择数据库连接,这里意思为我们可以在本地数据库新建一个或多个数据库(比如 sql server 数据库)做资源库,然后连接到该资源库 b.表示资源库的名字 我们 初没有资源库,则点击 新建按钮,新建一个数据库(做资源库)连接,注意前提是(sql server 为例)已存在该数据库, 如何建立到数据库的连接: (1) 我们首先以在 sqlserver 下创建的 KettleZyk 数据库为例,我们选择 ODBC 方式连接到 sql server。首先配置

kettle 学习小结

匿名 (未验证) 提交于 2019-12-03 00:32:02
What is ETL ETL Extraction-Transformation-Loading的缩写,中文名称为数据提取、转换和加载。 ETL工具有: OWB(Oracle Warehouse Builder)、ODI(Oracle Data Integrator)、Informatic PowerCenter、Trinity、AICloudETL、DataStage、Repository Explorer、Beeload、Kettle、DataSpider 目前,ETL工具的典型代表有: Informatica、Datastage、OWB、微软DTS、Beeload、Kettle…… 开源的工具有eclipse的etl插件。 cloveretl. 数据集成:快速实现ETL ETL的质量问题具体表现为正确性、完整性、一致性、完备性、有效性、时效性和可获取性等几个特性。而影响质量问题的原因有很多,由系统集成和历史数据造成的原因主要包括:业务系统不同时期系统之间数据模型不一致;业务系统不同时期业务过程有变化;旧系统模块在运营、人事、财务、办公系统等相关信息的不一致;遗留系统和新业务、管理系统数据集成不完备带来的不一致性。 实现ETL,首先要实现ETL转换的过程。它可以集中地体现为以下几个方面: - 空值处理:可捕获字段空值,进行加载或替换为其他含义数据

Kettle基础问题汇总

匿名 (未验证) 提交于 2019-12-03 00:30:01
问题描述 kettle在抽取mysql数据时,使用数据库查询,表输入mysql查询正常,表输出获取字段时报错: Caused by: com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near ‘OPTION SQL_SELECT_LIMIT=DEFAULT’ at line 1 经查由5.7版本MySQL,要求更高版本的mysql-connector驱动导致 解决办法: 下载最新版本mysql-connector的jar包,于data-integration\lib文件中,替换原jar包 下载地址: http://xcy.xiaoshikd.com/mysql-connector-java-5.1.44.zip 问题描述 Kettle连接Oracle数据库时,提示缺少Driver 解决办法 将本机的Oracle jar包拷贝至 \pdi-ce-7.1.0.0-12\data-integration\lib 文件夹下即可 文章来源: Kettle基础问题汇总