kettle

How to schedule Pentaho Kettle transformations?

自闭症网瘾萝莉.ら 提交于 2019-12-05 07:34:31
问题 I've set up four transformations in Kettle. Now, I would like to schedule them so that they will run daily at a certain time and one after the another. For example, tranformation1 -> transformation2 -> transformation3 -> transformation4 should run daily at 8.00 am. How can I do that? 回答1: You can execute transformation from the command line using the tool Pan: Pan.bat /file:transform.ktr /param:name=value The syntax might be different depending on your system - check out the link above for

Kettle: Multiple putRows() in processRow() correctly?

て烟熏妆下的殇ゞ 提交于 2019-12-04 18:28:44
I'm processing a /etc/group file from a system. I load it with CSV input step with the delimiter : . It has four fields: group , pwfield , gid , members . The members field is a comma separated list with account names of unspecified count from 0 to infinite. I would like to produce a list of records with three fields: group , gid , account . In the first step I use User Defined Java Class , in the second I use Select values . Example Input: root:x:0: first:x:100:joe,jane,zorro second:x:101:steve Example output (XLS) - expected: group gid account first 100 joe first 100 jane first 100 zorro

数据仓库技术概述(一看就是架构师写的,对我极其有用)

霸气de小男生 提交于 2019-12-04 17:37:35
ETL ,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。 ETL 一词较常用在 数据仓库 ,但其对象并不限于数据仓库。 ETL是构建数据仓库的重要一环,用户从 数据源 抽取出所需的数据,经过 数据清洗 ,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。 信息是现代企业的重要资源,是企业运用科学管理、决策分析的基础。目前,大多数企业花费大量的资金和时间来构建 联机事务处理 OLTP的业务系统和 办公自动化系统 ,用来记录事务处理的各种相关数据。据统计,数据量每2~3年时间就会成倍增长,这些数据蕴含着巨大的商业价值,而企业所关注的通常只占在总数据量的2%~4%左右。因此,企业仍然没有最大化地利用已存在的数据资源,以至于浪费了更多的时间和资金,也失去制定关键商业决策的最佳契机。于是,企业如何通过各种技术手段,并把数据转换为信息、知识,已经成了提高其核心竞争力的主要瓶颈。而ETL则是主要的一个技术手段。 软件名称 Extract-Transform-Load 过 程 数据抽取 、清洗、转换、装载 应 用 Informatica、OWB、DataStage 数据集成 快速实现ETL 工具应用 ETL工具的典型代表有:Informatica

using variable names for a database connection in Pentaho Kettle

余生颓废 提交于 2019-12-04 15:35:41
I am working on PDI kettle. Can we define a variable and use it in a database connection name. So that if in future if i need to change the connections in multiple transformations i would just change the variable value in kettle properties file? Just use variables in the Database Connection . For instance ${DB_HostName} , and ${DB_Name} etc. Then just put it in your kettle.properties: DB_HostName=localhost You can see what fields that support variables by the S in the blue diamond. 来源: https://stackoverflow.com/questions/36052615/using-variable-names-for-a-database-connection-in-pentaho-kettle

How to retrieve OUT parameter from MYSQL stored procedure to stream in Pentaho Data Integration (Kettle)?

五迷三道 提交于 2019-12-04 15:00:46
I am unable to get the OUT parameter of a MySQL procedure call in the output stream with the procedure call step of Pentaho Kettle. I'm having big trouble retrieving OUT parameter from MYSQL stored procedure to stream. I think it's maybe a kind of bug becouse it only occurs with Integer out parameter, it works with String out parameter. The exception I get is: Invalid value for getLong() - ' I think the parameters are correctly set as you can see in the ktr. You can replicate the bug in this way: Schema create schema if not exists test; use test; DROP PROCEDURE IF EXISTS procedure_test;

kettle转换设置变量,校验输出新变量

匆匆过客 提交于 2019-12-04 06:22:29
背景:有很多小的转换需要串联起来,如果前一个执行成功,后面继续接着执行,如果执行等待中,就让程序等一会再次获取数据分析,如果失败就中止,成功就进行下一个转换,以此类推.... 需求:通过job把参数传入的转换,然后转换分析完后输出结果,然后Job接收后再次分析,查看是否需要进行再次循环, kettle文件下载: 201911111826-kettle转换设置变量,校验输出新变量 截图说明: 设置变量 检查结果(此处省略在转换中获取job设置的变量) 设置输出一个新变量 通过新的转换,可能做些逻辑,在输出一个新变量由job分析处理,此处不去更新job的变量,相对比较简单实现类似的逻辑 再次分析判断,Job是否继续往下执行 需求:通过job把参数传入的转换,然后转换分析完后输出结果,然后Job接收后再次分析,查看是否需要进行再次循环, kettle文件下载: 201911111826-kettle转换设置变量,校验输出新变量 截图说明: 来源: https://www.cnblogs.com/shexunyu/p/11837339.html

kettle 中 java.lang.ClassCastException: [B cannot be cast to java.lang.String报错的解决方法

て烟熏妆下的殇ゞ 提交于 2019-12-04 05:38:19
问题描述:从数据库中查询出的某字段是json类型数据,然后在json输入步骤报错java.lang.ClassCastException: [B cannot be cast to java.lang.String 问题原因:从数据库查询出的数据不是String类型,而是二进制字节数组,所以在json解析时报错。 解决办法:在字段选择步骤中将字段类型设置成String类型,并且将Binary to Normal设置成是即可。 解决办法:在字段选择步骤中将字段类型设置成String类型,并且将Binary to Normal设置成是即可。 来源: https://www.cnblogs.com/sawyerFly/p/11833154.html

如何配置Kettle集群运行环境

感情迁移 提交于 2019-12-04 04:45:51
Kettle是一款开源的ETL工具,以其高效和可扩展性而闻名于业内。其高效的一个重要原因就是其多线程和集群功能。 Kettle的多线程采用的是一种流水线并发的机制,我们在另外的文章中专门有介绍。这里主要介绍的是kettle . Kettle 是一款开源的 ETL 工具,以其高效和可扩展性而闻名于业内。其高效的一个重要原因就是其多线程和集群功能。 Kettle 的多线程采用的是一种流水线并发的机制,我们在另外的文章中专门有介绍。这里主要介绍的是kettle的集群。 集群允许转换以及转换中的步骤在多个服务器上并发执行。 在使用 kettle 集群时,首先需要定义的是 Cluster schema 。所谓的 Cluster schema 就是一系列的子服务器的集合。在一个集群中,它包含一个主服务器( Master )和多个 从属服务器 服务器 (slave) 。如下图所示: 子服务器( Slave servers )允许你在远程服务器上执行转换。建立一个子服务器需要你在远程服务器上建立一个叫做“ Carte ”的 web 服务器,该服务器可以从 Spoon( 远程或者集群执行 ) 或者转换任务中接受输入。 在以后的描述中,如果我们提到的是子服务器,则包括集群中的主服务器和从属服务器;否则我们会以主服务器和从属服务器来进行特别指定。 选项 描述 服务器名称 子服务器的名称 主机名称或 IP

How to schedule Pentaho Kettle transformations?

旧街凉风 提交于 2019-12-03 21:42:08
I've set up four transformations in Kettle. Now, I would like to schedule them so that they will run daily at a certain time and one after the another. For example, tranformation1 -> transformation2 -> transformation3 -> transformation4 should run daily at 8.00 am. How can I do that? You can execute transformation from the command line using the tool Pan : Pan.bat /file:transform.ktr /param:name=value The syntax might be different depending on your system - check out the link above for more information. When you have a batch file executing your transformation you can just schedule it to run

ETL利器Kettle实战应用解析系列一【Kettle使用介绍】

不羁岁月 提交于 2019-12-03 18:07:25
一、 ETL 利器 Kettle 实战应用解析系列一【 Kettle 使用介绍】 二、 ETL 利器 Kettle 实战应用解析系列二 【应用场景和实战 DEMO 下载】 三、 ETL 利器 Kettle 实战应用解析系列三 【 ETL 后台进程执行配置方式】 本文主要阅读目录如下: 1 、 Kettle 概念 2 、下载和部署 3 、 Kettle 环境配置 4 、 Kettle 使用及组件介绍 ETL ( Extract-Transform-Load 的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种 etl 工具的使用,必不可少,这里我介绍一个我在工作中使用了 3 年左右的 ETL 工具 Kettle, 本着好东西不独享的想法,跟大家分享碰撞交流一下!在使用中我感觉这个工具真的很强大,支持图形化的 GUI 设计界面,然后可以以工作流的形式流转,在做一些简单或复杂的数据抽取、质量检测、数据清洗、数据转换、数据过滤等方面有着比较稳定的表现,其中最主要的我们通过熟练的应用它,减少了非常多的研发工作量,提高了我们的工作效率,不过对于我这个 .net 研发者来说唯一的遗憾就是这个工具是 Java 编写的。 1 、 Kettle 概念 Kettle 是一款国外开源的 ETL 工具,纯 java 编写,可以在