kettle | 易学教程

How to configure Database connection for production environment in Pentaho data integration Kettle transformation

阅读更多关于 How to configure Database connection for production environment in Pentaho data integration Kettle transformation

I designed a ktr file for transformation. I need to configure the database connection details of production environment. How can I do this? Any suggestions? I use environment variables. KETTLE_HOME KETTLE_JNDI_ROOT PATH=$PATH:$KETTLE_HOME Kettle home is just a link to directory. By default i have directory specially devoted to data-integration suite. It contains several versions of kettle. Example /opt/kettle/data-integration-4.4.0 (few old jobs made like several years ago) /opt/kettle/data-integration-5.2.0 (currenly used) /opt/kettle/data-integration-6.0.0 (on test) then there is a link to

Pentaho Spoon - Output to multiple files based on field content

阅读更多关于 Pentaho Spoon - Output to multiple files based on field content

I have been attempting splitting the results of a pentaho transform into multiple files based on the value of a specific field without any luck. E.g. a result set containing the following: SURNAME, FIRSTNAME, COUNTRY Obama, Barack, USA Cameron, David, UK Blair, Tony, UK Would result in 2 output files being created: USA.txt - containing Obama's details and UK.txt - containing the other 2 rows Any pointers would be greatly appreciated. You can construct a field act as output filename based on Country field. Sent the new constructed field as output filenames in "Text File Output" step. See the

How to get attached files from an email, using Pentaho Kettle?

阅读更多关于 How to get attached files from an email, using Pentaho Kettle?

I'm stuck in a great problem. My task is to download some emails from a server using the IMAP protocol. This is accomplished by using the "get mails (POP3 / IMAP)" job entry, which downloads the emails, but in binary format. Files in binary format are .mail files containing sender, subject, body, and encoded attachment files. I need to obtain separate files, because I must realize some steps with these files as input. I've seen that there are third-party libraries or utilities to decode the .mail file and get the attachment file list. However, I want to do this process without any additional

Kettle实现数据库迁移

阅读更多关于 Kettle实现数据库迁移

需求：做数据仓库时,需要将业务系统CRM抽取到数据仓库的缓冲层，业务系统使用的是SqlServer数据库，数据仓库的缓冲层使用的是mysql数据库，为实现数据库的迁移，即将SqlServer数据库中的所有表与数据迁移到Mysql。解决办法: kettle设计一整套流程实现，读取数据库中表->创建表->表数据抽取实现过程：整套流程分为： 2个job，4个trans 。使用到的Trans插件：表输入、字段选择、复制记录到结果、从结果获取记录、设置变量、java脚本、表输出。 1、表数据抽取作业: 作用:首先获取数据库中所有的表名称然后调用子Job进行表的创建、数据抽取 2. 表名称获取流程要迁移的源库表名称获取，并设置到结果集，为下面的job使用。其中的表输入使用的是show tables，复制数据库中所有的表，也可以从表中或者excel中输入，实现更加小粒度的控制。 show tables 结果为Tables_in_数据库名称,和具体数据库有关，故需要改名 3、子作业: 实现单个表格的创建及抽取 4、表名称变量设置上一步的子转换 5、入库表结构创建执行的Java代码如下 public boolean processRow(StepMetaInterface smi, StepDataInterface sdi) throws KettleException { /

玩转大数据系列之一：数据采集与同步

阅读更多关于玩转大数据系列之一：数据采集与同步

数据的采集和同步，是先将数据从设备、或者本地数据源采集、同步到阿里云上，然后在阿里云上对数据进行分析和处理，最终完成您的业务要求。本文向您介绍阿里云各产品的数据采集和同步的操作实战文章，您可以根据您使用阿里云产品，查看相应的文档教程。关于数据采集，DataWorks专门有一个模块叫做数据集成，是阿里巴巴集团对外提供的稳定高效、弹性伸缩的数据同步平台。致力于提供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力。详细介绍请参见数据集成概述。 MaxCompute Hadoop数据迁移MaxCompute JSON数据从OSS迁移到MaxCompute最佳实践 JSON数据从MongoDB迁移到MaxCompute最佳实践 DataWorks 新增日志服务（Loghub）通过数据集成投递数据新增ElasticSearch通过数据集成导入数据数据集成最佳实践—OTSStream配置同步任务 RDS迁移到Maxcompute实现动态分区最佳实践 Elasticsearch 使用DataWorks实现Hadoop与Elasticsearch数据同步使用DataWorks实现MaxCompute与Elasticsearch数据同步阿里云上数据导入阿里云ES（离线）同步 MySQL 数据库到 Elasticsearch 中并进行搜索分析 AnalyticDB

Pentaho Spoon - Output to multiple files based on field content

阅读更多关于 Pentaho Spoon - Output to multiple files based on field content

问题 I have been attempting splitting the results of a pentaho transform into multiple files based on the value of a specific field without any luck. E.g. a result set containing the following: SURNAME, FIRSTNAME, COUNTRY Obama, Barack, USA Cameron, David, UK Blair, Tony, UK Would result in 2 output files being created: USA.txt - containing Obama's details and UK.txt - containing the other 2 rows Any pointers would be greatly appreciated. 回答1: You can construct a field act as output filename based

KETTLE安装及连接MySQL数据库

阅读更多关于 KETTLE安装及连接MySQL数据库

kettle安装（默认电脑已经安装java，并配置环境变量，该版本kettle对应jdk1.8） kettle下载地址： https://community.hitachivantara.com/docs/DOC-1009855 下拉页面到此处，点击此处弹出下面界面，并弹出下载框点击浏览可更改下载地址打开kettle 界面进入下载好的文件夹D:\pdi-ce-7.1.0.0-12\data-integration 下（根据自己下载地址而定）双击Spoon.bat 进入kettle 界面，进入时间可能比较长，耐心等待。。。。。。。进入界面等待1，2 分钟左右即可进入。。。。至此，kettle 完成安装。连接mysql数据库 1 准备驱动包：如果要连接mysql数据库，要事先下载mysql的jdbc 驱动包，所以我们要下载该jar 包（jar包下载详见附录）下载好后，解压该文件将文件夹中的mysql-connector-java-5.1.48-bin.jar 文件复制到kettle 所安装的D:\pdi-ce-7.1.0.0-12\data-integration\lib 下即可。 2 连接数据库打开连接数据库页面，按要求输入下面参数，注意连接类型选择 MySQL 此时，数据库连接参数已填写完毕，可以点击测试是否连接成功，成功连接会弹出如下框所示结果附

kettle 报错汇总

阅读更多关于 kettle 报错汇总

如下汇总kettle 常见报错及解决方法： 1、报错 1.kettle 无法连接上数据库 2、报错 2.javax.mail.AuthenticationFailedException: 535 : authentication failed 3、报错 3.Problem while sending message: com.sun.mail.smtp.SMTPSendFailedException: 554 DT:SPM 163 smtp12 报错 1.kettle 无法连接上数据库原因：orai18n.jar 包做了一个新的需求，这个需求是从本地跑数据，然后把结果数据同步到生产。在同步的过程中一直报如下错误。很奇怪的问题是，通过图形化界面执行kettle没有报错，如果通过kitchen.sh 调度就会报如下错误。这个问题遇到了两次，有必要记录一下。虽然不知道本质原因，但可以解决燃眉之急。如下错误解决需要删除jar包：distrib/lib/orai18n.jar distrib/libext/JDBC/orai18n.jar ，如果遇到相同的问题，不妨一试。 ERROR 02-09 11:03:17,384 - Table output - An error occurred intialising this step: Error occured while

记一个 MySQL Streaming result set 时的小错误

阅读更多关于记一个 MySQL Streaming result set 时的小错误

同事使用kettle迁移MySQL数据时出现了 SQLException，详细报错信息如下： Error reading from database: java.sql.SQLException: Streaming result set com.mysql.jdbc.RowDataDynamic@xxxxxxx is still active. No statements may be issued when any streaming result sets are open and in use on a given connection. Ensure that you have called .close() on any active streaming result sets before attempting more queries. 经查询 MySQL官方文档（MySQL版本 5.1-8.0 一样），发现报错原因是JDBC没有处理完resultSet结果集时又使用同一个connection提交了新的query。下面是官方文档对ResultSet的JDBC实现说明：默认情况下，ResultSet会一次性返回结果集并保存在内存中。这也是最有效率且最容易实现的一种方式。但是当ResultSet含有大量数据（很多行、或者包含大对象的情况下）时

kettle调用webservice服务抽取结果到目标库，同时更新源数据库标志位

阅读更多关于 kettle调用webservice服务抽取结果到目标库，同时更新源数据库标志位

kettle调用webservice服务抽取结果到目标库，同时更新源数据库标志位一、基本配置文件--新建--转换建立项目主对象树DB连接，一个源数据库centeradapter参数库、一个目标数据库ehrview参数库假如输入库中某张表为： create table TEST20190917( ID NUMBER, SHENG VARCHAR2(20), FLAGTYPE VARCHAR2(4) );，输出库中某张表为： create table TEST20190917( SHENG VARCHAR2(20), XMLDATA VARCHAR2(2000) ); 二、创建步骤建立整体步骤如下所示 1、核心对象--输入--表输入，连接输入库，读取基础参数表 2、核心对象--转换--字段选择点击基础参数表输入框，按住shift键，鼠标自前者到字段选择框移动，会进行两个按钮连接，同样方法进行其他步骤直接的连接 3、核心对象--查询--WEB服务查询，以天气预报服务接口 http://www.webxml.com.cn/WebServices/WeatherWebService.asmx?wsdl 为例，进行配置 4、核心对象--输入--XML文件输入，XML源定义在一个字段里打对号，选择源字段名，根据webservice服务接口返回xml数据配置循环读取路径 ody>

订阅 kettle