kettle

Kettle中ETL的效率优化

匿名 (未验证) 提交于 2019-12-03 00:09:02
ETL效率优化 开启数据库日志记录及性能监控 如果我们想要优化一个ETL(KTR或者KJB)的性能,我们首先需要知道的就是它的瓶颈在哪里。而这些信息一般只能在ETL运行的步骤度量中看到,并且是不会持久化的。如果你希望把一些数据记录下来,帮助以后进行查阅,那么可以开启数据库日志和性能监控。 作业 Edit -> Settings -> Log 具体设置过程就不细讲了,很简单。 转化 Edit -> Settings -> Logging 这时开启了日志记录,还需要设置性能监控 Edit -> Settings -> Monitoring 勾选 Enable step performance monitoring(开启性能监控),下面的两个选项分别是: Step performance measurement interval ( ms ) (对每一步进行性能监测的度量间隔):这一个选项的大小会影响你在数据库记录的详细程度,一般以运行总时长的十分之一左右的数值即可,这样对于每一步可以记录 10 组左右的数据,足够做一些基本的分析,注意单位是毫秒。 Maximum number of snapshots in memory (在内存中保存的最大的快照数量):这一个选项在我们系统的内存不是很足够时可以使用,但是太小可能会导致无法分析出来,和上面的选项搭配使用。 转化的错误日志输出

kettle8.2-win7安装步骤

匿名 (未验证) 提交于 2019-12-02 23:37:01
一:在win7搭建Kettle 8.2的使用环境 二: 提前下载好下面的两个包 pdi-ce-8.2.0.0-342.zip jdk-8u181-windows-x64 三:步骤 1.安装jdk,具体步骤百度即可,网上有很多步骤 2.配置jdk的环境变量 右击桌面上的计算机,选择属性-高级系统设置; 在系统属性界面,选择高级-环境变量; 在环境变量界面中选择系统变量下的新建,建立如下的变量; JAVA_HOME C:\Program Files\Java\jdk1.8.0_181 CLASSPATH %JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar; PATH后添加: ;%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin; 然后重启电脑; 电脑启动后,在命令行窗口输入javac,出现jdk版本结果表示配置成功; 3.解压pdi-ce-8.2.0.0-342.zip,将解压后的文件放置到需要的目录中; 进入pdi-ce-8.2.0.0-342\data-integration中,运行Spoon.bat 即可 四:连接不上数据库如何处理(mysql为例) 1.提示错误[mysql] : org.pentaho.di.core.exception.KettleDatabaseException: Error

kettle-转换

匿名 (未验证) 提交于 2019-12-02 23:36:01
1:列转行 2:列转行 3:去除重复记录 4:增加序列 5:字段选择 6:字符串替换 A:kettle中的正则表达式 例如:t.n----匹配tan,ton,tmojn,tn 例如t[asdf]n----匹配tan,tsn,tdn 7:将字段值设置为常量 8:拆分字段 文章来源: https://blog.csdn.net/lllW_Wlll/article/details/90696110

kettle中job的定时执行

匿名 (未验证) 提交于 2019-12-02 23:36:01
在完成job后经常会有定时执行的需求,一种是在start中设置,但是需要串口一直存在,操作起来不太方便;另外就是在kettle中添加.bat文件,然后把.bat文件添加到计算机的任务计划中定时执行,具体操作如下: 1、为了方便区别,现在data-integration(kettle解压文件的根目录)下创建新的文件夹; 2、在文件夹下创建.bat文件; @ECHO off rem KETTLE的路径 REM set path_kettle=%CD% set path_kettle=D:\kettle\data-integration rem 作业相关 rem 资源库 路径 JOB 用户 密码 set myrep=admin set mydir=MyJob set myjob=zzz set myuser=admin set mypass=admin rem 日志文件 set file_log=%path_kettle%\bat-logs\%myjob%%date:~0,4%%date:~5,2%%date:~8,2%.log CD /D %path_kettle% echo 请不要关闭此窗口:正在执行%myjob%_job.. rem 执行KETTLE。 call kitchen -rep %myrep% -dir %mydir% -job %myjob% -user %myuser

kettle结合quartz框架实现任务调度

匿名 (未验证) 提交于 2019-12-02 23:36:01
Quartz定机制 首先导入jar包程序内 quartz-all-1.6.0.jar 创建XML TimeConfig.xml 名字自定义 <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" ""> <beans> <bean id="mainTask" class="net.timed.MainTask"/> //要执行任务类 //jar类 <bean id="mainJob" class="org.springframework.scheduling.quartz.MethodInvokingJobDetailFactoryBean"> <property name="targetObject"> <ref bean="mainTask"/>//类添加定器 </property> <property name="targetMethod"> <value>execute</value> //定执行类面哪 </property> </bean> <bean id="timeTrigger" class="org.springframework.scheduling.quartz.CronTriggerBean"> <property name=

ETL工具kettle入门

匿名 (未验证) 提交于 2019-12-02 22:56:40
ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少。kettle是纯java编写,支持图形化的GUI设计界面,然后可以以工作流的形式流转,在做一些简单或复杂的数据抽取、质量检测、数据清洗、数据转换、数据过滤等方面有着比较稳定的表现,其中最主要的我们通过熟练的应用它,减少了非常多的研发工作量,提高了我们的工作效率。 1、Kettle概念 Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。 Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。 Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。 2、Kettle组成 3、下载 安装 运行 下载 kettle的最新下载地址: http://community.pentaho.com/projects/data

Linux安装Kettle7.0版本

纵饮孤独 提交于 2019-12-02 22:15:55
一、环境说明 Linux:Centos 7.2最小化方式安装 JDK:1.8 Kettle:7.1 VMware:14.0.0 build-666132 二、配置CentOS7.2 若安装CentOS7.2时未开启网络,则需要手动修改 /etc/sysconfig/network-scripts/ifcfg-***** 文件, vi编辑,将 ONBOOT=no 改为 ONBOOT=yes , 保存重启网卡:service network restart 。 可通过ping来测试是否成功, 如ping www.baidu.com。 三、安装JDK 1、下载Linux下JDK文件,本例使用jdk1.8 (jdk-8u101-linux-x64.tar.gz) 2、解压: tar -xvf jdk-8u101-linux-x64.tar.gz 3、配置环境变量,修改/etc/profile文件,在最后增加: export JAVA_HOME=/usr/local/java/jdk1.8.0_101 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOME/bin 其中:JAVA_HOME为JDK文件解压后路径