Kettle中ETL的效率优化
ETL效率优化 开启数据库日志记录及性能监控 如果我们想要优化一个ETL(KTR或者KJB)的性能,我们首先需要知道的就是它的瓶颈在哪里。而这些信息一般只能在ETL运行的步骤度量中看到,并且是不会持久化的。如果你希望把一些数据记录下来,帮助以后进行查阅,那么可以开启数据库日志和性能监控。 作业 Edit -> Settings -> Log 具体设置过程就不细讲了,很简单。 转化 Edit -> Settings -> Logging 这时开启了日志记录,还需要设置性能监控 Edit -> Settings -> Monitoring 勾选 Enable step performance monitoring(开启性能监控),下面的两个选项分别是: Step performance measurement interval ( ms ) (对每一步进行性能监测的度量间隔):这一个选项的大小会影响你在数据库记录的详细程度,一般以运行总时长的十分之一左右的数值即可,这样对于每一步可以记录 10 组左右的数据,足够做一些基本的分析,注意单位是毫秒。 Maximum number of snapshots in memory (在内存中保存的最大的快照数量):这一个选项在我们系统的内存不是很足够时可以使用,但是太小可能会导致无法分析出来,和上面的选项搭配使用。 转化的错误日志输出