Kettle 使用Impala遇到plugin id [IMPALASIMBA] couldn't be found!

强颜欢笑 提交于 2020-08-14 08:21:37

这个该死的问题查了我整整3天,差点就放弃了。kettle用的人不多,文档也不太全,源码又重又大。

需求是从Impala用SQL读取数据,写入MYSQL。

环境是: pdi-ce-7.0.0.0-25 

Linux: CentOS7 

连接的是Cloudera Impala,使用第三方JDBC jar包:ImpalaJDBC4.jar 

在Windows环境下,使用spoon.bat编写的JDBC同步逻辑是可以使用的,没有问题。

在Linux下面,运行第一次的时候,也可以正常运行,但是第二次运行后,就会报:

Error reading object from XML file
Unable to load database connection info from XML node
Unable to create new database interface
database type with plugin id [IMPALASIMBA] couldn't be found!

根据baidu某帖子,删除$KETTLE_HOME/system/karaf/caches 下的内容后,就可以顺利执行。

但是你不可能每次运行kettle作业都删一次本地缓存,这样并发进程的时候可能会出现bug。

怀疑是karaf这个OSGi容器生成的bundle有问题,思路就是不让它生成缓存文件就是了。据了解,Apache Karaf 每次加载一个Class,就会在Bundle里面生成一个classloader。

最后顺藤摸瓜,加了一个配置:

if [ -z "$PENTAHO_DI_JAVA_OPTIONS" ]; then
    PENTAHO_DI_JAVA_OPTIONS="-Xms1024m -Xmx2048m -XX:MaxPermSize=256m -Dpentaho.karaf.root.transient=true"
fi

在spoon.sh的代码里面,加入了-Dpentaho.karaf.root.transient=true。这样就不会生成缓存了,多次执行也OK。

目前可以解决当前使用。

 

ref: https://help.pentaho.com/Documentation/6.1/0P0/100/Karaf_Performance_Tuning  https://www.cnblogs.com/lxnz/p/7772060.html

https://blog.csdn.net/fengfengchen95/article/details/83990760 

 

 

 

 

 

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!