pentaho

Kettle / Pentaho Data Integration - unable to create a Database Connection (XulException: java.lang.reflect.InvocationTargetException)

笑着哭i 提交于 2020-12-30 05:24:40
问题 Having finally got kettle to start and not hang, I still cannot use it to much avail, as when I try to create a new Database Connection (after creating a new Transformation) I get this error: org.pentaho.ui.xul.XulException: java.lang.reflect.InvocationTargetException Thereafter, I get this more general error for the same actions: General error in dialog In order to get the first 'java...TargetException' again, I have to close and restart kettle. Note, this also happens when I load an

【收藏】关于元数据(Metadata)和元数据管理,这是我的见过最全的解读!

耗尽温柔 提交于 2020-12-24 17:49:49
本文主要从元数据的定义、作用、元数据管理现状、管理标准和元数据管理功能等方面讲述了我对元数据(Metadata)和元数据管理的认知及理解。 元数据管理 一、元数据的定义 按照传统的定义,元数据(Metadata)是关于数据的数据。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。 技术元数据 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据,它主要包括以下信息: 数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容; 业务系统、数据仓库和数据集市的体系结构和模式; 汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、预定义的查询与报告; 由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、数据提取、清理、转换规则和数据刷新规则、安全(用户授权和存取控制)。 业务元数据 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息

数据仓库知识点梳理(4)

和自甴很熟 提交于 2020-10-06 02:24:48
接上一篇 数据仓库知识点梳理(3) 对数据立方体和MDX的介绍,本文将在本地Windows环境上搭建基于数据立方体的数据分析平台。并对一个示例立方体进行多维度分析。 环境配置 软件下载和安装 本文使用Pentaho的社区版本 BI Server 作为数据多维分析的工具,下载地址为 https://sourceforge.net/projects/pentaho/files/Business%20Intelligence%20Server/ 。当前最新版本为7.1,更新日期为2017年5月22日。 这个Pentaho出的另一个产品——「Pentaho Data Integration, 简称PDI」对于从事ETL工作的朋友应该很熟悉,PDI以前的名字叫做kettle。 下载的过程中,可以在需要安装的机器上先安装Java环境。这次我使用一台Windows7的笔记本电脑进行测试环境的搭建。Java运行环境JRE可以直接在Oracle官网进行下载。安装完成后,可以使用 java -version 查看版本信息。 BI Server下载完成之后解压,将其解压到指定程序目录,比如 D:\Program Files\pentaho\petaho-server 。 为了让BI Server能够找到Java程序的路径,需要在Windows的环境变量中添加名为 PENTAHO_JAVA_HOME

kettle数据转换过程中乱码问题解决

风格不统一 提交于 2020-08-18 11:20:15
从一个utf8的postgres抽到另一个utf8的postgres里,中间除了一步python的数据脱敏,其余都是kettle流程,排查发现,数据从进入kettle开始就是乱码了, 还没有经过python的步骤,所以锁定在kettle的问题。通过修改kettle的启动文件Spoon.bat来解决之。 if "%PENTAHO_DI_JAVA_OPTIONS%"=="" set PENTAHO_DI_JAVA_OPTIONS="-Xms128m" "-Xmx4096m" "-XX:MaxPermSize=256m" 用notpad++右键打开Spoon.bat,找到上边的这句话,在他后边添加指定编码即可。 if "%PENTAHO_DI_JAVA_OPTIONS%"=="" set PENTAHO_DI_JAVA_OPTIONS="-Xms128m" "-Xmx4096m" "-XX:MaxPermSize=256m" "-Dfile.encoding=UTF8" 重启kettle解决之。 参考: https://forums.pentaho.com/threads/94865-encoding-problem-utf8/ 来源: oschina 链接: https://my.oschina.net/finchxu/blog/4503451

如何彻底解决Kettle无法连接MySQL8的缺陷?

僤鯓⒐⒋嵵緔 提交于 2020-08-15 11:09:06
如何彻底解决Kettle无法连接MySQL8的缺陷? 一、背景 在使用Kettle对数据进行处理时,最常见的操作莫过于关系数据库的使用,然而使用最新版本Kettle8常面临以下几个痛点: 不支持MySQL8。 MySQL是当前最流行的开源关系数据库,用户基数仅次于Oracle。由于具有更好的性能,目前很多系统都已经用上了最新版本MySQL8。比较遗憾的是Kettle并不支持该版本数据库的连接。 无法在同一转换/作业中同时使用相同数据库的不同版本驱动。因为Kettle将所有数据库驱动统一放在lib目录中,并由同一个类加载器进行加载,如果存在多个版本的驱动则极有可能导致包冲突问题。假如一个转换需要同时连接MySQL5与MySQL8,Kettle无法实现。 缺少统一和有效的数据库插件获取渠道。在Kettle使用者需要一些新的数据库插件时往往不知所措,求助于目前各大社区(甚至是pentaho官方论坛)也无法得到及时有效的帮助。 我们可以使用同样免费的CKettle来彻底解决这些问题。CKettle创新性的将数据库连接插件全都从core中提取出来,成为**的可热插拔插件,并能实现多版本数据库连接并存。同时每个上架插件都包含了经过测试验证的默认连接驱动,免去自行查找的烦恼。 下文将详细介绍如何使用数据库连接插件功能,并举例验证。 二、精简版客户端插件下载安装 1.

【已解决】Kettle新建数据库连接报错(Mysql,MS Sql Server)

笑着哭i 提交于 2020-08-14 20:24:44
E:\迅雷下载\Kettle-pdi-ce-7.1.0.0-12\data-integration 运行spoon.bat 新建-数据库 报错内容: org.pentaho.ui.xul.XulException: org.pentaho.ui.xul.XulException: java.lang.reflect.InvocationTargetException at org.pentaho.ui.xul.impl.AbstractXulLoader.loadXul(AbstractXulLoader.java: 134 ) at org.pentaho.ui.xul.swt.SwtXulLoader.loadXul(SwtXulLoader.java: 128 ) at org.pentaho.ui.xul.swt.SwtXulLoader.loadXul(SwtXulLoader.java: 122 ) at org.pentaho.ui.xul.impl.AbstractXulLoader.loadXul(AbstractXulLoader.java: 242 ) at org.pentaho.ui.database.DatabaseConnectionDialog.getSwtInstance(DatabaseConnectionDialog.java: 60 ) at

Kettle 使用Impala遇到plugin id [IMPALASIMBA] couldn't be found!

强颜欢笑 提交于 2020-08-14 08:21:37
这个该死的问题查了我整整3天,差点就放弃了。kettle用的人不多,文档也不太全,源码又重又大。 需求是从Impala用SQL读取数据,写入MYSQL。 环境是: pdi-ce-7.0.0.0-25 Linux: CentOS7 连接的是Cloudera Impala,使用第三方JDBC jar包:ImpalaJDBC4.jar 在Windows环境下,使用spoon.bat编写的JDBC同步逻辑是可以使用的,没有问题。 在Linux下面,运行第一次的时候,也可以正常运行,但是第二次运行后,就会报: Error reading object from XML file Unable to load database connection info from XML node Unable to create new database interface database type with plugin id [IMPALASIMBA] couldn't be found! 根据baidu某帖子,删除$KETTLE_HOME/system/karaf/caches 下的内容后,就可以顺利执行。 但是你不可能每次运行kettle作业都删一次本地缓存,这样并发进程的时候可能会出现bug。 怀疑是karaf这个OSGi容器生成的bundle有问题,思路就是不让它生成缓存文件就是了。据了解