kettle

在Linux下部署kettle的Job

こ雲淡風輕ζ 提交于 2021-02-12 03:20:16
关于如何用kettle创建job以及如何部署kettle到linux上,我就不细说了,大家应该都会,下面重点说一下,如何让job执行起来先将创建好的脚本上传到kettle指定目录下面,创建调用job执行的脚本文件, export JAVA_HOME=/usr/java/jre1.6.0_23 export PATH=$JAVA_HOME/bin:$PATH export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar /opt/pentaho/data-integration/kitchen.sh -file=/opt/pentaho/KettleJob/test.kjb 然后赋权 chmod +x /opt/pentaho/KettleJob/test.sh 执行 ./opt/pentaho/KettleJob/test.sh 执行过程可以控制台会输出具体信息最后,大家通过使用crontab命令添加定时任务,具体就不多说了。 本文出自 “ 乔磊的博客 学习 进步 ” 博客,请务必保留此出处 http://sucre.blog.51cto.com/1084905/1408826 来源: oschina 链接: https://my.oschina.net/u/79159/blog/296359

Pentaho BI - MongoDB input Aggregation error due to recent MongoDB upgrade to 3.6

白昼怎懂夜的黑 提交于 2021-02-08 07:46:30
问题 Due to recent Mogodb upgrade to 3.6, pentaho kettle mongoinput step aggregation not be able to fetch data from the Mongodb. The error message: com.mongodb.MongoCommandException: Command failed with error 9: 'The 'cursor' option is required, except for aggregate with the explain argument' on server localhost:2915. The full response is { "ok" : 0.0, "errmsg" : "The 'cursor' option is required, except for aggregate with the explain argument", "code" : 9, "codeName" : "FailedToParse" } It seems

Pentaho kettle - get all combination of words

随声附和 提交于 2021-01-29 20:01:33
问题 How can I get all possible combination of words through pentaho kettle. Is there a step that does this? For example - if I have 3 word Apple , Banana , Orange I need all unique combinations of those words I.e. comb1 = Apple ; Comb2 = Banana ; Comb3 = Orange ; Comb4 = Apple + Banana ; Comb5 = Apple + Orange ; Comb6 = Banana + Orange ; Comb7 = Banana + Apple ; Comb8 = Orange + Apple ; Comb9 = Orange + Banana ; Comb10 = Apple + Banana + Orange ; Comb11 = Apple + Orange + Banana ; Comb12 = Banana

lookup_Pentaho data Integration

ⅰ亾dé卋堺 提交于 2021-01-29 06:10:30
问题 I have two files (App.csv and Acess.csv) App.csv has one column called Application Application App-A App-B Access.csv contains 3 columns (Application, entitlement, userid) Application, entitlement, userid App-A,ent-A,user1 App-A,ent-B,user1 App-B,ent-c,user2 App-B,ent-d,user1 App-C,ent-c,user2 App-C,ent-d,user1 I need extract all the App-A and App-B details if it matches Application file column and output should like be below App-A,ent-A,user1 App-A,ent-B,user1 App-B,ent-c,user2 App-B,ent-d

部署Kettle做ETL开发并使用Crontab制作调度系统

本秂侑毒 提交于 2021-01-09 04:56:53
背景说明: 在数据量较小,且数据源和装载地都是关系型数据库时,使用Kettle做ETL较为简便。 由于调度系统产品因为服务器环境方面的因素,而无法部署,故使用Linux的crontab定时器来制作简易调度系统是一个比较简便的解决方案。 本文旨在记录Kettle的部署及配置文件配置注意事项和如何自制简易调度系统,以便处理类似问题时方案的复用。 一、环境与工具 CentOS 6.7 JDK1.8/JDK1.7 pdi-ce-6.1.0.1-196.zip 二、Linux安装Kettle 2.1 安装JDK并配置环境变量 Kettle的运行需要jdk环境,所以需要先安装jdk。jdk的安装方法此处略去。 2.2 创建kettle用户 # useradd -m kettle 2.3 上传Kettle安装包并解压 创建kettle部署目录 # mkdir /opt/kettle 将安装包pdi-ce-6.1.0.1-196.zip上传至/opt/kettle目录下,并解压: # unzip /opt/kettle/pdi-ce-6.1.0.1-196.zip 2.4 更改属主属组和执行权限 # chown -R kettle:kettle /opt/kettle # chmod 755 /opt/kettle/pdi-ce-6.1.0.1-196/data-integration/*.sh

Kettle / Pentaho Data Integration - unable to create a Database Connection (XulException: java.lang.reflect.InvocationTargetException)

久未见 提交于 2020-12-30 05:25:47
问题 Having finally got kettle to start and not hang, I still cannot use it to much avail, as when I try to create a new Database Connection (after creating a new Transformation) I get this error: org.pentaho.ui.xul.XulException: java.lang.reflect.InvocationTargetException Thereafter, I get this more general error for the same actions: General error in dialog In order to get the first 'java...TargetException' again, I have to close and restart kettle. Note, this also happens when I load an

Kettle / Pentaho Data Integration - unable to create a Database Connection (XulException: java.lang.reflect.InvocationTargetException)

笑着哭i 提交于 2020-12-30 05:24:40
问题 Having finally got kettle to start and not hang, I still cannot use it to much avail, as when I try to create a new Database Connection (after creating a new Transformation) I get this error: org.pentaho.ui.xul.XulException: java.lang.reflect.InvocationTargetException Thereafter, I get this more general error for the same actions: General error in dialog In order to get the first 'java...TargetException' again, I have to close and restart kettle. Note, this also happens when I load an

【收藏】关于元数据(Metadata)和元数据管理,这是我的见过最全的解读!

耗尽温柔 提交于 2020-12-24 17:49:49
本文主要从元数据的定义、作用、元数据管理现状、管理标准和元数据管理功能等方面讲述了我对元数据(Metadata)和元数据管理的认知及理解。 元数据管理 一、元数据的定义 按照传统的定义,元数据(Metadata)是关于数据的数据。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。 技术元数据 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据,它主要包括以下信息: 数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容; 业务系统、数据仓库和数据集市的体系结构和模式; 汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、预定义的查询与报告; 由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、数据提取、清理、转换规则和数据刷新规则、安全(用户授权和存取控制)。 业务元数据 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息

(二)ODS层更新:源表和目标表,没有last_update,比对取增量,却重复抽到某部分数据,怎么解决?

人盡茶涼 提交于 2020-12-01 13:18:28
源表和目标表,比对的时候,某部分数据,每次比对都被认为是“新数据”,然后每次抽取比对都会被过滤到目标表,从而造成目标表有很多重复数据,是什么原因呢?原因是该表的多个字段“数据缺失严重”,我们比对数据前是已经给空值/空格填了默认值,也就是说这些被填充过的字段,是有很多重复值的。我们联表查询时,关联字段时有重复值时,那这次查询肯定会发散,而我们用的kettle【合并记录】插件的原理也是联表查询。 我的上一篇文章《ODS层更新:如果源数据没有“更新时间“字段,如何作增量抽取?我都踩过这些坑》提到用来联表的字段,一定是该条的数据的唯一标识。如果不是的话,那就造一个,多个字段作为“关联字段”避免发散。如果一条数据,10个字段,7个字段缺失,你怎么造“唯一标识”,最后联表比对时,还是会发散。也就是说,联表时,某部分数据字段值缺失严重,多对多联表是有风险的,那有没有其他取增量更优的解决方案呢? 即然多对多联表有风险,那就一对一联表,不就解决了吗? 取增量思路:源表 left outer join 目标表 源表 LEFT OUTER JOIN 目标表 WHERE 目标表.关联字段 IS NULL 建【源表】 CREATE TABLE work_exper ( id NUMBER ( 10 ) , name VARCHAR2 ( 10 ) , company VARCHAR2 ( 10 ) ,

Neo4j elk Elasticsearch kibana kettle

邮差的信 提交于 2020-11-21 08:20:36
图形数据库,用于查找犯罪或者啥的很好用:反欺诈 win安装neo4j使用查询 https://www.cnblogs.com/rubinorth/p/5853204.html linux下安装neo4j使用查询 https://blog.csdn.net/u013946356/article/details/81736232 倒数 https://blog.csdn.net/graphway/article/details/80797134 Elasticsearch搜索引擎 kibana可视化工具 logstah 管道工具,还有分词器ik https://www.cnblogs.com/dreamroute/p/8484457.html https://blog.csdn.net/makang110/article/details/80596017 https://blog.csdn.net/qq_28799479/article/details/82425751 https://www.cnblogs.com/Jxwz/p/4147425.html kettle 开源etl工具 https://www.cnblogs.com/wingsless/p/3187436.html https://blog.csdn.net/qq_36743482/article/details