kettle

大数据技术之kettle

安稳与你 提交于 2019-11-29 03:31:57
大数据技术之 kettle 第1章 kettle概述 1.1 什么是kettle kettle是一款开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 1.2 kettle核心知识点 1.2.1 kettle工程存储方式 1) 以XML形式存储 2) 以资源库方式存储(数据库资源库和文件资源库) 1.2.2 kettle的两种设计 简述: Transformation(转换):完成针对数据的基础转换。 Job(作业):完成整个工作流的控制。 区别:(1)作业是步骤流,转换是数据流。 (2)作业的每一个步骤必须等到前面的步骤都跑完了后面的步骤才会执行;而转换会一次性把所有控件全部先启动(一个控件对应启动一个线程),然后数据流会从第一个控件开始,一条记录、一条记录的流向最后的控件。 1.2.3 Kettle的组成 1. 勺子(Spoon.bat/spoon.sh):是一个图形化的界面,可以让我们用图形化的方式开发转换和作业。Windows选择.bat;Linux选择.sh 2. 煎锅(Pan.bat/pan.sh):利用Pan可以用命令行的形式调用Trans 3. 厨房(Ktitchen.bat/kitchen.sh):利用Kitchen可以使用命令行调用Job 4. 菜单(Carte.bat/carte.sh)

大数据之kettle安装

半城伤御伤魂 提交于 2019-11-29 03:29:29
1. kettle 安装地址 官网地址: https://community.hitachivantara.com/s/article/data-integration-kettle 下载地址: https://sourceforge.net/projects/pentaho/files/ 2. 安装 jdk 下载地址: http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 同意相关协议,再下载对应版本的 jdk ( windows x64 ) 下载软件为 双击安装 下一步继续安装(需要注意路径) 下一步等待安装完成。安装目录如下所示 下载 kettle 压缩包,因为 kettle 为绿色软件,解压缩到任意本地路径即可 双击 Spoon.bat ,启动图形化界面工具即可使用 来源: https://www.cnblogs.com/bangandwolf/p/11443527.html

Kettle安装和简单使用

心已入冬 提交于 2019-11-29 03:29:27
Kettle 安装和使用 安装 安装之前需要准备的环境为 Java 环境,需要提前配置好 jdk 下载之后,解压即可使用。 使用 1. 因为该工具主要是对数据库进行操作,所以需要提前将 mysql 的 jar 包放到 lib 文件夹下边。 2. 使用可视化图形界面,双击运行 初始界面如下: 这两个分别是转换和作业两个类型,下面举例对这两个进行简单的应用。 操作举例 转换操作 目标:将数据表 stu1 中的数据,转移到数据表 2 中,如果 2 中有相同的 id 则覆盖。如果没有则插入到数据表中。 数据准备: stu1 表 stu2 表 双击转换进入新界面 在输入中选择:表输入 在输出中选择:插入 / 更新 然后按住 shift 使用鼠标将两个节点连接起来。 如下图: b) 双击表输入: 填写对应的连接参数,本例子以 mysql 为例 设置新的连接参数,填写完成之后点击测试,成功之后点击确定。 c) 在 sql 处填写 sql 语句 Select * from stu1 可以点击下方预览,查看当前表中数据 点击确定退出。 d) 双击插入 / 更新 选择目标表:找到 stu2 ,点击确定 然后如图 第三步操作如图(去掉不匹配的字段) 因为我们的目标是对 id 为标准进行插入更新。所以需要将其他几个字段在查询关键字列表中删除。 更新字段中,我们要将 id 的更新设置为 N ,因为 id

kettle

好久不见. 提交于 2019-11-29 02:41:00
Kettle是一款开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装, 数据抽取高效稳定。 Kettle工程存储方式   1) 以XML形式存储   2) 以资源库方式存储(数据库资源库和文件资源库) Kettle的两种设计 Kettle的组成 kettle特点 kettle安装部署和使用 官网地址 https://community.hitachivantara.com/docs/DOC-1009855 下载地址 https://sourceforge.net/projects/pentaho/files/Data%20Integration/ Windows下安装使用 在实际企业开发中,都是在本地环境下进行kettle的job和Transformation开发的,可以在本地运行,也可以连接远程机器运行 1) 安装jdk 2) 下载kettle压缩包,因kettle为绿色软件,解压缩到任意本地路径即可 3) 双击Spoon.bat,启动图形化界面工具,就可以直接使用了 案例3:将hive表的数据输出到hdfs (1)因为涉及到hive和hbase的读写,需要修改相关配置文件。 修改解压目录下的data-integration\plugins\pentaho-big-data-plugin下的plugin.properties

关于 kettle 连接 mysql 的一些问题

回眸只為那壹抹淺笑 提交于 2019-11-29 00:17:28
http://kcd.nivalsoul.cn/article/1543471574567 MySQL 版本 5.7 及以下的情况 对于 5.7 及以下版本的 mysql,jdbc 驱动使用 mysql-connector-java-5.1.x.jar,在数据库连接的地方,选择 MySQL,JDBC 方式 不要使用带 bin 的 jar!否则可能会出现各种莫名其妙的问题。 MySQL 版本 8.0 的情况 对于 8.x 版本的 MySQL,jdbc 连接驱动方式有所变化,不能使用现有的 MySQL 连接配置方式,需要使用自定义 jdbc 连接方式(数据库类型选择 Generic Database ),jdbc驱动jar需要使用 8.x.jar * jdbc.driver=com.mysql.cj.jdbc.Driver * jdbc.url=jdbc: mysql://localhost:3306/sys_test?useUnicode=true&characterEncoding=UTF-8&useSSL=false&serverTimezone=Asia/Shanghai&zeroDateTimeBehavior=CONVERT_TO_NULL * jdbc.username=root * jdbc.password=root 指定上述的的 driver 和自己的 url

Pass DB Connection parameters to a Kettle a.k.a PDI table Input step dynamically from Excel

久未见 提交于 2019-11-28 23:26:51
I have a requirement such that whenever i run my Kettle job, the database connection parameters must be taken dynamically from an excel source on each run. Say i have an excel with column names : HostName, Username, Database, Password. i want to pass these connection parameters to my table input step dynamically whenever the job runs. This is what i was trying to do. You can achieve this by reading the DB connection parameters from a source (e.g. Excel or in my example a CSV file) storing the parameters in variables using the variables in your connection setting. Proceed as follows Create

KETTLE——(例)简单的字段转换

假装没事ソ 提交于 2019-11-28 22:13:38
一个简单的小例子:结合数据抽取、简单的字段转换、数据输出。 资源库连接 、 数据输入 、 数据输出 、参见之前的文章。 ​ 基本的转换结构是这样的,我们从表中输入,选择我们需要的字段,已经对应的名称,然后将数据在存入另外的数据库。 表输入的配置: ​ 根据自己数据库的配置连接,连接数据库。 字段选择的配置: ​ 不想要的字段可以直接删掉,需要改名的字段可以在直接改名 表输出的配置: ​ 根据自己数据库的配置连接,连接数据库。 这样的配置基本就完成了,开始转换就可以了,效果就是过滤了不想要的字段,及时两张表的字段名称不一样也可以对应的转换过去。 来源: https://www.cnblogs.com/ben-mario/p/11429256.html

KETTLE——初见KETTLE

本小妞迷上赌 提交于 2019-11-28 22:13:06
(PS:这是很早以前在CSDN上发过的,那个账号不想用了,所以搬过来) 就在前一段时间,因为公司需要突然被老大告知要用一个ETL工具,第一次知道这么个工具,完全不知道是做什么的。大概问了一下,说是一种数据转化工具。这就开始了: 1.了解什么是ETL:百度百科 ETL 。 2.查找合适的ETL工具:支持Oracle、MySQL、开源,于是我遇到了KETTLE; 3.开始了解 KETTLE ,(连接为KETTLE的开源社区网) 4.下载KETTLE(PS:同样都是要学习,所以我选择了目前最新的版本:pdi-ce-6.0.1.0-386,一般新的版本网上的资料可能会比较少,但通常都可以学习参考) 5.开始找学习文档和资料,比较官方的文档我是没有找到(如果谁有请发我一份),网上的博客倒是不少大多数是4版本的,虽然有一些转载的人不对其测试,原创的人写的不够详细当然也有详细的,但总归还是谢谢他们的分享精神让我对其有了大概的了解。(PS:对于那些我就不贴连接了,网上铺天盖地的博客)。 以上基本全是网上的东西,作为KETTLE工具新手的我,大概说说我的理解和学习的过程 (有误请谅解): KETTLE,一个抽取+转换+加载的工具,用JAVA开发,因此运行也需要JAVA的环境。 我把这个工具大体上分为了六块内容:资源库、数据抽取、映射转换、数据写入、调度、增量处理。 资源库

KETTLE——(一)资源库

北战南征 提交于 2019-11-28 22:12:55
对KETTLE有了大概的了解, pdi-ce-6.0.1.0-386也下载完成了。 1.解压 pdi-ce-6.0.1.0-386.zip文件,双击运行Spoon.bat ( KETTLE是Java开发的,运行以来JAVA环境) 2.看到初始界面,如下图(0),不同版本初始页面基本相同,有些会在初始界面之前弹出一个连接资源库的窗口,关掉即可不影响。 ​ (图0) 3.创建资源库,工具——>资源库——> 连接资源库(Ctrl+R),流程图如下(1) ​ (图1) 注意:连接MySQL数据库报错(缺包报错) mysql-connector-java-5.1.32.jar 添加 ../data-integration/lib目录下,重启Kettle即可,返回第四步的时候记得点【创建或更新】,默认密码admin。 注意:连接Oracle数据库报错(缺包报错) ​ ojdbc6.jar(用14的包虽然能连接上,但是会报错) 添加 ../data-integration/lib目录下, 重启Kettle即可,返回第四步的时候记得点【创建或更新】,默认密码admin。 值得注意的是:如果放了不同版本的两个包会包空指针异常,具体是为什么,本人未深究。知道的请告诉我一声。如果一切正常应该是46张表。 总结:主要问题出现在连接数据库上,可能是KETTLE对数据库的支持不是很完整