etl工具

INFORMATICA 开发规范

偶尔善良 提交于 2020-04-03 14:01:41
目 录 Informatica开发规范.... 1 目 录.... 2 1 编写目的.... 4 2 ETL研发责任人界定.... 4 3 ETL 研发数据库操作约束条件.... 4 4 定义.... 4 5 范围.... 5 6 系统通用属性.... 6 7 命名规则.... 6 7.1 通用规则... 6 7.2 Connection 数据源连接... 6 7.2.1 Connection 数据连接命名... 6 7.2.2 数据库类型对应缩写... 6 7.2.3 生产数据库的SID.. 7 7.3 组件命名.... 7 7.4 Folder/mapplet/Mapping/Session/Workflow/Schedule命名.... 9 8 创建Connection连接.... 9 9 创建文件夹.... 10 9.1 创建文件夹... 10 9.2 复制共享对象... 11 10 Mapping设计.... 13 10.1 导入源和目标的表结构... 14 10.2 Mapping设计... 16 10.3 常用组件设计说明... 17 11 Workflow设计.... 19 11.1 创建Workflow.. 20 11.2 Workflow属性设置... 20 11.3 添加可复用Session “pre_sql”、“post_sql”. 22 11.4

Informatica 9.5.1 安装配置

99封情书 提交于 2020-04-03 13:16:16
Informatica 结构 1个或多个资源库(Respository) PowerCenter数据整合引擎是基于元数据驱动的,提供了基于数据驱动的元数据知识库(Repository),该元数据知识库可以在主流的关系型数据库中部署。该院数据库中存储所有的ETL元数据,包括:源、目标表的物理和逻辑元数据,ETL转换规则,知识库用户权限,ETL任务运行历史信息等元数据。 2个Server Informatica Repository Server: 资料库的Server,管理ETL过程中产生的元数据,用来管理所有对资料库中元数据的请求和操作。 Informatica Server: 实际的ETL引擎 5个Client PowerCenter Designer: 设计开发环境,定义源及目标数据结构;设计转换规则,生成ETL映射 Workflow Manager: 合理地实现复杂的ETL工作流,基于时间、事件的作业调度 Workflow Monitor: 监控Workflow和Session 运行情况,生成日志的报告 Repository Manager: 资料库管理,包括安全性管理等,元数据维护和安全操作,如:元数据查找,用户、组、权限管理等。 Repository Server Administrator Console:对知识库的操作,如:知识库的创建、备份,恢复等。

KETTLE封装

三世轮回 提交于 2020-03-24 16:36:28
一、背景     每天好像都很忙碌,已经不记得上次写博客是什么时候,这两天公司项目一个特殊的组网环境,需要重新搭建了KETTLE的封装,实现java调用ETL完成数据抽取转换加载的一些功能,搞了这么这么久的ETL,没想到今天掉坑里了,浪费了小半天的时间,以前觉得写博客要记录一些重大突破的或者高频的技术点,经历了这次,决定把所有遇到的问题都记录一下,顺道分享一下技术实现。 二、问题 1、kettle的java开发包里没有添加pom依赖,需要手动添加和组合,这就回到了最原始的项目开发模式,那问题也很突出了,jar包冲突或者jar包引入不合适 2、kettle的java代码组件的适用 三、处理过程 要搭建kettle的java运行环境首先要引入三个包:kettle-core、kettle-engine、kettle-dbdialog,maven引入方式如下: 1 <dependency> 2 <groupId>pentaho-kettle</groupId> 3 <artifactId>kettle-core</artifactId> 4 <version>${kettle.version}</version> 5 </dependency> 6 7 <dependency> 8 <groupId>pentaho-kettle</groupId> 9 <artifactId>kettle

(ETL)ETL架构师面试题(转载)

懵懂的女人 提交于 2020-03-17 11:54:42
1. What is a logical data mapping and what does it mean to the ETL team? 什么是逻辑数据映射?它对ETL 项目组的作用是什么? 答:逻辑数据映射(Logical Data Map)用来描述源系统的数据定义、目标数据仓库的模型以及将源系统的数据转换到数据仓库中需要做操作和处理方式的说明文档,通常以表格或Excel的格式保存如下的信息: 目标表名: 目标列名: 目标表类型:注明是事实表、维度表或支架维度表。 SCD类型:对于维度表而言。 源数据库名:源数据库的实例名,或者连接字符串。 源表名: 源列名: 转换方法:需要对源数据做的操作,如Sum(amount)等。 逻辑数据映射应该贯穿数据迁移项目的始终,在其中说明了数据迁移中的ETL策略。在进行物理数据映射前进行逻辑数据映射对ETL项目组是重要的,它起着元数据的作用。项目中最好选择能生成逻辑数据映射的数据迁移工具。 2. What are the primary goals of the data discovery phase of the data warehouse project? 在数据仓库项目中,数据探索阶段的主要目的是什么? 答:在逻辑数据映射进行之前,需要首先对所有的源系统进行分析。对源系统的分析通常包括两个阶段,一个是数据探索阶段(Data

Integration Services创建ETL包

隐身守侯 提交于 2020-02-14 00:00:23
http://www.cnblogs.com/chiniao/archive/2009/12/23/1630595.html (转载) Microsoft Integration Services 是一个可以生成高性能数据集成解决方案(包括为数据仓库提取、转换和加载 (ETL) 包)的平台。 Integration Services 包括用于生成和调式包的图形工具和向导;用于执行工作流函数(如 FTP 操作)、执行 SQL 语句以及发送电子邮件的任务;用于提取和加载数据的数据源和目标;用于清除、聚合、合并和复制数据的转换;用于管理包执行和存储的管理服务,即 Integration Services;以及用于 Integration Services 对象模型编程的应用程序编程接口 (API)。 说明 : 本文是作者在学习Integration Services过程中的笔记,基本思路和内容都来自SQL Server 联机丛书。觉得园子里的BI方面的资源比较少,就放上来了。 学习本文需要建立在对Integration Services基本了解的基础。 如果没有任何了解,请参考一步一步学习BI(1)-认识Integration Services 本文中将用到的数据库为微软的 AdventureWorksDW 本文中将用到的文本数据在 这里 请先下载这两份数据文件,我们在接来实验中将要用到

Integration Services 学习

懵懂的女人 提交于 2020-02-13 23:55:04
概要 俗话说:“十年磨一剑”,Microsoft 通过5年时间的精心打造,于2005年浓重推出Sql Server 2005,这是自SQL Server 2000 以后的又一旷世之作。这套企业级的数据库解决方案,主要包含了以下几个方面:数据库引擎服务、数据挖掘、Analysis Services、Integration Services、Reporting Services 这几个方面,其中Integration Services (即SSIS),就是他们之间的中转站、纽带,将各种源头的数据,经ETL到数据仓库,建立多维数据集,然后进行分析、挖掘并将结果通过Reporting Services 送达给企业各级用户,为企业的规划决策、监督执行保驾护航。 SSIS 其全称是Sql Server Integration Services ,是Microsoft BI 解决方案的一大利器,是Sql Server 2000中DTS 一个升级之作。 无论是功能上,性能上,还是可操作方面都有很大的改进。且看下面的操作界面就可见一斑。 SQL Server 2000 DTS Sql Server 2008 SSIS 现在很多人都把SSIS 说成是一个ETL (Extract-Transform-Load)工具,我个人觉得不太准确,或许是大家基本上都把他做为ETL 使用

Integration Services 学习

蓝咒 提交于 2020-02-13 23:54:10
概要 俗话说:“十年磨一剑”,Microsoft 通过5年时间的精心打造,于2005年浓重推出Sql Server 2005,这是自SQL Server 2000 以后的又一旷世之作。这套企业级的数据库解决方案,主要包含了以下几个方面:数据库引擎服务、数据挖掘、Analysis Services、Integration Services、Reporting Services 这几个方面,其中Integration Services (即SSIS),就是他们之间的中转站、纽带,将各种源头的数据,经ETL到数据仓库,建立多维数据集,然后进行分析、挖掘并将结果通过Reporting Services 送达给企业各级用户,为企业的规划决策、监督执行保驾护航。 SSIS 其全称是Sql Server Integration Services ,是Microsoft BI 解决方案的一大利器,是Sql Server 2000中DTS 一个升级之作。 无论是功能上,性能上,还是可操作方面都有很大的改进。且看下面的操作界面就可见一斑。 SQL Server 2000 DTS Sql Server 2008 SSIS 现在很多人都把SSIS 说成是一个ETL (Extract-Transform-Load)工具,我个人觉得不太准确,或许是大家基本上都把他做为ETL 使用

Integration Services 学习

我只是一个虾纸丫 提交于 2020-02-13 23:53:23
概要 俗话说:“十年磨一剑”,Microsoft 通过5年时间的精心打造,于2005年浓重推出Sql Server 2005,这是自SQL Server 2000 以后的又一旷世之作。这套企业级的数据库解决方案,主要包含了以下几个方面:数据库引擎服务、数据挖掘、Analysis Services、Integration Services、Reporting Services 这几个方面,其中Integration Services (即SSIS),就是他们之间的中转站、纽带,将各种源头的数据,经ETL到数据仓库,建立多维数据集,然后进行分析、挖掘并将结果通过Reporting Services 送达给企业各级用户,为企业的规划决策、监督执行保驾护航。 SSIS 其全称是Sql Server Integration Services ,是Microsoft BI 解决方案的一大利器,是Sql Server 2000中DTS 一个升级之作。 无论是功能上,性能上,还是可操作方面都有很大的改进。且看下面的操作界面就可见一斑。 SQL Server 2000 DTS Sql Server 2008 SSIS 现在很多人都把SSIS 说成是一个ETL (Extract-Transform-Load)工具,我个人觉得不太准确,或许是大家基本上都把他做为ETL 使用

Etl工具的使用

北城以北 提交于 2020-01-28 12:02:17
ETL工具的使用 使用指南 开始 使用指南 这是一篇使用指南,不讲原理! 开始 双击文件夹 ‘data-integration’下的‘Spoon.bat’进入到以下界面 使用方法很简单 1.点击文件-新建-转换(转换的名称尽量不要使用中文) 2.演示思路:从同一个数据库中其中一张表的数据清洗到另一张表中 注意:字段可以不一样 3.点击 ‘输入’-‘表输入’ 4.点击拖到右边 5.同样操作点击‘输出’- ‘插入/更新’ 6.同样操作拖入到右边的控制台 7.按住‘shift’鼠标拖一条线把‘表输入’和‘插入/跟新’相连接 8.双击‘表输入’连接数据库和写sql 9.双击插入/跟新,同样连接数据库和调整字段 10.匹配字段,意思就是你想把第一张表中的字段的值给第二张表的字段匹配 11.点击运行 11.控制台有数据显示信息 12.如有问题随时提问,一定会尽力解决 来源: CSDN 作者: panbinglin 链接: https://blog.csdn.net/panbinglin/article/details/103583116

ETL工具KETTLE常用设计之——多表或整库数据全量迁移

隐身守侯 提交于 2020-01-27 01:26:29
一、思路: 有主作业、子作业两个作业组成这个流程,在主作业中,首先调用一个转换用来获取指定库中所有的表名、指定的表名等内容复制到结果记录,然后调用一个子作业,子作业中先调用一个转换用来结果记录中的信息,然后设置变量,变量有效范围为parent_job,然后子作业再调用一个转换,用来执行sql脚本创建表结构和获取源数据表中的数据再输出到对应的目标数据库中表中即可,因为字段名称是一致的,所以不需要指定字段映射;(如果是需要字段映射的,那么就不能这样多表或整库数据全量迁移了,只能每个表配置对应的转换进行抽取数据) 二、自动循环配置过程见博客: https://blog.csdn.net/LSY_CSDN_/article/details/92062738 来源: CSDN 作者: LSY_csdn_ 链接: https://blog.csdn.net/LSY_CSDN_/article/details/92063035