etl

说说ETL调度工具TASKCTL的五宗最

江枫思渺然 提交于 2020-04-22 04:18:32
这段时间,我一边研究网上公开的调度工具TASKCTL,一边看大鹏嘚吧嘚,一边是惊喜,一边是欢乐。大鹏嘚吧嘚有五宗最,很八卦,让我也给TASKCTL凑五宗罪,这绝对值得我们ETL技术人员学习与思索。 第一宗最:安装最快速的专业调度工具 TASKCTL是C/S模式的技术平台,客户端与服务端的安装绝对傻瓜化,无需文档,只需按y或回答下一步,整个过程不超过十分钟就可搞定,这在专业技术领域,绝对是少有的。想想国内外其它专业调度工具,两个小时能搞定,就恭喜你了。 第二宗最:最干净的专业调度工具 TASKCTL服务端是纯c编写的技术平台,无需数据以及其它第三方中间件或技术平台支撑。我想这种设计,在专业调度领域,不论是国外的control-M ,ETL-Automation,还是国内的 Moia、ETL-Plus等,它们无不需要数据库或其它第三方技术平台支撑,你在维护调度时绝对需要相当丰富的知识才够哦! 第三宗最:ETL调度流程设计最快的调度工具 TASKCTL流程设计是围绕具有一定语法规则并以XML为载体的文本代码为核心进行设计的。刚开始,我一看代码,我认为不友好,但用一段时间,立即改变我的看法。感觉非常奇特,非常新颖,也非常快捷。 为此,我和我同事做了一个比较,共同设计一个100个任务其具有一定控制规则的流程,我用taskctl,他用Control-M,我半个小时搞定,他几乎用了两个小时

ssh into glue dev-endpoint as hadoop user `File '/var/aws/emr/userData.json' cannot be read`

房东的猫 提交于 2020-04-17 22:52:11
问题 Basically I am trying to solve this problem after setting up my PyCharm to the Glue ETL dev endpoint following this tutorial. java.io.IOException: File '/var/aws/emr/userData.json' cannot be read The above file is owned by hadoop. [glue@ip-xx.xx.xx.xx ~]$ ls -la /var/aws/emr/ total 32 drwxr-xr-x 4 root root 4096 Mar 24 19:35 . drwxr-xr-x 3 root root 4096 Feb 12 2019 .. drwxr-xr-x 3 root root 4096 Feb 12 2019 bigtop-deploy drwxr-xr-x 3 root root 4096 Mar 24 19:35 packages -rw-r--r-- 1 root

Executing SSIS Package with SQL Authentication

被刻印的时光 ゝ 提交于 2020-04-07 04:18:52
问题 I have a SSIS package that talks to a remote server over HTTP. I execute the SSIS package using a stored procedure in my database (SQL Server 2012), which is called from a web server. The web server connects to the database using Windows Authentication. I now have a need to run the stored procedure (and therefore, the SSIS package) from a client which does not support Windows Authentication. The SSIS package is complicated enough that migrating to a different solution is not feasible. The

INFORMATICA 开发规范

偶尔善良 提交于 2020-04-03 14:01:41
目 录 Informatica开发规范.... 1 目 录.... 2 1 编写目的.... 4 2 ETL研发责任人界定.... 4 3 ETL 研发数据库操作约束条件.... 4 4 定义.... 4 5 范围.... 5 6 系统通用属性.... 6 7 命名规则.... 6 7.1 通用规则... 6 7.2 Connection 数据源连接... 6 7.2.1 Connection 数据连接命名... 6 7.2.2 数据库类型对应缩写... 6 7.2.3 生产数据库的SID.. 7 7.3 组件命名.... 7 7.4 Folder/mapplet/Mapping/Session/Workflow/Schedule命名.... 9 8 创建Connection连接.... 9 9 创建文件夹.... 10 9.1 创建文件夹... 10 9.2 复制共享对象... 11 10 Mapping设计.... 13 10.1 导入源和目标的表结构... 14 10.2 Mapping设计... 16 10.3 常用组件设计说明... 17 11 Workflow设计.... 19 11.1 创建Workflow.. 20 11.2 Workflow属性设置... 20 11.3 添加可复用Session “pre_sql”、“post_sql”. 22 11.4

Informatica 9.5.1 安装配置

99封情书 提交于 2020-04-03 13:16:16
Informatica 结构 1个或多个资源库(Respository) PowerCenter数据整合引擎是基于元数据驱动的,提供了基于数据驱动的元数据知识库(Repository),该元数据知识库可以在主流的关系型数据库中部署。该院数据库中存储所有的ETL元数据,包括:源、目标表的物理和逻辑元数据,ETL转换规则,知识库用户权限,ETL任务运行历史信息等元数据。 2个Server Informatica Repository Server: 资料库的Server,管理ETL过程中产生的元数据,用来管理所有对资料库中元数据的请求和操作。 Informatica Server: 实际的ETL引擎 5个Client PowerCenter Designer: 设计开发环境,定义源及目标数据结构;设计转换规则,生成ETL映射 Workflow Manager: 合理地实现复杂的ETL工作流,基于时间、事件的作业调度 Workflow Monitor: 监控Workflow和Session 运行情况,生成日志的报告 Repository Manager: 资料库管理,包括安全性管理等,元数据维护和安全操作,如:元数据查找,用户、组、权限管理等。 Repository Server Administrator Console:对知识库的操作,如:知识库的创建、备份,恢复等。

KETTLE封装

三世轮回 提交于 2020-03-24 16:36:28
一、背景     每天好像都很忙碌,已经不记得上次写博客是什么时候,这两天公司项目一个特殊的组网环境,需要重新搭建了KETTLE的封装,实现java调用ETL完成数据抽取转换加载的一些功能,搞了这么这么久的ETL,没想到今天掉坑里了,浪费了小半天的时间,以前觉得写博客要记录一些重大突破的或者高频的技术点,经历了这次,决定把所有遇到的问题都记录一下,顺道分享一下技术实现。 二、问题 1、kettle的java开发包里没有添加pom依赖,需要手动添加和组合,这就回到了最原始的项目开发模式,那问题也很突出了,jar包冲突或者jar包引入不合适 2、kettle的java代码组件的适用 三、处理过程 要搭建kettle的java运行环境首先要引入三个包:kettle-core、kettle-engine、kettle-dbdialog,maven引入方式如下: 1 <dependency> 2 <groupId>pentaho-kettle</groupId> 3 <artifactId>kettle-core</artifactId> 4 <version>${kettle.version}</version> 5 </dependency> 6 7 <dependency> 8 <groupId>pentaho-kettle</groupId> 9 <artifactId>kettle

ETL(Spoon)导入乱码解决

回眸只為那壹抹淺笑 提交于 2020-03-17 16:30:37
问题描述: Spoon导入失败,报错信息为某字段值不够, 原以为是字段大小不够,拓展字段大小,但是拓展之后进入的数据全部为中文乱码,遂以为是编码格式的问题,修改编码格式未解决,后点开转换步骤进行查看,发现是因为原始文件未解压造成的…看图: 直接上图: 图一最后一步走图二,然而图二并没有对原始文件解压,所以导入的数据全是乱码,于是乎有了图三: 图三: 接下来点击执行图一的开始执行,输入参数即可 来源: CSDN 作者: 是华仔呀 链接: https://blog.csdn.net/weixin_43495390/article/details/104921967

(ETL)ETL架构师面试题(转载)

懵懂的女人 提交于 2020-03-17 11:54:42
1. What is a logical data mapping and what does it mean to the ETL team? 什么是逻辑数据映射?它对ETL 项目组的作用是什么? 答:逻辑数据映射(Logical Data Map)用来描述源系统的数据定义、目标数据仓库的模型以及将源系统的数据转换到数据仓库中需要做操作和处理方式的说明文档,通常以表格或Excel的格式保存如下的信息: 目标表名: 目标列名: 目标表类型:注明是事实表、维度表或支架维度表。 SCD类型:对于维度表而言。 源数据库名:源数据库的实例名,或者连接字符串。 源表名: 源列名: 转换方法:需要对源数据做的操作,如Sum(amount)等。 逻辑数据映射应该贯穿数据迁移项目的始终,在其中说明了数据迁移中的ETL策略。在进行物理数据映射前进行逻辑数据映射对ETL项目组是重要的,它起着元数据的作用。项目中最好选择能生成逻辑数据映射的数据迁移工具。 2. What are the primary goals of the data discovery phase of the data warehouse project? 在数据仓库项目中,数据探索阶段的主要目的是什么? 答:在逻辑数据映射进行之前,需要首先对所有的源系统进行分析。对源系统的分析通常包括两个阶段,一个是数据探索阶段(Data

ETL in Java Spring Batch vs Apache Spark Benchmarking

痞子三分冷 提交于 2020-03-17 05:54:21
问题 I have been working with Apache Spark + Scala for over 5 years now (Academic and Professional experiences). I always found Spark/Scala to be one of the robust combos for building any kind of Batch or Streaming ETL/ ELT applications. But lately, my client decided to use Java Spring Batch for 2 of our major pipelines : Read from MongoDB --> Business Logic --> Write to JSON File (~ 2GB | 600k Rows) Read from Cassandra --> Business Logic --> Write JSON File (~ 4GB | 2M Rows) I was pretty baffled

How to fix “[OData Source [56]] Error: Cannot acquire a managed connection from the run-time connection manager.” error in SSIS?

拈花ヽ惹草 提交于 2020-03-16 06:40:18
问题 I am having problem when running SSIS which extracts data from SharePoint list. SSIS Package was running fine till 2 weeks back and suddenly the package is failing with this error: [OData Source [56]] Error: Cannot acquire a managed connection from the run-time connection manager. [SSIS.Pipeline] Error: OData Source failed validation and returned error code 0xC020801F. [SSIS.Pipeline] Error: One or more component failed validation. Error: There were errors during task validation Tried: