Hive

kettle自动化的那些事儿

点点圈 提交于 2020-11-05 11:02:22
一、kettle介绍 Kettle 是一款国外开源的 ETL 工具,纯 Java 编写,绿色无需安装,数据抽取高效稳定(数据迁移工具)。Kettle 中有两种脚本文件,transformation 和 job,transformation 完成针对数据的基础转换,job 则完成整个工作流的控制。 二、 ETL介绍 ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据, ETL是BI(商业智能)项目重要的一个环节。 三、 ETL实现细说 其实实现 ETL功能的工具很多,我熟悉并使用过的:Informatica PowerCenter、kettle、sql、PLSQL编程、python等等。 分别简单聊聊这些实现 ETL的手段: (1)、Informatica PowerCenter 此软件是商用的,网上成熟的中文资料比较少,而且版本较旧。英文资料居多,给很多初学者带来了困扰。国内最出名的大神就是杨晓东,国内的中文资料几乎全是杨晓东分享的,资料对应的版本还停留在 7.6和8.5。( 我当年学的时候,自己买了书,在淘宝上淘的视频,还在杨晓东的群里打酱油,经过 6个月的努力,才能上手正常工作 ) (2)、kettle 此软件是开源的,纯 java编写,网上文档和视频资料特别多

腾讯云大数据实战案例

[亡魂溺海] 提交于 2020-11-05 01:48:34
内容来源: 2017年5月20日,腾讯高级软件工程师吴友强在“中生代技术沙龙系列之互联网大数据”进行《 腾讯云 大数据实战》演讲分享。IT 大咖说作为独家视频合作方,经主办方和讲者审阅授权发布。 阅读字数: 1954 | 3分钟阅读 嘉宾演讲视频回顾及PPT ,请点击: http://t.cn/RgMHJEC 摘要 腾讯云 是腾讯公司倾力打造的面向广大企业和个人的公有云平台。腾讯高级软件工程师吴友强将为我们分享大数据在 腾讯云 的实践。 一、TDF(数据工坊)简介 TDF简介 源于 腾讯云 数智大数据套件的轻量云上大数据产品,提供基于SQL的大数据计算框架。 适用于需要动态灵活获取大数据计算能力进行批量计算、日志处理或数据仓库应用的场景。 因为公有云上的用户需要简单,所以要有一个可视化的集成开发环境,在这环境中可以进行数据血缘管理、工程/工作流管理、用户管理和告警/日志。通过一些工具把数据导入到数据存储里面,然后对数据进行处理,最终输出数据。下层的任务和资源调度是用来调度用户的任务在各个资源上运行起来。底层就是 腾讯云 的基础设施。 二、CDP(数据管道)实现详解 CDP整体架构-设计 上图是我们刚开始在开发之前做的设计。最左边有很多客户的数据点,比如log、DB Binlog、自建的Kafka以及自定义数据。我们会利用一些工具开发一个Flume插件,帮助它把数据上云。

Apache Hudi和Presto的前世今生

最后都变了- 提交于 2020-11-04 04:19:14
一篇由Apache Hudi PMC Bhavani Sudha Saktheeswaran和AWS Presto团队工程师Brandon Scheller分享Apache Hudi和Presto集成的一篇文章。 1. 概述 Apache Hudi 是一个快速迭代的数据湖存储系统,可以帮助企业构建和管理PB级数据湖,Hudi通过引入 upserts 、 deletes 和增量查询等原语将流式能力带入了批处理。这些特性使得统一服务层可提供更快、更新鲜的数据。Hudi表可存储在Hadoop兼容的分布式文件系统或者云上对象存储中,并且很好的集成了 Presto, Apache Hive, Apache Spark 和Apache Impala。Hudi开创了一种新的模型(数据组织形式),该模型将文件写入到一个更受管理的存储层,该存储层可以与主流查询引擎进行互操作,同时在项目演变方面有了一些有趣的经验。 本博客讨论Presto和Hudi集成的演变,同时讨论Presto-Hudi查询即将到来的文件Listing和查询计划优化。 2. Apache Hudi Apache Hudi(简称Hudi)提供在DFS上存储超大规模数据集,同时使得流式处理如果批处理一样,该实现主要是通过如下两个原语实现。 Update/Delete记录 : Hudi支持更新/删除记录,使用文件/记录级别索引

敖丙8年经验读者,疫情期间面20家大厂总结

谁都会走 提交于 2020-11-01 07:20:36
本文来自一个8年大数据老兵的面试经历投稿,我完完整整的看了一遍,真的很细很细,疫情期间面试各种失败各种总结,最后拿到Offer实属不易,精神很值得大家学习 前言 我不是什么大牛,我只是一个有八年工作经验的互联网老兵,既没有非常亮眼的学历,也没有牛逼大厂的履历。 这个冬天,在孩子得病从急诊转住院的时候,我得到了年前将被优化的消息,作为家里唯一经济来源的我整个人蒙了,一时间茫然和无助差点毁了我。 最后我还是和家人如实说了,受到了他们的极大的鼓励,也找到了重新开始的勇气。 可惜这场疫情来的如此凶猛,职位少、要求高、电话面试、视频面试、在线coding、屡战屡败、屡败屡战,构成了我这两个月的常规生活。 我一开始也焦虑、茫然,甚至对自己的能力和工作经验深深怀疑。 后来经过几个好朋友的鼓励打气,也看了敖丙的很多面试文章,认真总结自己面试中不足的地方,查漏补缺,终于在这周确定了offer。(这是原话,我真没瞎加哈哈) 接下来我就我之前面过的腾讯、高德、京东、美团、饿了么、快手、字节跳动、滴滴、360金融、跟谁学、网联清算、华晨宝马、快看漫画、陌陌、脉脉等等等公司的面试题做一下总结,权当抛砖引玉,希望对大家有帮忙。 面试问题汇总 基础问题 linux和网络基础 (1)linux系统内核态和用户态是什么,有什么区别? (2)BIO、NIO、AIO都是什么,有什么区别? (3)TCP和UDP的区别?

大数据Hadoop生态圈介绍

∥☆過路亽.° 提交于 2020-10-31 10:02:20
一.Hadoop简介 Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。 Hadoop的核心组件是HDFS、MapReduce。随着处理任务不同,各种组件相继出现,丰富Hadoop生态圈,目前生态圈结构大致如图所示: 二.Hadoop生态圈组件介绍 1.HDFS(分布式文件系统) HDFS是整个hadoop体系的基础,负责数据的存储与管理。HDFS有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。 client:切分文件,访问HDFS时,首先与NameNode交互,获取目标文件的位置信息,然后与DataNode交互,读写数据 NameNode:master节点,每个HDFS集群只有一个,管理HDFS的名称空间和数据块映射信息,配置相关副本信息,处理客户端请求。 DataNode:slave节点,存储实际数据,并汇报状态信息给NameNode,默认一个文件会备份3份在不同的DataNode中,实现高可靠性和容错性。

Flink SQL 1.11 on Zeppelin 平台化实践

馋奶兔 提交于 2020-10-30 17:07:20
简介: 鉴于有很多企业都无法配备专门的团队来解决 Flink SQL 平台化的问题,那么到底有没有一个开源的、开箱即用的、功能相对完善的组件呢?答案就是本文的主角——Apache Zeppelin。 作者:LittleMagic 大数据领域 SQL 化开发的风潮方兴未艾(所谓"Everybody knows SQL"),Flink 自然也不能“免俗”。Flink SQL 是 Flink 系统内部最高级别的 API,也是流批一体思想的集大成者。用户可以通过简单明了的 SQL 语句像查表一样执行流任务或批任务,屏蔽了底层 DataStream/DataSet API 的复杂细节,降低了使用门槛。 但是,Flink SQL 的默认开发方式是通过 Java/Scala API 编写,与纯 SQL 化、平台化的目标相去甚远。目前官方提供的 Flink SQL Client 仅能在配备 Flink 客户端的本地使用,局限性很大。而 Ververica 开源的 Flink SQL Gateway 组件是基于 REST API 的,仍然需要二次开发才能供给上层使用,并不是很方便。 鉴于有很多企业都无法配备专门的团队来解决 Flink SQL 平台化的问题,那么到底有没有一个开源的、开箱即用的、功能相对完善的组件呢?答案就是本文的主角——Apache Zeppelin。 Flink SQL on

hive踩坑记录

不打扰是莪最后的温柔 提交于 2020-10-30 16:01:46
一个表以年月日分区,以如下函数的计算结果查询,分区不起作用,会全表扫描 SELECT year( from_unixtime(unix_timestamp() - 3600*24*7,'yyyy-MM-dd') ) as year, month( from_unixtime(unix_timestamp() - 3600*24*7,'yyyy-MM-dd') ) as mon, day( from_unixtime(unix_timestamp() - 3600*24*7,'yyyy-MM-dd') ) as day 以如下的结果查询似乎是可行的,出结果非常快 SELECT * from xxxx where (year=year(date_sub(CURRENT_DATE,1)) and mon=month(date_sub(CURRENT_DATE,1)) and day = day(date_sub(CURRENT_DATE,1)) 来源: oschina 链接: https://my.oschina.net/fdayok/blog/4695327

【2020-10-28】加油打工人

百般思念 提交于 2020-10-30 08:52:16
我的大学 普通二本,电子信息工程专业,没的说,学不到啥东西,考试真的很水,一学期不听课,期末复习都能考个七八十,运气好还能上9,比起辛辛苦苦听课也考九十几得我来说不值一提。 培训班千万别去,他只是一个监督你学习的地方,你连自己都监督不了,怎么可能学的好呢? 做了两年竞赛,省一二三都拿过,你要是找专业对口的工作还有点用。 大三觉得自己专业没出路,自己学了java、mysql、大数据框架(hadoop、hive、flume、hbase、spark、flink),大数据这东西还挺吃香,但是你没有实际的项目经验,做的网上的小玩意,工作还是很难找的,不过你要是深入了解并且懂了,那么你就是大佬。 大四上做了毕设,下学期去实习了。 其他同学考研、考公、找工作的、还有去当兵的。 真想念那些日子,即使在实习,也每周五坐夜车回去学校跟他们一起看LPL,那时候还没有轻轨,做的大巴,一躺就要一个半小时,顺便在车上给爸妈打电话。 杭漂人 今年刚毕业,普通二本,很后悔当初没有考研,直到找工作跟你谈薪资的时候,看到是普通本 科的,直接给你刷掉2-3K,很现实的一个东西。 有两段实习经历,去年十月份开始的,到现在有一年多的工作经验了 ,第一次实习坎坎坷坷,做的是数据仓库的东西,应为是实习生,干的都是一些体力活,偶尔加一点脑力的,所以做了两个多月,就走人了,也没学到啥东西。 第二段实习,就是我现在做的工作