Hadoop

基于 Apache Iceberg 打造 T+0 实时数仓

人走茶凉 提交于 2020-10-02 05:17:43
大数据处理技术现今已广泛应用于各个行业,为业务解决海量存储和海量分析的需求。但数据量的爆发式增长,对数据处理能力提出了更大的挑战,同时对时效性也提出了更高的要求。业务通常已不再满足滞后的分析结果,希望看到更实时的数据,从而在第一时间做出判断和决策。典型的场景如电商大促和金融风控等,基于延迟数据的分析结果已经失去了价值。 如果想及时了解 Spark 、Hadoop或者HBase相关的文章,欢迎关注微信公众号: iteblog_hadoop 为了同时满足大数据量和高时效性的双重要求,实时数仓和在线交互式(ad-hoc)分析技术,及相应的基础组件应运而生,并快速发展。其中包括通用计算引擎(如 Spark 和 Flink ),交互式分析系统(如Presto,Druid和ClickHouse),数据湖框架(如Iceberg,Hudi和Delta Lake),和底层存储(如Ozone)。 本文主要介绍基于Iceberg的特性,通过Spark和 Flink ,如何打造T+0实时数仓,以及相应功能在Iceberg社区的进展。 文章目录 1 离线和实时数仓 2 基于Iceberg打造实时数仓 3 总体框架 4 ACID事务 5 Flink写入和读取Iceberg 6 基于Spark进行数据修正 7 增量消费Iceberg中的数据 8 数据和元数据的压缩合并 9 总结 10 参考 离线和实时数仓

大数据中台

点点圈 提交于 2020-10-02 04:18:10
数据中台的由来 数据中台最早是阿里提出的,但真正火起来是2018 年,我们能感受到行业文章谈论数据中台的越来越多。大量的互联网、非互联网公司都开始建设数据中台。为什么很多公司开始建设数据中台?尽管数据中台的文章很多,但是一千人眼里有一千个数据中台,到底什么是数据中台?数据中台包含什么? 当企业需要数据化转型、精细化运营,进而产生大规模数据应用需求的时候,就需要建设数据中台。数据中台是高质量、高效赋能数据前台的一系列数据系统和数据服务的组合。数据中台包含数仓体系、数据服务集和BI 平台。 1、是阿里拜访芬兰的一家公司—SupperCell,只有不到10个人,每个员工创造估值3.74亿 ​ 2、淘宝遇到的问题:淘宝和天猫是两套完全独立的两套系统,但是却都包含了商品、交易、评价、支付、物流 ​ 3、中台之前类似的思想 SOA(方法):面向服务的架构(SOA)是一个组件模型,它将应用程序的不同功能单元(称为服务)进行拆分,并通过这些服务之间定义良好的接口和协议联系起来。接口是采用中立的方式进行定义的,它应该独立于实现服务的硬件平台、操作系统和编程语言。这使得构件在各种各样的系统中的服务可以以一种统一和通用的方式进行交互。 电商系统的四个发展阶段 1、单一系统 2、分布式系统 3、平台化(服务业务,支撑作用) 4、中台化(驱动业务,中枢作用) 第一阶段:数据库节点:单一业务系统阶段 第二阶段

 Linux云计算面试常见问题三

巧了我就是萌 提交于 2020-10-02 04:02:12
 Linux云计算面试常见问题三,今天将在前两篇的基础上,继续为大家带来Linux云计算面试题。  ** 1、虚拟化平台在实施云时有何要求? **    虚拟化平台在实施云时的要求包括:   a)管理服务级别策略   b)云操作系统   c)虚拟化平台有助于让后端级别概念和用户级别概念彼此不同。  ** 2、在使用云计算平台前,用户需要考虑哪些必要的方面? **    a)合规   b)数据丢失   c)数据存储   d)业务连续性   e)正常运行时间   f)云计算的数据完整性 **  3、可否列举几个开源云计算平台数据库?**   开源云计算平台数据库有:   a)MongoDB   b)CouchDB   c)LucidDB **  4、落实了哪些安全法规来保护云端数据的安全?**   为保护云端数据安全而落实的安全法规包括:   a)处理:控制在应用程序中正确、完整处理的数据。   b)文件:它管理和控制任何文件中处理的数据。   c)输出调和:它控制输入和输出之间需要调和的数据。   d)输入验证:控制输入数据。   e)安全和备份:它提供安全和备份,还控制安全泄密日志。 **  5、可否列举几个大型云提供商的数据库名称?**   a)Googlebigtable   b)AmazonsimpleDB   c)基于云的SQL **  6

Spark Join Hints 简介及使用

為{幸葍}努か 提交于 2020-10-01 12:41:03
当前 Spark 计算引擎能够利用一些统计信息选择合适的 Join 策略(关于 Spark 支持的 Join 策略可以参见 每个 Spark 工程师都应该知道的五种 Join 策略 ),但是由于各种原因,比如统计信息缺失、统计信息不准确等原因,Spark 给我们选择的 Join 策略不是正确的,这时候我们就可以人为“干涉”,Spark 从 2.2.0 版本开始(参见 SPARK-16475 ),支持在 SQL 中指定 Join Hints 来指定我们选择的 Join 策略。 如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号: iteblog_hadoop Join hints 允许用户为 Spark 指定 Join 策略( join strategy)。在 Spark 3.0 之前,只支持 BROADCAST Join Hint,到了 Spark 3.0 ,添加了 MERGE, SHUFFLE_HASH 以及 SHUFFLE_REPLICATE_NL Joint Hints(参见 SPARK-27225 、 这里 、 这里 )。当在 Join 的两端指定不同的 Join strategy hints 时,Spark 按照 BROADCAST -> MERGE -> SHUFFLE_HASH -> SHUFFLE_REPLICATE_NL

亚马逊云服务AWS Marketplace “重塑”企业软件SaaS之旅

徘徊边缘 提交于 2020-10-01 10:33:45
AWS中国区生态系统及合作伙伴部总经理 汪湧 近日,在知名分析机构Forrester新发布的《Forrester New Wave™ :SaaS交易平台 2020》市场分析报告中, Forrester对AWS Marketplace进行了详尽的评估和分析。报告认为AWS Marketplace在六个方面表现优异,获评“具有差异化优势”,包括:友好的买家界面、清晰的交易管理流程、完善的合同条款、严谨的尽职调查与品质保证、方便易用的管理控制台、符合客户需求发展趋势的发展路线图。 Forrester认为,AWS对其Marketplace进行了大量投资,并持续在AWS Marketplace的标准合同条款、定制合同谈判,以及像Coupa这样的主流采购工具方面取得突破性进展。同时,AWS Marketplace还提供简化SaaS购买的全新方式,从而在降低风险的同时提高效率。对于AWS开发者,特别是那些喜欢深度集成附加功能的开发者来说,AWS Marketplace特别具有吸引力。 企业软件的“选、买、装”三字经 AWS Marketplace 是一个精挑细选的数字化产品目录,客户通过它可以轻松地查找、测试、购买、部署和管理构建解决方案及运营其业务所需的第三方软件、数据和服务。AWS Marketplace提供了一种创新的方式,重塑企业应用和数据产品从选型、购买到安装部署的过程。 选择:

Spark核心之Spark Streaming

非 Y 不嫁゛ 提交于 2020-10-01 09:08:24
前面说到Spark的核心技术的时候,有和大家说过,有五大核心技术,不知道大家还记不记得; 给大家回忆下,这五大核心技术:分布式计算引擎 Spark Core 、基于Hadoop的SQL解决方案 SparkSQL 、可以实现高吞吐量、具备容错机制的准实时流处理系统 Spark Streaming 、分布式图处理框架 Spark GraphX 和构建在Spark上的分布式机器学习库 Spark MLlib ,现在应该有个印象了吧,其它的我就不多说了,今天主要是对Spark Streaming做个简单介绍,以便理解。 Spark Streaming理解 Spark Streaming 是核心 Spark API 的扩展,支持可伸缩、高吞吐量、容错的实时数据流处理。数据可以从许多来源获取,如 Kafka、Flume、Kinesis 或 TCP sockets,可以使用复杂的算法处理数据,这些算法用高级函数表示,如 map、reduce、join 和 window。 最后,处理后的数据可以推送到文件系统、数据库和活动仪表板。实际上,还可以将 Spark 的 MLlib 机器学习和 GraphX 图形处理算法应用于数据流。Spark Streaming 处理的数据流如下图所示。 流是什么 ? 简单理解,就好比水流,是不是有源头,但不知道终点,有始没有终,你永远不知道水流什么时候结束

关于Windows10下Linux子系统Ubuntu的JDK环境、Hadoop环境配置以及Scala安装中出现的问题

吃可爱长大的小学妹 提交于 2020-10-01 01:48:00
Windows10下Linux子系统Ubuntu的JDK环境、Hadoop环境配置以及Scala安装中出现的问题 安装前提: 平台:Windows10电脑,预先下载好的Ubuntu子系统,不会下载的见教程: Windows10使用Linux子系统 这里我使用的是Ubuntu18.04.2 我们要开始学习大数据的相关内容,老师要求我们自行安装好Linux系统下的Scala软件并且配置好它所需要的JDK 环境和Hadoop环境。这里我主要参考了林子雨老师的安装教程,不得不说,林老师的安装教程太太太太太赞了!感谢林老师! 附上林子雨老师的安装链接: spark2.1.0入门:spark的安装与使用 Hadoop安装教程 注:链接的安装教程中老师已经给出他提供的百度网盘资源,包含这次教程所需要的全部安装文件,大家不必费心去找,再次感谢林子雨老师(太感动了)! 选择Windows下Linux子系统的优点:没有虚拟机+Ubuntu镜像文件配置那么繁琐,就Scala的学习还是够用的; 但是据我下载了VirtualBox并且安装完Ubuntu系统的室友说,按照林子雨老师的教程安装这两者也没出现多大问题,想要安装VirtualBox的同学也可一试。 教程中的步骤已经很完备,下面我主要说说我在安装过程中出现的问题: 关于hadoop用户的创建之后的登陆

大数据平台搭建包含哪些层级

為{幸葍}努か 提交于 2020-09-30 21:48:39
  大数据分析平台的搭建有利于帮助企业构建统一的数据存储和数据处理资源,围绕企业业务开展大数据应用建设,最终形成面向服务化的数据资产。而今天我们就来了解一下,常见的大数据平台都包含哪些层次?   1、数据采集层:分3个层面的采集技术进行支持,一是传统业务系统数据库和半结构化、结构化数据的采集和集成,如采用Sqoop技术进行关系数据库和Hadoop系统之间的数据抽取和交换;二是交通实时流数据的采集,包括实时传感器数据、定位轨迹数据和其他实时流数据;三是交通公共数据的采集,包括公网的数据爬取、开放平台的数据接口、行业公共数据库的数据交换等。对采集到的数据需进行提取、转换和加载(extract-transform-load,ETL)处理,包括数据抽取、转换、清洗和隐私脱敏等预处理工作,预处理集成后的数据进入交通大数据云存储中心。   2、数据存储层:交通领域数据规模巨大,数据存储层需设计基于云计算的分布式云存储系统,以支持海量数据的存储扩展。提供基于云的列式存储、NoSQL存储或数据仓库存储能力;根据业务需求和快速配置,可切换相应的分布式存储模式,还可根据需要对传统BI系统的数据仓库和数据集市进行集成。利用Hadoop集群提供PB级存储能力扩展,同时Hadoop YARN和Spark Mesos等集群资源管理框架可支持多种存储模式和计算模式在此基础上,对各类存储数据进行多粒度信息融合

MySQL的各种JOIN

喜夏-厌秋 提交于 2020-09-30 15:31:59
主题 : MySQL 的各种JOIN 大纲 : 1、徐老师从事多年官方MySQL工作,为众多企业提供MySQL帮助时,企业比较关心的问题是什么呢? 2、随着MySQL 8.0的成熟和推广,相信越来越多的公司希望升级MySQL 8.0,但又会担心低版本到高版本的升级会不会有兼容问题,徐老师能否分享下相关经验? 3、徐老师本次主题带来的是JOIN精彩内容,相比MySQL5.7,MySQL8.0在JOIN增强了哪些方面呢? 4、过多的“left join”经常会导致SQL性能很慢,徐老师可否分享下您对“left join”的建议或者注意事项呢? 扫一扫左边二维码, 立刻报名本次活动。 嘉宾自我介绍 徐轶韬 MySQL解决方案高级工程师 Oracle公司 MySQL解决方案工程师,为中国及东北亚地区的MySQL用户提供MySQL相关产品的售前咨询,企业级产品介绍服务以及推广和普及MySQL数据库在社区的使用 01 徐老师从事多年官方MySQL工作,为众多企业提供MySQL帮助时,企业比较关心的问题是什么呢? 企业比较关心的问题主要有三点: 一、在使用软件的过程中能不能得到保障?通过哪些方式提供保障?可以提供哪种程度的保障? 二、数据安全性。 三、合规的使用软件。 02 随着MySQL 8.0的成熟和推广,相信越来越多的公司希望升级MySQL 8.0

Flink部署及作业提交(On YARN)

你离开我真会死。 提交于 2020-09-30 08:47:29
Hadoop环境快速搭建 官方文档: YARN Setup 在上一篇 Flink部署及作业提交(On Flink Cluster) 文章中,我们介绍了如何编译部署Flink自身的资源分配和管理系统,并将作业提交到该系统上去运行。但通常来讲这种方式用得不多,因为在企业中,可能会使用不同的分布式计算框架,如Spark、Storm或MapReduce等。 如果每一种框架都需要搭建各自的资源分配和管理系统,就无法共享资源,导致资源利用率低。并且大多企业一般会使用Hadoop生态的相关组件做作为大数据处理平台的底座,如HDFS、Hive、YARN等。 其中 YARN 是资源调度框架、通用的资源管理系统,可以为上层应用提供统一的资源管理和调度,Spark、Flink、Storm等计算框架都可以集成到 YARN 上。如此一来这些计算框架可以享受整体的资源调度,进而提高集群资源的利用率,这也就是所谓的 xxx on YARN。因此,绝大部分企业都是将计算作业放到 YARN 上进行调度,而不是每种计算框架都单独搭一个资源分配和管理系统。这也是为什么要单独介绍Flink On YARN的原因。 想要让Flink作业跑在 YARN 上,我们首先得搭建一个Hadoop环境,为了简单这里只搭建单节点环境。我这里使用的是CDH的Hadoop发行版。下载地址如下: http://archive.cloudera