Apache Spark

Kafka底层原理剖析(近万字建议收藏)

走远了吗. 提交于 2021-01-18 23:32:07
Kafka 简介 Apache Kafka 是一个分布式发布-订阅消息系统。是大数据领域消息队列中唯一的王者。最初由 linkedin 公司使用 scala 语言开发,在2010年贡献给了Apache基金会并成为顶级开源项目。至今已有十余年,仍然是大数据领域不可或缺的并且是越来越重要的一个组件。 Kafka 适合离线和在线消息,消息保留在磁盘上,并在集群内复制以防止数据丢失。kafka构建在zookeeper同步服务之上。它与 Flink 和 Spark 有非常好的集成,应用于实时流式数据分析。 Kafka特点: 可靠性:具有副本及容错机制。 可扩展性:kafka无需停机即可扩展节点及节点上线。 持久性:数据存储到磁盘上,持久性保存。 性能:kafka具有高吞吐量。达到TB级的数据,也有非常稳定的性能。 速度快:顺序写入和零拷贝技术使得kafka延迟控制在毫秒级。 Kafka 底层原理 先看下 Kafka 系统的架构 Kafka 架构 kafka支持消息持久化,消费端是主动拉取数据,消费状态和订阅关系由客户端负责维护, 消息消费完后,不会立即删除,会保留历史消息 。因此支持多订阅时,消息只会存储一份就可以。 broker :kafka集群中包含一个或者多个服务实例(节点),这种服务实例被称为broker(一个broker就是一个节点/一个服务器); topic

阿里Java岗P5~P7成长笔录【3283页PDF文档+视频,文末链接直接领取】

情到浓时终转凉″ 提交于 2021-01-17 21:06:53
点击 蓝字 关注我吧! 哈喽,宝贝们,好久不见,甚至想念~ 给大家分享最近被刷爆的资源! - 提取码 - 3823 (链接见文末) 01 JAVA基础复盘 02 WEB编程初识 03 SSM从入门到精通 04 SpringBoot快速上手 05 并发编程进阶 06 JVM深度剖析 07 微服务 3.微服务 08 Tomcat 09 数据库 10 Spark 11 中间件&分布式 12 BAT面试资料 这么好的资源怎么领取呀? 链接:https://pan.baidu.com/s/1EIV4PjO-seFowEm5w3PnSw 提取码:3823 复制这段内容后打开百度网盘手机App,操作更方便 本文分享自微信公众号 - V5codings(gh_c1ec2d16ec93)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“ OSC源创计划 ”,欢迎正在阅读的你也加入,一起分享。 来源: oschina 链接: https://my.oschina.net/u/4599382/blog/4666743

浅淡 Apache Kylin 与 ClickHouse 的对比

不问归期 提交于 2021-01-16 13:27:49
作者简介 周耀,Kyligence 解决方案架构师,Apache Kylin、Apache Superset Contributor。 Apache Kylin 和 ClickHouse 都是目前市场流行的大数据 OLAP 引擎;Kylin 最初由 eBay 中国研发中心开发,2014 年开源并贡献给 Apache 软件基金会,凭借着亚秒级查询的能力和超高的并发查询能力,被许多大厂所采用,包括美团,滴滴,携程,贝壳找房,腾讯,58同城等; OLAP 领域这两年炙手可热的 ClickHouse,由俄罗斯搜索巨头 Yandex 开发,于2016年开源,典型用户包括字节跳动、新浪、腾讯等知名企业。 这两种 OLAP 引擎有什么差异,各自有什么优势,如何选择 ? 本文将尝试从技术原理、存储结构、优化方法和优势场景等方面,对比这两种 OLAP 引擎, 为大家的技术选型提供一些参考。 01 技术原理 技术原理方面,我们主要从 架构 和 生态 两方面做个比较。 1.1 技术架构 Kylin 是基于 Hadoop 的 MOLAP (Multi-dimensional OLAP) 技术,核心技术是 OLAP Cube ;与传统 MOLAP 技术不同,Kylin 运行在 Hadoop 这个功能强大、扩展性强的平台上,从而可以支持海量 (TB到PB) 的数据;它将预计算(通过 MapReduce 或

大数据开发工程师完结

生来就可爱ヽ(ⅴ<●) 提交于 2021-01-16 07:14:56
download: 大数据开发工程师 大数据开发工程师 【完结】 本套大数据课程中的技术体系包含目前主流的Hadoop、Spark、Flink三大技术生态圈,涵盖了企业中最常见的技术组件,可以满足大家在公司中的工作需求 Q:这套课程要学多久?学完能达到什么水平呢? 本套大数据学完的时间,和每个人的基础、接受能力和时间安排都有关,一般情况下,如果能保证每天听课1小时,练习至少2个小时,3~4个月是可以学完的。建议保持连续学习,这样学习效果更好,以及通过视频配套的思维导图做好预习,电子书巩固视频内容。学完后可以达到大数据中级工程师水平,满足绝大部分公司的大数据岗位需求。 Q:这套大数据课程中学的东西工作中够用吗? 足够用的,目前本套大数据课程中的技术体系包含目前主流的Hadoop、Spark、Flink三大技术生态圈,涵盖了企业中最常见的技术组件,可以满足大家在公司中的工作需求。 Q:我目前是java程序员,大数据属于零基础,能学的会吗? 可以的,java程序员学习大数据是具有天然优势的,大数据中的技术框架大部分都是基于java开发的,学习起来很容易上手。 并且我们本套课程配套的有完整的电子书,方便大家及时查漏补缺,以及本套视频教程带有配套字幕,学起来也会更加轻松。 一、WordCount (著重以WordCount編程爲重點停止練習,後面的例子若有反復的步骤就简單略過) 1

数据湖探索DLI新功能:基于openLooKeng的交互式分析

╄→гoц情女王★ 提交于 2021-01-16 02:00:45
摘要: 基于华为开源openLooKeng引擎的交互式分析功能,将重磅发布便于用户构建轻量级流、批、交互式全场景数据湖。 在这个“信息爆炸”的时代,大数据已经成为这个时代的关键词之一!随着云计算、物联网、移动计算、智慧城市、人工智能等领域日新月异的发展,人类社会已经步入了“信息高速路”的行驶轨道,数据量增长迅速,各类应用对大数据处理的需求也发生着变化。 与此同时,“久经沙场”的数据仓库不再一统江湖,而以实时分析、离线分析、交互式分析等为代表的计算引擎势头迅猛。 华为云3年前发布的Serverless大数据分析服务 - 数据湖探索DLI,经过这几年的迭代升级,已经包含用于实时分析的Flink引擎,用于离线分析的Spark引擎。今年基于华为开源openLooKeng引擎的交互式分析功能,也将于Q4重磅发布,便于用户构建轻量级流、批、交互式全场景数据湖。 openLooKeng使用了业界著名的开源SQL引擎Presto来提供交互式查询分析基础能力,并继续在融合场景查询、跨数据中心/云、数据源扩展、性能、可靠性、安全性等方面发展,让数据治理、使用更简单。 关键特性 1. 毫秒级查询性能 DLI使用的openLooKeng引擎在内存计算框架的基础上,还利用许多查询优化技术来满足高性能毫秒级的交互式分析的需要。 1.1 索引 openLooKeng提供基于Bitmap Index、Bloom

Recap | TGIP-001: Pulsar Basics

♀尐吖头ヾ 提交于 2021-01-15 06:55:08
🎙️阅读本文需 8 分钟 上周日(2 月 9 日),Pulsar 开启了 2020 年度第一次直播,也是小 Pu 成长路上的第一次线上直播,我们在 zoom 和 B 站同时进行了直播,也有很多朋友发弹幕和留言给我们,感谢各位的捧场! Pulsar 的第一场线上直播,请来了 StreamNative 的 CEO 郭斯杰大佬,为我们带来了一场关于 「Pulsar Basics」 的分享。 在正式进入内容前,郭斯杰也为大家介绍了什么是 TGIP (Thank God It's Pulsar), 类似可以参考 👇🏻Thank God It's Friday。 https://en.wikipedia.org/wiki/Thank_God_It%27s_Friday 同时更新了 Pulsar 的近况,主要是以下两个: Namespace level offloader https://github.com/apache/pulsar/pull/6183 Supports evenly distribute topics count when splits bundle https://github.com/apache/pulsar/pull/6241 后续大家还想了解关于 Pulsar 的任何问题,都可以去下边这个 repo 下提 issue,没准哪天你的提问就扩展为一期专门的直播啦! 🙋

面试遭遇 SparkSQL,慌了!

流过昼夜 提交于 2021-01-15 06:33:51
Spar kSQL 大数据人都不陌生 , 得益于 Spark 在 大数据开发、机器学习、数据科学等领域的独特优势,因易整合、统一数据访问、兼容Hive等性能被各大厂 纷纷 追捧, 在 众多 大数据组件 中快速出圈儿 。 同样地 Spar kSQL 也是令开发人最为头疼的问题。 不仅网上询问者众多,前几天一个正在换工作的朋友也向我询问: Spar kSQL 到底该如何学?说面试中频频遇到 S park SQL 相关问题,自己那点内容根本不够看的,而且 Spar kSQL 相关内容分享大多泛泛,“精品”很少,想要学习太难了。 因此,给大家分享一个超值福利公开课—— 《SparkSQL 底层实现原理》 。由廖雪峰团队中的实力专家授课, 带你深入浅出剖析 SparkSQL 底层执行原理及执行全链路过程,让你快速掌握 技术底层 原理实现 方法, 轻松应对工作、面试难题 ! 主题: 《SparkSQL 底层实现原理》 内容: SparkSQL 底层实现原理 、完整的执行过程剖析、SQL成为代码过程剖析、面试题讲解。具体如下: 1 . SparkSQL 底层架构和执行过程什么样的? 2. SparkS QL 执行全链路过程是什么样的? 3. 核心功能模块有哪些?如何运用? 4. 应聘时如何准备 SparkS QL 相关技术问题? …… 此次分享的主讲人,王老师, 开课吧明星讲师,7年

秀出天际!腾讯T4梳理的Java核心宝典(框架+原理+笔记+导图)

北战南征 提交于 2021-01-14 10:58:51
Java语言今年已经25岁了,仍常年稳坐各大编程语言榜单前列,一直是大多数开发者心中最流行的编程语言。 Java工程师的就业面广、薪资高,这得益于 Java 语言优良的关键特性。现在越来越多的人仍旧不断地加入到学习 Java 的队伍中来,小编在此就给大家带来一份腾讯T4大佬精心整理的Java核心宝典,来帮助大家学习提升自己! 下面我们来看看这份腾讯T4大佬整理的Java核心宝典: 本文内容分为三部分 第一部分: JavaSE部分,主要讲Java基础的知识(小白看过来),觉得自己基础不是很好的朋友也看看用作参考,查漏补缺 第二部分: 框架部分,主要讲解面试中常见的微服务、网络编程、分布式存储和分布式计算等必备知识点。 第三部分: 原理部分,主要讲解JVM原理、多线程、数据结构和算法、分布式缓存、设计模式等面试必备知识点。 JavaSE部分 目录 限于平台篇幅原因,更多内容展示不了,感兴趣的朋友帮忙帮忙一键三连后,见下图加小助理VX(gyhycx7980)即可免费领取到! 内容 第 2 章 开发环境搭建 第 5 章 Java编码规范 第 11 章 面向对象基础 第 20 章 对象容器—集合 第 27 章 注解 第 29 章 项目实战 限于平台篇幅原因,更多内容展示不了,感兴趣的朋友帮忙帮忙一键三连后,见下图加小助理VX(gyhycx7980)即可免费领取到! 框架部分 目录

centos7下hadoop-3.1.0伪集群搭建

不羁的心 提交于 2021-01-14 02:43:14
centos7下hadoop-3.1.0集群搭建 环境准备 1.服务器概览 hostname ip 说明 node1.spark 192.168.2.140 node1节点(master) node2.spark 192.168.2.141 node2节点 node3.spark 192.168.2.142 node3节点 分别在三台服务器上执行以下命令 #添加host [root@node1 ~] vim /etc/hosts 192.168.2.140 node1.spark 192.168.2.141 node2.spark 192.168.2.142 node3.spark #执行以下命令关闭防火墙 [root@node1 ~]systemctl stop firewalld && systemctl disable firewalld [root@node1 ~]setenforce 0 #将SELINUX的值改成disabled [root@node1 ~]vim /etc/selinux/config SELINUX=disabled #重启服务器 [root@node1 ~]reboot 2.配置免密码登录 #node1执行以下命令 #生成密钥Pair,输入之后一直选择enter即可。生成的秘钥位于 ~/.ssh文件夹下 [root@node1 ~]# ssh

OLAP演进实战,Druid对比ClickHouse输在哪里?

岁酱吖の 提交于 2021-01-13 14:19:24
​导读 本文介绍eBay广告数据平台的基本情况,并对比分析了ClickHouse与Druid的使用特点。基于ClickHouse表现出的良好性能和扩展能力,本文介绍了如何将eBay广告系统从Druid迁移至ClickHouse,希望能为同业人员带来一定的启发。 背景 eBay广告数据平台为eBay第一方广告主(使用Promoted Listing服务的卖家)提供了广告流量、用户行为和效果数据分析功能。广告卖家通过卖家中心(Seller Hub)的营销标签页、效果标签页和公开API,有效掌控和对比店铺的营销活动和推广商品的流量、销量的实时和历史数据,并通过网页或者API 下载数据分析报告。 这一系统上线之初使用了自研的分布式SQL引擎,构建在对象存储系统之上。3年前随着广告流量增加,我们把数据引擎切换到Druid上。 这一平台的主要挑战如下: 数据量大 : 每日的插入数据记录有数百亿条,每秒的插入峰值接近一百万条; 离线数据摄入 :在不影响实时数据摄入的情况下,每天需要对前1-2天的数据进行在线替换。根据上游数据团队发布清洗过的每日数据,广告数据平台需要在不影响查询的情况下每日替换实时数据,数据切换要求实现跨节点的全局原子操作; 完整性和一致性 :面向卖家的财务数据,离线更新后的数据要求不能有遗漏和重复;实时数据要求端对端的延迟在十秒内。 Druid VS. ClickHouse