Apache Spark | 易学教程

Kafka底层原理剖析（近万字建议收藏）

阅读更多关于 Kafka底层原理剖析（近万字建议收藏）

Kafka 简介 Apache Kafka 是一个分布式发布-订阅消息系统。是大数据领域消息队列中唯一的王者。最初由 linkedin 公司使用 scala 语言开发，在2010年贡献给了Apache基金会并成为顶级开源项目。至今已有十余年，仍然是大数据领域不可或缺的并且是越来越重要的一个组件。 Kafka 适合离线和在线消息，消息保留在磁盘上，并在集群内复制以防止数据丢失。kafka构建在zookeeper同步服务之上。它与 Flink 和 Spark 有非常好的集成，应用于实时流式数据分析。 Kafka特点：可靠性：具有副本及容错机制。可扩展性：kafka无需停机即可扩展节点及节点上线。持久性：数据存储到磁盘上，持久性保存。性能：kafka具有高吞吐量。达到TB级的数据，也有非常稳定的性能。速度快：顺序写入和零拷贝技术使得kafka延迟控制在毫秒级。 Kafka 底层原理先看下 Kafka 系统的架构 Kafka 架构 kafka支持消息持久化，消费端是主动拉取数据，消费状态和订阅关系由客户端负责维护，消息消费完后，不会立即删除，会保留历史消息。因此支持多订阅时，消息只会存储一份就可以。 broker ：kafka集群中包含一个或者多个服务实例（节点），这种服务实例被称为broker（一个broker就是一个节点/一个服务器）； topic

阿里Java岗P5~P7成长笔录【3283页PDF文档+视频，文末链接直接领取】

阅读更多关于阿里Java岗P5~P7成长笔录【3283页PDF文档+视频，文末链接直接领取】

点击蓝字关注我吧！哈喽，宝贝们，好久不见，甚至想念~ 给大家分享最近被刷爆的资源！ - 提取码 - 3823 （链接见文末） 01 JAVA基础复盘 02 WEB编程初识 03 SSM从入门到精通 04 SpringBoot快速上手 05 并发编程进阶 06 JVM深度剖析 07 微服务 3.微服务 08 Tomcat 09 数据库 10 Spark 11 中间件&分布式 12 BAT面试资料这么好的资源怎么领取呀？链接：https://pan.baidu.com/s/1EIV4PjO-seFowEm5w3PnSw 提取码：3823 复制这段内容后打开百度网盘手机App，操作更方便本文分享自微信公众号 - V5codings（gh_c1ec2d16ec93）。如有侵权，请联系 support@oschina.cn 删除。本文参与“ OSC源创计划 ”，欢迎正在阅读的你也加入，一起分享。来源： oschina 链接： https://my.oschina.net/u/4599382/blog/4666743

浅淡 Apache Kylin 与 ClickHouse 的对比

阅读更多关于浅淡 Apache Kylin 与 ClickHouse 的对比

作者简介周耀，Kyligence 解决方案架构师，Apache Kylin、Apache Superset Contributor。 Apache Kylin 和 ClickHouse 都是目前市场流行的大数据 OLAP 引擎；Kylin 最初由 eBay 中国研发中心开发，2014 年开源并贡献给 Apache 软件基金会，凭借着亚秒级查询的能力和超高的并发查询能力，被许多大厂所采用，包括美团，滴滴，携程，贝壳找房，腾讯，58同城等； OLAP 领域这两年炙手可热的 ClickHouse，由俄罗斯搜索巨头 Yandex 开发，于2016年开源，典型用户包括字节跳动、新浪、腾讯等知名企业。这两种 OLAP 引擎有什么差异，各自有什么优势，如何选择？本文将尝试从技术原理、存储结构、优化方法和优势场景等方面，对比这两种 OLAP 引擎，为大家的技术选型提供一些参考。 01 技术原理技术原理方面，我们主要从架构和生态两方面做个比较。 1.1 技术架构 Kylin 是基于 Hadoop 的 MOLAP (Multi-dimensional OLAP) 技术，核心技术是 OLAP Cube ；与传统 MOLAP 技术不同，Kylin 运行在 Hadoop 这个功能强大、扩展性强的平台上，从而可以支持海量 (TB到PB) 的数据；它将预计算（通过 MapReduce 或

大数据开发工程师完结

阅读更多关于大数据开发工程师完结

download：大数据开发工程师大数据开发工程师【完结】本套大数据课程中的技术体系包含目前主流的Hadoop、Spark、Flink三大技术生态圈，涵盖了企业中最常见的技术组件，可以满足大家在公司中的工作需求 Q:这套课程要学多久？学完能达到什么水平呢？本套大数据学完的时间，和每个人的基础、接受能力和时间安排都有关，一般情况下，如果能保证每天听课1小时，练习至少2个小时，3~4个月是可以学完的。建议保持连续学习，这样学习效果更好，以及通过视频配套的思维导图做好预习，电子书巩固视频内容。学完后可以达到大数据中级工程师水平，满足绝大部分公司的大数据岗位需求。 Q:这套大数据课程中学的东西工作中够用吗？足够用的，目前本套大数据课程中的技术体系包含目前主流的Hadoop、Spark、Flink三大技术生态圈，涵盖了企业中最常见的技术组件，可以满足大家在公司中的工作需求。 Q:我目前是java程序员，大数据属于零基础，能学的会吗？可以的，java程序员学习大数据是具有天然优势的，大数据中的技术框架大部分都是基于java开发的，学习起来很容易上手。并且我们本套课程配套的有完整的电子书，方便大家及时查漏补缺，以及本套视频教程带有配套字幕，学起来也会更加轻松。一、WordCount （著重以WordCount編程爲重點停止練習，後面的例子若有反復的步骤就简單略過） 1

数据湖探索DLI新功能：基于openLooKeng的交互式分析

阅读更多关于数据湖探索DLI新功能：基于openLooKeng的交互式分析

摘要：基于华为开源openLooKeng引擎的交互式分析功能，将重磅发布便于用户构建轻量级流、批、交互式全场景数据湖。在这个“信息爆炸”的时代，大数据已经成为这个时代的关键词之一！随着云计算、物联网、移动计算、智慧城市、人工智能等领域日新月异的发展，人类社会已经步入了“信息高速路”的行驶轨道，数据量增长迅速，各类应用对大数据处理的需求也发生着变化。与此同时，“久经沙场”的数据仓库不再一统江湖，而以实时分析、离线分析、交互式分析等为代表的计算引擎势头迅猛。华为云3年前发布的Serverless大数据分析服务 - 数据湖探索DLI，经过这几年的迭代升级，已经包含用于实时分析的Flink引擎，用于离线分析的Spark引擎。今年基于华为开源openLooKeng引擎的交互式分析功能，也将于Q4重磅发布，便于用户构建轻量级流、批、交互式全场景数据湖。 openLooKeng使用了业界著名的开源SQL引擎Presto来提供交互式查询分析基础能力，并继续在融合场景查询、跨数据中心/云、数据源扩展、性能、可靠性、安全性等方面发展，让数据治理、使用更简单。关键特性 1. 毫秒级查询性能 DLI使用的openLooKeng引擎在内存计算框架的基础上，还利用许多查询优化技术来满足高性能毫秒级的交互式分析的需要。 1.1 索引 openLooKeng提供基于Bitmap Index、Bloom

Recap | TGIP-001: Pulsar Basics

阅读更多关于 Recap | TGIP-001: Pulsar Basics

🎙️阅读本文需 8 分钟上周日（2 月 9 日），Pulsar 开启了 2020 年度第一次直播，也是小 Pu 成长路上的第一次线上直播，我们在 zoom 和 B 站同时进行了直播，也有很多朋友发弹幕和留言给我们，感谢各位的捧场！ Pulsar 的第一场线上直播，请来了 StreamNative 的 CEO 郭斯杰大佬，为我们带来了一场关于「Pulsar Basics」的分享。在正式进入内容前，郭斯杰也为大家介绍了什么是 TGIP （Thank God It's Pulsar），类似可以参考 👇🏻Thank God It's Friday。 https://en.wikipedia.org/wiki/Thank_God_It%27s_Friday 同时更新了 Pulsar 的近况，主要是以下两个： Namespace level offloader https://github.com/apache/pulsar/pull/6183 Supports evenly distribute topics count when splits bundle https://github.com/apache/pulsar/pull/6241 后续大家还想了解关于 Pulsar 的任何问题，都可以去下边这个 repo 下提 issue，没准哪天你的提问就扩展为一期专门的直播啦！ 🙋

面试遭遇 SparkSQL，慌了！

阅读更多关于面试遭遇 SparkSQL，慌了！

Spar kSQL 大数据人都不陌生，得益于 Spark 在大数据开发、机器学习、数据科学等领域的独特优势，因易整合、统一数据访问、兼容Hive等性能被各大厂纷纷追捧，在众多大数据组件中快速出圈儿。同样地 Spar kSQL 也是令开发人最为头疼的问题。不仅网上询问者众多，前几天一个正在换工作的朋友也向我询问： Spar kSQL 到底该如何学？说面试中频频遇到 S park SQL 相关问题，自己那点内容根本不够看的，而且 Spar kSQL 相关内容分享大多泛泛，“精品”很少，想要学习太难了。因此，给大家分享一个超值福利公开课—— 《SparkSQL 底层实现原理》。由廖雪峰团队中的实力专家授课，带你深入浅出剖析 SparkSQL 底层执行原理及执行全链路过程，让你快速掌握技术底层原理实现方法，轻松应对工作、面试难题！主题：《SparkSQL 底层实现原理》内容： SparkSQL 底层实现原理、完整的执行过程剖析、SQL成为代码过程剖析、面试题讲解。具体如下： 1 . SparkSQL 底层架构和执行过程什么样的？ 2. SparkS QL 执行全链路过程是什么样的？ 3. 核心功能模块有哪些？如何运用？ 4. 应聘时如何准备 SparkS QL 相关技术问题？ …… 此次分享的主讲人，王老师，开课吧明星讲师，7年

秀出天际！腾讯T4梳理的Java核心宝典（框架+原理+笔记+导图）

阅读更多关于秀出天际！腾讯T4梳理的Java核心宝典（框架+原理+笔记+导图）

Java语言今年已经25岁了，仍常年稳坐各大编程语言榜单前列，一直是大多数开发者心中最流行的编程语言。 Java工程师的就业面广、薪资高，这得益于 Java 语言优良的关键特性。现在越来越多的人仍旧不断地加入到学习 Java 的队伍中来，小编在此就给大家带来一份腾讯T4大佬精心整理的Java核心宝典，来帮助大家学习提升自己！下面我们来看看这份腾讯T4大佬整理的Java核心宝典：本文内容分为三部分第一部分： JavaSE部分，主要讲Java基础的知识（小白看过来），觉得自己基础不是很好的朋友也看看用作参考，查漏补缺第二部分：框架部分，主要讲解面试中常见的微服务、网络编程、分布式存储和分布式计算等必备知识点。第三部分：原理部分，主要讲解JVM原理、多线程、数据结构和算法、分布式缓存、设计模式等面试必备知识点。 JavaSE部分目录限于平台篇幅原因，更多内容展示不了，感兴趣的朋友帮忙帮忙一键三连后，见下图加小助理VX（gyhycx7980）即可免费领取到！内容第 2 章开发环境搭建第 5 章 Java编码规范第 11 章面向对象基础第 20 章对象容器—集合第 27 章注解第 29 章项目实战限于平台篇幅原因，更多内容展示不了，感兴趣的朋友帮忙帮忙一键三连后，见下图加小助理VX（gyhycx7980）即可免费领取到！框架部分目录

centos7下hadoop-3.1.0伪集群搭建

阅读更多关于 centos7下hadoop-3.1.0伪集群搭建

centos7下hadoop-3.1.0集群搭建环境准备 1.服务器概览 hostname ip 说明 node1.spark 192.168.2.140 node1节点(master) node2.spark 192.168.2.141 node2节点 node3.spark 192.168.2.142 node3节点分别在三台服务器上执行以下命令 #添加host [root@node1 ~] vim /etc/hosts 192.168.2.140 node1.spark 192.168.2.141 node2.spark 192.168.2.142 node3.spark #执行以下命令关闭防火墙 [root@node1 ~]systemctl stop firewalld && systemctl disable firewalld [root@node1 ~]setenforce 0 #将SELINUX的值改成disabled [root@node1 ~]vim /etc/selinux/config SELINUX=disabled #重启服务器 [root@node1 ~]reboot 2.配置免密码登录 #node1执行以下命令 #生成密钥Pair,输入之后一直选择enter即可。生成的秘钥位于 ~/.ssh文件夹下 [root@node1 ~]# ssh

OLAP演进实战，Druid对比ClickHouse输在哪里？

阅读更多关于 OLAP演进实战，Druid对比ClickHouse输在哪里？

导读本文介绍eBay广告数据平台的基本情况，并对比分析了ClickHouse与Druid的使用特点。基于ClickHouse表现出的良好性能和扩展能力，本文介绍了如何将eBay广告系统从Druid迁移至ClickHouse，希望能为同业人员带来一定的启发。背景 eBay广告数据平台为eBay第一方广告主（使用Promoted Listing服务的卖家）提供了广告流量、用户行为和效果数据分析功能。广告卖家通过卖家中心（Seller Hub）的营销标签页、效果标签页和公开API，有效掌控和对比店铺的营销活动和推广商品的流量、销量的实时和历史数据，并通过网页或者API 下载数据分析报告。这一系统上线之初使用了自研的分布式SQL引擎，构建在对象存储系统之上。3年前随着广告流量增加，我们把数据引擎切换到Druid上。这一平台的主要挑战如下：数据量大：每日的插入数据记录有数百亿条，每秒的插入峰值接近一百万条；离线数据摄入：在不影响实时数据摄入的情况下，每天需要对前1-2天的数据进行在线替换。根据上游数据团队发布清洗过的每日数据，广告数据平台需要在不影响查询的情况下每日替换实时数据，数据切换要求实现跨节点的全局原子操作；完整性和一致性：面向卖家的财务数据，离线更新后的数据要求不能有遗漏和重复；实时数据要求端对端的延迟在十秒内。 Druid VS. ClickHouse

订阅 Apache Spark