Apache Spark

【Spark】SparkStreaming-Kafka-集成-终极参考资料

假如想象 提交于 2020-04-28 02:04:49
SparkStreaming-Kafka-集成-终极参考资料 Spark Streaming和Kafka整合开发指南(二) – 过往记忆 Streamingkafka零丢失 | 等英博客 spark-streaming 读取kafka数据不丢失(一) | 等英博客 spark streaming读取kafka数据令丢失(二) | 等英博客 spark streaming读取kafka 零丢失(三) | 等英博客 spark streaming读取kakfka数据手动维护offset - CSDN博客 Spark directStream保存/读取kafka offset - CSDN博客 spark createDirectStream保存kafka offset(JAVA实现) - CSDN博客 这几天折腾spark的kafka的低阶API createDirectStream的一些总结。 - CSDN博客 将 Spark Streaming + Kafka direct 的 offset 存入Zookeeper并重用-Spark-about云开发 spark-streaming-kafka之createDirectStream模式 - 简书 Spark+Kafka的Direct方式将偏移量发送到Zookeeper实现(转) - ~风轻云淡~ - 博客园 Apache

【Spark】Sparkstreaming-共享变量-缓存RDD-到底是什么情况?

☆樱花仙子☆ 提交于 2020-04-28 02:01:30
Sparkstreaming-共享变量-缓存RDD-到底是什么情况? sparkstreaming 多个 rdd_百度搜索 Spark Streaming中空RDD处理及流处理程序优雅的停止 - xuanlin的专栏 - 博客园 spark 两个rdd 合并_百度搜索 spark 广播变量 多级调用_百度搜索 Spark分布式编程之全局变量专题【共享变量】 - 我是王者鑫的博客 - CSDN博客 Spark踩坑记:共享变量 - 琉璃块 - 博客园 Spark学习笔记之共享变量(五) 【实践】spark streaming中的广播变量应用 - 一寒惊鸿 - CSDN博客 spark性能调优之广播大变量 - CSDN博客 Spark中广播变量知识点 - caiyefly的博客 - CSDN博客 Spark性能调优之——在实际项目中广播大变量 - coderlaw's study - CSDN博客 Spark使用总结与分享 - bourneli - 博客园 Spark开发指南 Spark RDD与共享变量简介 - CSDN博客 spark性能调优之广播大变量 - CSDN博客 Spark性能优化(2)——广播变量、本地缓存目录、RDD操作、数据倾斜 - XGogo - 博客园 Spark广播、累加器和RDD持久化 - aijiudu的博客 - CSDN博客 Spark踩坑记:共享变量 -

Spark学习之Spark调优与调试(一)

时光怂恿深爱的人放手 提交于 2020-04-28 01:55:54
一、使用SparkConf配置Spark    对 Spark 进行性能调优,通常就是修改 Spark 应用的运行时配置选项。Spark 中最主要的配置机制是通过 SparkConf 类对 Spark 进行配置。当创建出一个 SparkContext 时,就需要创建出一个 SparkConf 的实例。 import org.apache.spark.SparkContext import org.apache.spark.SparkConf object Test { def main(args: Array[String]): Unit = { // 创建一个conf对象 val conf = new SparkConf() conf.set("spark.app.name", "My Spark App") conf.set("spark.master", "local[4]") conf.set("spark.ui.port", "36000") // 重载默认端口配置 // 使用这个配置对象创建一个SparkContext val sc = new SparkContext(conf) sc.setLogLevel("WARN") // 设置日志显示级别 } }   Spark 允许通过 spark-submit 工具动态设置配置项。当应用被 spark-submit

以某课网日志分析为例 进入大数据 Spark SQL 的世界

雨燕双飞 提交于 2020-04-27 23:45:36
第1章 初探大数据 本章将介绍为什么要学习大数据、如何学好大数据、如何快速转型大数据岗位、本项目实战课程的内容安排、本项目实战课程的前置内容介绍、开发环境介绍。同时为大家介绍项目中涉及的Hadoop、Hive相关的知识 第2章 Spark及其生态圈概述 Spark作为近几年最火爆的大数据处理技术,是成为大数据工程师必备的技能之一。本章将从如下几个方面对Spark进行一个宏观上的介绍:Spark产生背景、特点、发展史、Databricks官方调查结果、Spark与Hadoop的对比、Spark开发语言及运行模式介绍 ... 如果你想了解大数据的学习路线,想学习大数据知识以及需要免费的学习资料可以加群:784789432.欢迎你的加入。 第3章 实战环境搭建 工欲善其事必先利其器,本章讲述Spark源码编译、Spark Local模式运行、Spark Standalone模式运行 第4章 Spark SQL概述 Spark SQL面世已来,它不仅接过了Shark的接力棒,继续为Spark用户提供高性能SQL on Hadoop解决方案,还为Spark带来了通用、高效、多元一体的结构化数据处理能力。本章将从Spark SQL前世今生、SQL on Hadoop框架、Spark SQL概述、愿景、架构,这几个角度进行展开讲解... 第5章 从Hive平滑过渡到Spark SQL

Spark笔记-treeReduce、reduce、reduceByKey

|▌冷眼眸甩不掉的悲伤 提交于 2020-04-27 19:01:54
Spark笔记-treeReduce、reduce、reduceByKey 参考资料: http://stackoverflow.com/questions/32281417/understadning-treereduce-in-spark http://stackoverflow.com/questions/34078430/treereduce-vs-reducebykey-in-spark reduceByKey和treeReduce之间有一个根本区别,reduceByKey它只对key-value pair RDDs可用,而treeReduce可以对任何RDD使用,相当于是reduce操作的泛化。 reduceByKey用于实现treeReduce,但它们在任何其他意义上都不相关。 reduceByKey对每个键执行reduce,结果生成RDD; 它不是"action"操作,而是返回ShuffleRDD,是"transformation"。 这等效于groupByKey后面跟着一个map,它执行key-wise reduction(为什么使用groupByKey是低效的)。 另一方面,treeAggregate是reduce函数的泛化,灵感来自AllReduce。 这在Spark中是一个"action",将结果返回到master节点。在执行本地的reduce操作之后

spark中的pair rdd,看这一篇就够了

自闭症网瘾萝莉.ら 提交于 2020-04-27 12:23:42
本文始发于个人公众号: TechFlow ,原创不易,求个关注 今天是 spark专题的第四篇 文章,我们一起来看下Pair RDD。 定义 在之前的文章当中,我们已经熟悉了RDD的相关概念,也了解了RDD基本的转化操作和行动操作。今天我们来看一下RDD当中非常常见的 PairRDD ,也叫做键值对RDD,可以理解成KVRDD。 KV很好理解,就是 key和value的组合 ,比如Python当中的dict或者是C++以及Java当中的map中的基本元素都是键值对。相比于之前基本的RDD,pariRDD可以支持更多的操作,相对来说更加灵活,可以完成更加复杂的功能。比如我们可以根据key进行聚合,或者是计算交集等。 所以本身pairRDD只不过是数据类型是KV结构的RDD而已,并没有太多的内涵,大家不需要担心。 Pair RDD转化操作 Pair RDD也是RDD,所以之前介绍的RDD的转化操作Pair RDD自然也可以使用。它们两者有些像是 类继承 的关系,RDD是父类,Pair RDD是实现了一些新特性的子类。子类可以调用父类当中所有的方法,但是父类却不能调用子类中的方法。 调用的时候需要注意,由于我们的Pair RDD中的数据格式是KV的二元组,所以我们传入的函数必须是针对 二元组 数据的,不然的话可能运算的结果会有问题。下面我们来列举一些最常用的转化操作。 为了方便演示

一步即可,阿里云数据湖分析服务构建MySQL低成本分析方案

£可爱£侵袭症+ 提交于 2020-04-27 10:29:54
数据湖分析(Data Lake Analytics,简称DLA) 是Serverless化的交互式联邦查询服务。使用标准SQL即可分析与集成对象存储(OSS)、数据库(PostgreSQL/MySQL等)、NoSQL(TableStore等)数据源的数据。 https://cn.aliyun.com/product/datalakeanalytics?aly_as=bX_ZThXyu 用户福利 欢迎新用户1元抢购原价280元的DLA 10TB包: https://common-buy.aliyun.com/?commodityCode=openanalytics_post 方案背景 需求场景一 MySQL数据库大量应用在各种业务系统,除了在线业务逻辑的读写,还会有一些额外的数据分析需求,如BI报表、可视化大屏、大数据应用等。随着业务的发展,单机MySQL数据库达到一定的数据量后,直接使用MySQL做数据分析性能比较差,而且会影响在线业务的读写性能。这种情况下就需要寻求新的数据分析方案。 需求场景二 MySQL中的数据需要和日志数据做联合分析,这种场景下有些公司会使用开源的大数据系统(如Hive,Hadoop,Spark等)搭建数据仓库,这个方法虽然能解决问题,但它所需的人力成本和服务器等资源成本却是最高的。如何才能低成本的把MySQL与其他系统的数据做联合分析? 需求场景三

非科班生如何浑水摸鱼在省级大数据竞赛中获奖

一笑奈何 提交于 2020-04-26 22:19:40
以各种竞赛为线索的回忆录/经验贴,没写算法啥的,就是记比赛过程,本科除了看的那几本书,打的那十几场竞赛,寝室那几个人,几位恩师的脸,很多都记不清了。 这次记录的比赛是:2017年安徽省大数据技术与应用大赛 这个标题写的我都不好意思了…但是没错!就是浑水摸鱼!来来来,教您一起浑水摸鱼. 参加比赛的原因 作为一个大三应用统计专业的学生,参加这个比赛实属巧合,我原本都不知道有这个比赛。大数据我是知道的,但就知道这三个字怎么写而已,什么分布式、hadoop、spark、Hive、Scala我之前他喵的听都没听说过。 那你参加这个比赛玩个球??? 咳咳咳,这就要开始讲参加这个比赛的起因了。 我假设大家都知道有一个比赛叫 全国大学生数学建模竞赛 ,由于一些原因(在此不做详细论述),我失利了,只拿了省二,连答辩的机会都没有,很不甘心,于是就想用其他比赛来弥补。 此时!我有一个学计算机的朋友小峰,他告诉我马上有一个省级计算机类比赛和 大数据 有关,问我要不要来试试? 我一听,好啊!数据!我喜欢!于是我就屁颠屁颠的找老师去报名了。 孽缘由此开始! 困难重重的参赛之旅 推销自己 其实我心里还是有点数的,计算机类比赛嘛,肯定要涉及到编程啊!正好,为了数学建模我学了点python、JAVA、R、mysql、HTML 别问我,为什么参加建模要学mysql和HTML,我也不知道,情之所至吧 于是

基于Hadoop的58同城离线计算平台设计与实践

大城市里の小女人 提交于 2020-04-26 21:56:26
分享嘉宾:余意 58同城 高级架构师 编辑整理:史士博 内容来源:58大数据系列直播 出品平台:DataFun 注:欢迎转载,转载请在留言区留言。 导读: 58离线计算平台基于 Hadoop 生态体系打造,单集群4000+台服务器,数百 PB 存储,日40万计算任务,面临挑战极大。58 大数据平台的定位主要是服务数据业务开发人员,提高数据开发效率,提供便捷的开发分析流程,有效支持数据仓库及数据应用建设。通常大数据平台通用基础能力包括:数据存储、实时计算、离线计算、数据查询分析,本次分享将聚焦大数据平台离线计算和大家一起系统的探讨58在离线计算平台建设实践的思路、方案和问题解决之道。 本文主要内容包括: 58在集群快速增长的过程中遇到的问题以及解决之道; 58大数据集群跨机房迁移的相关工作,如何在5个月时间快速完成3000台集群服务的迁移工作。 ▌ 数据平台部简介 数据平台部是负责58统一大数据基础平台能力建设。平台负责的工作主要包括以下几部分: 数据接入: 文本的收集,我们采用 flume 接入,然后用 kafka 做消息缓冲,我们基于 kafka client 打造了一个实时分发平台,可以很方便的把 kafka 的中间数据打到后端的各种存储系统上。 离线计算: 我们主要基于 Hadoop 生态的框架做了二次定制开发。包括 HDFS、YARN、MR、SPARK。 实时计算:

基于Hadoop的58同城离线计算平台设计与实践

吃可爱长大的小学妹 提交于 2020-04-26 21:41:51
分享嘉宾:余意 58同城 高级架构师 编辑整理:史士博 内容来源:58大数据系列直播 出品平台:DataFun 注:欢迎转载,转载请在留言区留言。 导读: 58离线计算平台基于 Hadoop 生态体系打造,单集群4000+台服务器,数百 PB 存储,日40万计算任务,面临挑战极大。58 大数据平台的定位主要是服务数据业务开发人员,提高数据开发效率,提供便捷的开发分析流程,有效支持数据仓库及数据应用建设。通常大数据平台通用基础能力包括:数据存储、实时计算、离线计算、数据查询分析,本次分享将聚焦大数据平台离线计算和大家一起系统的探讨58在离线计算平台建设实践的思路、方案和问题解决之道。 本文主要内容包括: 58在集群快速增长的过程中遇到的问题以及解决之道; 58大数据集群跨机房迁移的相关工作,如何在5个月时间快速完成3000台集群服务的迁移工作。 ▌ 数据平台部简介 数据平台部是负责58统一大数据基础平台能力建设。平台负责的工作主要包括以下几部分: 数据接入: 文本的收集,我们采用 flume 接入,然后用 kafka 做消息缓冲,我们基于 kafka client 打造了一个实时分发平台,可以很方便的把 kafka 的中间数据打到后端的各种存储系统上。 离线计算: 我们主要基于 Hadoop 生态的框架做了二次定制开发。包括 HDFS、YARN、MR、SPARK。 实时计算: