Apache Spark | 易学教程

【Spark】SparkStreaming-Kafka-集成-终极参考资料

阅读更多关于【Spark】SparkStreaming-Kafka-集成-终极参考资料

SparkStreaming-Kafka-集成-终极参考资料 Spark Streaming和Kafka整合开发指南(二) – 过往记忆 Streamingkafka零丢失 | 等英博客 spark-streaming 读取kafka数据不丢失（一） | 等英博客 spark streaming读取kafka数据令丢失（二） | 等英博客 spark streaming读取kafka 零丢失（三） | 等英博客 spark streaming读取kakfka数据手动维护offset - CSDN博客 Spark directStream保存/读取kafka offset - CSDN博客 spark createDirectStream保存kafka offset(JAVA实现) - CSDN博客这几天折腾spark的kafka的低阶API createDirectStream的一些总结。 - CSDN博客将 Spark Streaming + Kafka direct 的 offset 存入Zookeeper并重用-Spark-about云开发 spark-streaming-kafka之createDirectStream模式 - 简书 Spark+Kafka的Direct方式将偏移量发送到Zookeeper实现（转） - ~风轻云淡~ - 博客园 Apache

【Spark】Sparkstreaming-共享变量-缓存RDD-到底是什么情况？

阅读更多关于【Spark】Sparkstreaming-共享变量-缓存RDD-到底是什么情况？

Sparkstreaming-共享变量-缓存RDD-到底是什么情况？ sparkstreaming 多个 rdd_百度搜索 Spark Streaming中空RDD处理及流处理程序优雅的停止 - xuanlin的专栏 - 博客园 spark 两个rdd 合并_百度搜索 spark 广播变量多级调用_百度搜索 Spark分布式编程之全局变量专题【共享变量】 - 我是王者鑫的博客 - CSDN博客 Spark踩坑记：共享变量 - 琉璃块 - 博客园 Spark学习笔记之共享变量（五）【实践】spark streaming中的广播变量应用 - 一寒惊鸿 - CSDN博客 spark性能调优之广播大变量 - CSDN博客 Spark中广播变量知识点 - caiyefly的博客 - CSDN博客 Spark性能调优之——在实际项目中广播大变量 - coderlaw's study - CSDN博客 Spark使用总结与分享 - bourneli - 博客园 Spark开发指南 Spark RDD与共享变量简介 - CSDN博客 spark性能调优之广播大变量 - CSDN博客 Spark性能优化(2)——广播变量、本地缓存目录、RDD操作、数据倾斜 - XGogo - 博客园 Spark广播、累加器和RDD持久化 - aijiudu的博客 - CSDN博客 Spark踩坑记：共享变量 -

Spark学习之Spark调优与调试(一)

阅读更多关于 Spark学习之Spark调优与调试(一)

一、使用SparkConf配置Spark 　　对 Spark 进行性能调优，通常就是修改 Spark 应用的运行时配置选项。Spark 中最主要的配置机制是通过 SparkConf 类对 Spark 进行配置。当创建出一个 SparkContext 时，就需要创建出一个 SparkConf 的实例。 import org.apache.spark.SparkContext import org.apache.spark.SparkConf object Test { def main(args: Array[String]): Unit = { // 创建一个conf对象 val conf = new SparkConf() conf.set("spark.app.name", "My Spark App") conf.set("spark.master", "local[4]") conf.set("spark.ui.port", "36000") // 重载默认端口配置 // 使用这个配置对象创建一个SparkContext val sc = new SparkContext(conf) sc.setLogLevel("WARN") // 设置日志显示级别 } } 　　Spark 允许通过 spark-submit 工具动态设置配置项。当应用被 spark-submit

以某课网日志分析为例进入大数据 Spark SQL 的世界

阅读更多关于以某课网日志分析为例进入大数据 Spark SQL 的世界

第1章初探大数据本章将介绍为什么要学习大数据、如何学好大数据、如何快速转型大数据岗位、本项目实战课程的内容安排、本项目实战课程的前置内容介绍、开发环境介绍。同时为大家介绍项目中涉及的Hadoop、Hive相关的知识第2章 Spark及其生态圈概述 Spark作为近几年最火爆的大数据处理技术，是成为大数据工程师必备的技能之一。本章将从如下几个方面对Spark进行一个宏观上的介绍：Spark产生背景、特点、发展史、Databricks官方调查结果、Spark与Hadoop的对比、Spark开发语言及运行模式介绍 ... 如果你想了解大数据的学习路线，想学习大数据知识以及需要免费的学习资料可以加群：784789432.欢迎你的加入。第3章实战环境搭建工欲善其事必先利其器，本章讲述Spark源码编译、Spark Local模式运行、Spark Standalone模式运行第4章 Spark SQL概述 Spark SQL面世已来，它不仅接过了Shark的接力棒，继续为Spark用户提供高性能SQL on Hadoop解决方案，还为Spark带来了通用、高效、多元一体的结构化数据处理能力。本章将从Spark SQL前世今生、SQL on Hadoop框架、Spark SQL概述、愿景、架构，这几个角度进行展开讲解... 第5章从Hive平滑过渡到Spark SQL

Spark笔记-treeReduce、reduce、reduceByKey

阅读更多关于 Spark笔记-treeReduce、reduce、reduceByKey

Spark笔记-treeReduce、reduce、reduceByKey 参考资料： http://stackoverflow.com/questions/32281417/understadning-treereduce-in-spark http://stackoverflow.com/questions/34078430/treereduce-vs-reducebykey-in-spark reduceByKey和treeReduce之间有一个根本区别，reduceByKey它只对key-value pair RDDs可用，而treeReduce可以对任何RDD使用，相当于是reduce操作的泛化。 reduceByKey用于实现treeReduce，但它们在任何其他意义上都不相关。 reduceByKey对每个键执行reduce，结果生成RDD; 它不是"action"操作，而是返回ShuffleRDD，是"transformation"。这等效于groupByKey后面跟着一个map，它执行key-wise reduction（为什么使用groupByKey是低效的）。另一方面，treeAggregate是reduce函数的泛化，灵感来自AllReduce。这在Spark中是一个"action"，将结果返回到master节点。在执行本地的reduce操作之后

spark中的pair rdd，看这一篇就够了

阅读更多关于 spark中的pair rdd，看这一篇就够了

本文始发于个人公众号： TechFlow ，原创不易，求个关注今天是 spark专题的第四篇文章，我们一起来看下Pair RDD。定义在之前的文章当中，我们已经熟悉了RDD的相关概念，也了解了RDD基本的转化操作和行动操作。今天我们来看一下RDD当中非常常见的 PairRDD ，也叫做键值对RDD，可以理解成KVRDD。 KV很好理解，就是 key和value的组合，比如Python当中的dict或者是C++以及Java当中的map中的基本元素都是键值对。相比于之前基本的RDD，pariRDD可以支持更多的操作，相对来说更加灵活，可以完成更加复杂的功能。比如我们可以根据key进行聚合，或者是计算交集等。所以本身pairRDD只不过是数据类型是KV结构的RDD而已，并没有太多的内涵，大家不需要担心。 Pair RDD转化操作 Pair RDD也是RDD，所以之前介绍的RDD的转化操作Pair RDD自然也可以使用。它们两者有些像是类继承的关系，RDD是父类，Pair RDD是实现了一些新特性的子类。子类可以调用父类当中所有的方法，但是父类却不能调用子类中的方法。调用的时候需要注意，由于我们的Pair RDD中的数据格式是KV的二元组，所以我们传入的函数必须是针对二元组数据的，不然的话可能运算的结果会有问题。下面我们来列举一些最常用的转化操作。为了方便演示

一步即可，阿里云数据湖分析服务构建MySQL低成本分析方案

阅读更多关于一步即可，阿里云数据湖分析服务构建MySQL低成本分析方案

数据湖分析(Data Lake Analytics，简称DLA) 是Serverless化的交互式联邦查询服务。使用标准SQL即可分析与集成对象存储(OSS)、数据库(PostgreSQL/MySQL等)、NoSQL(TableStore等)数据源的数据。 https://cn.aliyun.com/product/datalakeanalytics?aly_as=bX_ZThXyu 用户福利欢迎新用户1元抢购原价280元的DLA 10TB包： https://common-buy.aliyun.com/?commodityCode=openanalytics_post 方案背景需求场景一 MySQL数据库大量应用在各种业务系统，除了在线业务逻辑的读写，还会有一些额外的数据分析需求，如BI报表、可视化大屏、大数据应用等。随着业务的发展，单机MySQL数据库达到一定的数据量后，直接使用MySQL做数据分析性能比较差，而且会影响在线业务的读写性能。这种情况下就需要寻求新的数据分析方案。需求场景二 MySQL中的数据需要和日志数据做联合分析，这种场景下有些公司会使用开源的大数据系统（如Hive，Hadoop，Spark等）搭建数据仓库，这个方法虽然能解决问题，但它所需的人力成本和服务器等资源成本却是最高的。如何才能低成本的把MySQL与其他系统的数据做联合分析？需求场景三

非科班生如何浑水摸鱼在省级大数据竞赛中获奖

阅读更多关于非科班生如何浑水摸鱼在省级大数据竞赛中获奖

以各种竞赛为线索的回忆录/经验贴，没写算法啥的，就是记比赛过程，本科除了看的那几本书，打的那十几场竞赛，寝室那几个人，几位恩师的脸，很多都记不清了。这次记录的比赛是：2017年安徽省大数据技术与应用大赛这个标题写的我都不好意思了…但是没错！就是浑水摸鱼！来来来,教您一起浑水摸鱼. 参加比赛的原因作为一个大三应用统计专业的学生，参加这个比赛实属巧合，我原本都不知道有这个比赛。大数据我是知道的，但就知道这三个字怎么写而已，什么分布式、hadoop、spark、Hive、Scala我之前他喵的听都没听说过。那你参加这个比赛玩个球？？？咳咳咳，这就要开始讲参加这个比赛的起因了。我假设大家都知道有一个比赛叫全国大学生数学建模竞赛，由于一些原因(在此不做详细论述)，我失利了，只拿了省二，连答辩的机会都没有，很不甘心，于是就想用其他比赛来弥补。此时！我有一个学计算机的朋友小峰，他告诉我马上有一个省级计算机类比赛和大数据有关，问我要不要来试试？我一听，好啊！数据！我喜欢！于是我就屁颠屁颠的找老师去报名了。孽缘由此开始！困难重重的参赛之旅推销自己其实我心里还是有点数的，计算机类比赛嘛，肯定要涉及到编程啊！正好，为了数学建模我学了点python、JAVA、R、mysql、HTML 别问我，为什么参加建模要学mysql和HTML，我也不知道，情之所至吧于是

基于Hadoop的58同城离线计算平台设计与实践

阅读更多关于基于Hadoop的58同城离线计算平台设计与实践

分享嘉宾：余意 58同城高级架构师编辑整理：史士博内容来源：58大数据系列直播出品平台：DataFun 注：欢迎转载，转载请在留言区留言。导读： 58离线计算平台基于 Hadoop 生态体系打造，单集群4000+台服务器，数百 PB 存储，日40万计算任务，面临挑战极大。58 大数据平台的定位主要是服务数据业务开发人员，提高数据开发效率，提供便捷的开发分析流程，有效支持数据仓库及数据应用建设。通常大数据平台通用基础能力包括：数据存储、实时计算、离线计算、数据查询分析，本次分享将聚焦大数据平台离线计算和大家一起系统的探讨58在离线计算平台建设实践的思路、方案和问题解决之道。本文主要内容包括： 58在集群快速增长的过程中遇到的问题以及解决之道； 58大数据集群跨机房迁移的相关工作，如何在5个月时间快速完成3000台集群服务的迁移工作。 ▌ 数据平台部简介数据平台部是负责58统一大数据基础平台能力建设。平台负责的工作主要包括以下几部分：数据接入：文本的收集，我们采用 flume 接入，然后用 kafka 做消息缓冲，我们基于 kafka client 打造了一个实时分发平台，可以很方便的把 kafka 的中间数据打到后端的各种存储系统上。离线计算：我们主要基于 Hadoop 生态的框架做了二次定制开发。包括 HDFS、YARN、MR、SPARK。实时计算：

基于Hadoop的58同城离线计算平台设计与实践

阅读更多关于基于Hadoop的58同城离线计算平台设计与实践

订阅 Apache Spark