Apache Spark

spark出现task不能序列化错误的解决方法 org.apache.spark.SparkException: Task not serializable

天涯浪子 提交于 2020-12-05 00:55:07
spark出现task不能序列化错误的解决方法 org.apache.spark.SparkException: Task not serializable 参考文章: (1)spark出现task不能序列化错误的解决方法 org.apache.spark.SparkException: Task not serializable (2)https://www.cnblogs.com/zwCHAN/p/4305156.html 备忘一下。 来源: oschina 链接: https://my.oschina.net/stackoom/blog/4775646

【快速上手scala】(五)Map和Tuple

情到浓时终转凉″ 提交于 2020-12-04 03:53:51
目录 Map基本操作 Tuple元组 一、Map基本操作 scala的Map和java一样,是一种key->value的数据结构 //新建一个不可变的Map scala> val person = Map("xiaoli"->15,"xiaofang"->18) person: scala.collection.immutable.Map[String,Int] = Map(xiaoli -> 15, xiaofang -> 18) scala> person("xiaoli") res1: Int = 15 //接下来创建一个可变的Map scala> val person = scala.collection.mutable.Map("xiaoli"->15,"xiaofang" ->18) person: scala.collection.mutable.Map[String,Int] = Map(xiaoli -> 15, xiaofang -> 18) scala> person("xiaofang") res3: Int = 18 //我们也可以这样创建Map scala> val person = Map(("xiaoxiao",22),("xiaowang",30)) person: scala.collection.immutable.Map[String,Int

Flink关键技术解析与优化实战

北慕城南 提交于 2020-12-03 22:42:42
作者刘建刚老师 刘建刚 快手软件工程师 现就职于快手数据架构部,当前主要工作为快手Flink平台的研发和维护; 曾就职于百度基础架构部。 本次分享主要分为三部分。首先介绍流式计算的基本概念,然后介绍Flink的关键技术,最后讲讲Flink在快手生产实践中的一些应用,包括实时指标计算和快速failover。 一、流式计算的介绍 流式计算的定义: 流式计算主要针对unbounded data(无界数据流)进行实时的计算,将计算结果快速的输出或者修正。 这部分将分为三个小节来介绍: 第一,介绍大数据系统发展史,包括初始的批处理到现在比较成熟的流计算 第二,为大家简单对比下批处理和流处理的区别 第三,介绍流式计算里面的关键问题,这是每个优秀的流式计算引擎所必须面临的问题。 1、大数据系统发展史 上图是2003年到2018年大数据系统的发展史,看看是怎么一步步走到流式计算的。 2003年,Google的MapReduce横空出世,通过经典的Map&Reduce定义和系统容错等保障来方便处理各种大数据。很快就到了Hadoop,被认为是开源版的MapReduce,带动了整个apache开源社区的繁荣。再往后是谷歌的Flume,通过算子连接等pipeline的方式解决了多个MapReduce作业连接处理低效的问题。 流式系统的开始以Storm来介绍。Storm在2011年出现,具备延时短

基于云原生的大数据实时分析方案实践

拜拜、爱过 提交于 2020-12-03 14:31:51
1 方案介绍 大数据处理技术现今已广泛应用于各个行业,为业务解决海量存储和海量分析的需求。但数据量的爆发式增长,对数据处理能力提出了更大的挑战,同时对时效性也提出了更高的要求。实时分析已成为企业大数据分析中最关键的术语,这意味企业可将所有数据用于大数据实时分析,实现在数据接受同时即刻为企业生成分析报告,从而在第一时间作出市场判断与决策。典型的场景如电商大促和金融风控等,基于延迟数据的分析结果已经失去了价值。另外随着云原生时代的到来,云原生天生具有的高效部署、敏捷迭代、云计算资源成本和弹性扩展等优势,正在加速和缩短业务系统落地过程。云原生同样可助力大数据这一过程。 本文主要介绍如何利用 Kubernetes 实现云原生大数据实时分析平台。 2 总体架构 Data Streams:基于 Kafka 的数据流接入方案 Data Computations:基于 Spark Streaming 与 Flink 的流计算方案 Data Pipeline:基于 TKDF(Tencent Kubernetes Data Flow) 的数据工作流方案 Data Store:基于 Iceberg 与 HDFS 的数据湖方案 Data Interactive Analysis:基于 Spark SQL 与 Presto 的 SQL 交互式分析方案 Data Intelligence:基于

如何使用Kendo UI在Vue.js中轻松构建UI组件?

泪湿孤枕 提交于 2020-12-03 10:56:35
Kendo UI R3 2020 SP2试用版下载 本文将为大家介绍如何使用Kendo UI在Vue.js中构建一个气候视图UI组件,并完成与图表组件的界面。 首先让我们一起来了解一下背景。 什么是 Kendo UI ? Kendo UI是一个全面的Web用户界面框架,其中包含JavaScript UI组件的集合,这些JavaScript UI组件具有jQuery库以及Vue、React和Angular等更现代的库。 Kendo UI开发人员使用大量的UI小部件和数据可视化组件来构建交互式且响应迅速的高性能应用程序。 为什么选择 Kendo UI ? 使用Kendo UI,您可以轻松地将真正高级的UI组件添加到您选择库的前端项目中,不必担心接口的关键功能,而且可以节省时间,只需关注专有功能即可。 Kendo UI附带了易于使用的集成,支持您喜欢的每个前端Web框架(例如Vue.js)。 除基本的UI组件外,Kendo UI还为您提供了高级的数据可视化UI元素,可确保您不必向项目中添加其他库即可处理图表,这些高级UI元素也可自定义。 你会构建什么? 您将使用Kendo UI在Vue.js中构建气候视图UI组件,将首先使用VS Code中的Kendo UI starter扩展scaffolding,然后使用Vue Router创建路由,最后使用一些Kendo UI图表组件来构建界面。

<Zhuuu_ZZ>Spark项目实战-航班飞行网图分析

雨燕双飞 提交于 2020-12-02 23:12:38
航班飞行网图分析 一 项目技能 二 项目需求 三 数据探索 下载数据 数据格式 四 项目实战 构建航班飞行网图 统计航班飞行网图中机场与航线的数量 计算最长的飞行航线 找出最繁忙的机场 找出最重要的飞行航线 找出最便宜的飞行航线 一 项目技能 Spark GraphX API vertices、edges、triplets、 numEdges、numVertices inDegrees、outDegrees、degrees mapVertices、mapEdges、mapTriplets Spark GraphX PageRank Spark GraphX Pregel 二 项目需求 探索航班飞行网图数据 构建航班飞行网图 使用Spark GraphX完成下列任务 统计航班飞行网图中机场的数量 统计航班飞行网图中航线的数量 计算最长的飞行航线(Point to Point) 找出最繁忙的机场 找出最重要的飞行航线(PageRank) 找出最便宜的飞行航线(SSSP) 三 数据探索 下载数据 链接: 航班飞行网图数据 .提取码:gvyd 数据格式 文件格式为CSV,字段之间分隔符为“,” 依次为:#日、周#、航空公司、飞机注册号、航班号、起飞机场编号、起飞机场、到达机场编号、到达机场、预计起飞时间(时分)、起飞时间、起飞延迟(分钟)、到达预计时间、到达时间、到达延迟(分钟)

indows Eclipse Scala编写WordCount程序

旧时模样 提交于 2020-11-30 03:01:00
Windows Eclipse Scala编写WordCount程序: 1)无需启动hadoop,因为我们用的是本地文件。先像原来一样,做一个普通的scala项目和Scala Object。 但这里一定注意版本是2.10.6,因为缺省的不好使。改的方法是:右击项目/properties/Scala Compiler. 2)像spark的java版WordCount项目一模一样导包,什么都一样。(导包的方法和原来普通的java项目一样) 例:5.1 package com import org.apache.spark.SparkConf import org.apache.spark.SparkContext object WordCount { def main(args: Array[String]) { val conf = new SparkConf(); conf.setAppName("First Spark scala App!"); conf.setMaster("local"); val sc = new SparkContext(conf); val lines = sc.textFile("E://temp//input//friend.txt", 1); val words = lines.flatMap { lines => lines.split(" "

Scala 数组、映射和集合+wordcount程序

十年热恋 提交于 2020-11-30 02:06:53
数组 1、定长数组和变长数组 package cn.gec.scala import scala.collection.mutable.ArrayBuffer object ArrayDemo { def main(args: Array[String]) { // 初始化一个长度为8的定长数组,其所有元素均为0 val arr1 = new Array[Int](8) // 直接打印定长数组,内容为数组的hashcode值 println (arr1) // 将数组转换成数组缓冲,就可以看到原数组中的内容了 //toBuffer会将数组转换长数组缓冲 println (arr1.toBuffer) // 注意:如果new,相当于调用了数组的apply方法,直接为数组赋值 //初始化一个长度为1的定长数组 val arr2 = Array [Int](10) println (arr2.toBuffer) // 定义一个长度为3的定长数组 val arr3 = Array ( "hadoop" , "storm" , "spark" ) // 使用()来访问元素 println (arr3(2)) ////////////////////////////////////////////////// // 变长数组(数组缓冲) // 如果想使用数组缓冲,需要导入import

在local模式下的spark程序打包到集群上运行

萝らか妹 提交于 2020-11-28 08:26:38
一、前期准备   前期的环境准备,在Linux系统下要有Hadoop系统,spark伪分布式或者分布式,具体的教程可以查阅我的这两篇博客: Hadoop2.0伪分布式平台环境搭建 Spark2.4.0伪分布式环境搭建   然后在spark伪分布式的环境下必须出现如下八个节点才算spark环境搭建好。      然后再在本地windows系统下有一个简单的词频统计程序。 import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD object ScalaSparkDemo { def main(args: Array[String]) { /** * 第一步:创建Spark的配置对象SparkConf,设置Spark程序的运行时的配置信息, * 例如说通过setMaster来设置程序要连接的Spark集群的Master的URL, * 如果设置为local,则代表Spark程序在本地运行,特别适合于机器配置条件非常差 * (例如只有1G的内存)的初学者 */ val conf = new SparkConf() //创建SparkConf对象,由于全局只有一个SparkConf所以不需要工厂方法 conf.setAppName("wow,my

大数据架构师拿年薪50W的方法诀窍

房东的猫 提交于 2020-11-28 01:50:52
什么是 大数据 架构师 : 围绕大 数据 系 平台 系统 级的研发人员, 熟练Hadoop、Spark、Storm等主流大数据平台的核心框架。深入掌握如何编写MapReduce的作业及作业流的管理完成对数据的计算,并能够使用Hadoop提供的通用 算法 , 熟练掌握Hadoop整个生态系统的 组件 如: Yarn,HBase、Hive、Pig等重要组件,能够实现对平台监控、辅助运维系统的开发。我是一个大数据程序员,建了一个大数据资源共享群593188212 每天分享大数据学习资料和学习方法 ,现在分享一下专业知识 一.作为企业架构师,我们为什么需要构建数据 结构 ? 数据结构主要有以下内容: 1)数据标准不一致 2)数据模型管理混乱 3)深入的 性能 的问题无法解决 4)SQL语句编写水平不高导致出现严重性能问题 5)开发人员对执行计划收悉 6)上线前缺乏审计 7)相对复杂的数据处理能力欠缺 8)数据质量差需要执行数据质量管理 数据是客户的财富,虽然对于我们开发人员一文不值,在客户那里就是无价之宝,保障数据的完成性,安全性,可靠性, 二.作为一名数据架构师所掌握职责和技术 创建数据管理系统进行整合,集中,保护和维护数据源 必备语言:java,SQL,XML,HIVE,PIG,SPARK 技能和特长:数据仓库解决方案 , 深入了解数据库体系结构 , 提取thansformation