spark

提交任务到Spark

可紊 提交于 2020-02-19 02:24:08
1.场景   在搭建好Hadoop+Spark环境后,现准备在此环境上提交简单的任务到Spark进行计算并输出结果。搭建过程: http://www.cnblogs.com/zengxiaoliang/p/6478859.html   本人比较熟悉Java语言,现以Java的WordCount为例讲解这整个过程,要实现计算出给定文本中每个单词出现的次数。 2.环境测试   在讲解例子之前,我想先测试一下之前搭建好的环境。    2.1测试Hadoop环境   首先创建一个文件wordcount.txt 内容如下: Hello hadoop hello spark hello bigdata yellow banana red apple   然后执行如下命令:    hadoop fs -mkdir -p /Hadoop/Input (在HDFS创建目录)    hadoop fs -put wordcount.txt /Hadoop/Input (将wordcount.txt文件上传到HDFS)    hadoop fs -ls /Hadoop/Input (查看上传的文件)    hadoop fs -text /Hadoop/Input/wordcount.txt (查看文件内容)    2.2Spark环境测试   我使用spark-shell

0431-如何在Hue中添加Spark Notebook

让人想犯罪 __ 提交于 2020-02-18 21:23:15
温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。 Fayson的github: https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 CDH集群中可以使用Hue访问Hive、Impala、HBase、Solr等,在Hue3.8版本后也提供了Notebook组件(支持R、Scala及python语言),但在CDH中Hue默认是没有启用Spark的Notebook,使用Notebook运行Spark代码则依赖Livy服务。在前面Fayson也介绍了《Livy,基于Apache Spark的开源REST服务,加入Cloudera Labs》、《如何编译Livy并在非Kerberos环境的CDH集群中安装》、《如何通过Livy的RESTful API接口向非Kerberos环境的CDH集群提交作业》、《如何在Kerberos环境的CDH集群部署Livy》、《如何通过Livy的RESTful API接口向Kerberos环境的CDH集群提交作业》、《如何打包Livy和Zeppelin的Parcel包》和《如何在CM中使用Parcel包部署Livy及验证》,本篇文章Fayson主要介绍如何在Hue中添加Notebook组件并集成Spark。 测试版本 1.CM和CDH版本为5

Spark的应用场景

元气小坏坏 提交于 2020-02-17 06:22:58
Spark的生态圈 1.Spark的设计遵循“一个软件栈满足不同应用场景”的理念,逐渐形成一套完整的生态系统 2.Spark可以部署在资源管理器YARN之上,提供一站式大数据解决方案 3.Spark所提供的的生态系统可对应以下三种场景: 复杂的批量数据处理:通常时间跨度在数十分钟到数小时之间 基于历史数据的交互式查询:通常时间跨度在数十秒到数分钟之间 基于实时数据的数据处理:通常时间跨度在数百毫秒到数秒之间 4.Spark生态系统已经成为伯克利数据分析栈(BDAS)中重要的组成部分 5.Spark生态系统主要包括: Spark Core Spark SQL Spark Streaming MLlib GraphX Spark Core提供Spark最基础与最重要的功能,主要包括: SparkContext:通常而言,Driver Application的执行与输出都是通过SparkContext来完成的,在正式提交Application之前,首先需要初始化SparkContext 只需要使用SparkContext提供的 API完成 功能开发 Spark Core中包含了对RDD的API定义 Spark Core提供了创建和操作这些集合的多个API Spark SQL是Spark用来操作结构化数据的程序包 Spark Streaming 支持多种数据源 提供窗口操作

spark的运行指标监控

房东的猫 提交于 2020-02-17 01:34:33
sparkUi的4040界面已经有了运行监控指标,为什么我们还要自定义存入redis? 1.结合自己的业务,可以将监控页面集成到自己的数据平台内,方便问题查找,邮件告警 2.可以在sparkUi的基础上,添加一些自己想要指标统计 一、spark的SparkListener sparkListener是一个接口,我们使用时需要自定义监控类实现sparkListener接口中的各种抽象方法,SparkListener 下各个事件对应的函数名非常直白,即如字面所表达意思。 想对哪个阶段的事件做一些自定义的动作,变继承SparkListener实现对应的函数即可,这些方法会帮助我监控spark运行时各个阶段的数据量,从而我们可以获得这些监控指标数据 abstract class SparkListener extends SparkListenerInterface {//stage完成的时调用 override def onStageCompleted(stageCompleted: SparkListenerStageCompleted): Unit = { } //stage提交时调用 override def onStageSubmitted(stageSubmitted: SparkListenerStageSubmitted): Unit = { } override def

Spark job提交时,spark-submit的主要参数的解析及建议

空扰寡人 提交于 2020-02-17 01:27:41
前言 说spark之前,先提一下MapReduce: 最本质的两个过程就是Map和Reduce Map的应用在于我们 需要数据一对一的元素的映射转换 ,比如说进行 截取,进行过滤,或者任何的转换操作 ,这些一对一的元素转换就称作是Map; Reduce主要就是 元素的聚合 ,就是 多个元素对一个元素的聚合 ,比如求Sum等,这就是Reduce。 Mapreduce是Hadoop1.0的核心, Spark出现慢慢替代Mapreduce 。 为什么Mapreduce还在被使用呢? 因为有很多现有的应用还依赖于它, 它不是一个独立的存在 , 已经成为其他生态不可替代的部分 ,比如pig,hive等。 尽管 MapReduce极大的简化了大数据分析 ,但是随着大数据需求和使用模式的扩大,用户的需求也越来越多: 1.更复杂的多重处理需求(比如迭代计算, ML, Graph); 2.低延迟的交互式查询需求(比如ad-hoc query) 来源: CSDN 作者: 阿啄debugIT 链接: https://blog.csdn.net/as4589sd/article/details/104339349

Spark 读取文件系统的数据

本秂侑毒 提交于 2020-02-16 21:58:18
目录: 一、 在 spark-shell 中读取 Linux 系统本地文件 二、 在 spark-shell 中读取 HDFS 系统文件 三、 编写独立应用程序,读取 HDFS 系统文件 (此处有sbt安装教程——> Spark之Scala独立应用编程 ) 环境: Hadoop 2.6.0以上 java JDK 1.7以上 Spark 3.0.0-preview2 sbt 0.13.9 一、在 spark-shell 中读取 Linux 系统本地文件“/home/hadoop/test1.txt”,然后统计出文件的行数: 1、 首先启动spark-shell进入Spark-shell模式:(进入spark目录下后 输入命令 bin/spark-shell 启动spark-shell模式 ) 2、 加载text文件 (spark创建sc,可以加载本地文件和HDFS文件创建RDD) val textFile = sc.textFile("file:///home/hadoop/test1.txt") #注意file:后是三个“/” 注意:加载HDFS文件和本地文件都是使用textFile,区别是添加前缀(hdfs://和file://)进行标识。 3、 获取RDD文件textFile所有项 (文本文件即总共行数) 的计数 (还有很多其他的RDD操作,自行百度) textFile

【Spark】六、org.apache.hadoop.security.AccessControlException

≡放荡痞女 提交于 2020-02-16 19:12:43
Exception in thread "main" org.apache.hadoop.security.AccessControlException: Permission denied: user=L.MOON, access=WRITE, inode="/user/lsy/result1/_temporary/0":lsy:supergroup:drwxr-xr-x Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Permission denied: user=L.MOON, access=WRITE, inode="/user/lsy/result1/_temporary/0":lsy:supergroup:drwxr-xr-x 修改配置文件:hdfs.site-xml【hadoop-2.7.2/etc/hadoop/hdfs.site.xml】 <!-- 修改HDFS权限 --> <property> <name>dfs.permissions</name> <value>false</value> </property> 分发修改后的文件【scp】,并重启HDFS 再次运行程序,即可成功写入! 来源: CSDN 作者

菜鸟学习大数据技术的过程

丶灬走出姿态 提交于 2020-02-16 08:00:09
作为菜鸟的我,对数据分析产生了兴趣,揭示隐藏在各种各样不同信息背后的相互关系。在这个数据为王的时代,数据驱动产生变革,让数据存储的更安全、计算的更快、分析的更精确,让我们跟随王家林老师的脚步去学习吧。 Spark 是在 Scala 语言中实现的,创建Spark的目的是为了支持分布式数据集上的迭代作,但是实际上它是对 Hadoop 的补充,可以在 Hadoop文件系统中并行运行 spark是一个集群计算框架,引入的是内存集群计算,并行操作之间重用工作数据集的工作负载,将数据缓存在内存中,以缩短访问延迟。 王家林的第一个中国梦:免费为全社会培养100万名优秀的大数据从业人员! 您可以通过王家林老师的微信号18610086859发红包捐助大数据、互联网+、O2O、工业4.0、微营销、移动互联网等系列免费实战课程, 目前已经发布的王家林免费视频全集如下: 1,《大数据不眠夜:Spark内核天机解密(共140讲)》: 51CTO在线观看(支持手机、平板、PC): http://edu.51cto.com/course/course_id-4703.html 百度云下载: http://pan.baidu.com/s/1eQsHZAq 2,《Hadoop深入浅出实战经典》 http://pan.baidu.com/s/1mgpfRPu 3,《Spark纯实战公益大讲坛》 http://pan

2020.2.15

浪尽此生 提交于 2020-02-16 00:49:02
一、大数据spark 补写实验报告 学习 python 二、《一线架构师实践指南》阅读 阅读了最后一章 一、大数据spark 补写实验报告 学习 python 二、《一线架构师实践指南》阅读 阅读了最后一章 一、大数据spark 补写实验报告 学习 python 二、《一线架构师实践指南》阅读 阅读了最后一章 一、大数据spark 补写实验报告 来源: https://www.cnblogs.com/yeshenfeng/p/12315055.html

Spark on Yarn遇到的几个问题

狂风中的少年 提交于 2020-02-15 04:00:33
本文转自:http://www.cnblogs.com/Scott007/p/3889959.html 1 概述 Spark的on Yarn模式,其资源分配是交给Yarn的ResourceManager来进行管理的,但是目前的Spark版本,Application日志的查看,只能通过Yarn的yarn logs命令实现。 在部署和运行Spark Application的过程中,如果不注意一些小的细节,也许会导致一些问题的出现。 2 防火墙 部署好Spark的包和配置文件,on yarn的两种模式都无法运行,在NodeManager端的日志都是说Connection Refused,连接不上Driver所在的客户端节点,但是客户端的80端口可以正常访问!同时,在日志中有类似信息出现: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient memory 内存肯定是够的,但就是无法获取资源!检查防火墙,果然客户端只开启的对80端口的访问,其他都禁止了!如果你的程序在运行的时候也有类似连接被拒绝的情况,最好也是先检查下防火墙的配置! 3 Spark Driver程序host的指定 部署完Spark后