spark | 易学教程

提交任务到Spark

阅读更多关于提交任务到Spark

1.场景　　在搭建好Hadoop+Spark环境后，现准备在此环境上提交简单的任务到Spark进行计算并输出结果。搭建过程： http://www.cnblogs.com/zengxiaoliang/p/6478859.html 　　本人比较熟悉Java语言，现以Java的WordCount为例讲解这整个过程，要实现计算出给定文本中每个单词出现的次数。 2.环境测试　　在讲解例子之前，我想先测试一下之前搭建好的环境。　　 2.1测试Hadoop环境　　首先创建一个文件wordcount.txt 内容如下： Hello hadoop hello spark hello bigdata yellow banana red apple 　　然后执行如下命令：　　 hadoop fs -mkdir -p /Hadoop/Input （在HDFS创建目录）　　 hadoop fs -put wordcount.txt /Hadoop/Input （将wordcount.txt文件上传到HDFS）　　 hadoop fs -ls /Hadoop/Input （查看上传的文件）　　 hadoop fs -text /Hadoop/Input/wordcount.txt （查看文件内容）　　 2.2Spark环境测试　　我使用spark-shell

0431-如何在Hue中添加Spark Notebook

阅读更多关于 0431-如何在Hue中添加Spark Notebook

温馨提示：如果使用电脑查看图片不清晰，可以使用手机打开文章单击文中的图片放大查看高清原图。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的 CDH集群中可以使用Hue访问Hive、Impala、HBase、Solr等，在Hue3.8版本后也提供了Notebook组件（支持R、Scala及python语言），但在CDH中Hue默认是没有启用Spark的Notebook，使用Notebook运行Spark代码则依赖Livy服务。在前面Fayson也介绍了《Livy，基于Apache Spark的开源REST服务，加入Cloudera Labs》、《如何编译Livy并在非Kerberos环境的CDH集群中安装》、《如何通过Livy的RESTful API接口向非Kerberos环境的CDH集群提交作业》、《如何在Kerberos环境的CDH集群部署Livy》、《如何通过Livy的RESTful API接口向Kerberos环境的CDH集群提交作业》、《如何打包Livy和Zeppelin的Parcel包》和《如何在CM中使用Parcel包部署Livy及验证》，本篇文章Fayson主要介绍如何在Hue中添加Notebook组件并集成Spark。测试版本 1.CM和CDH版本为5

Spark的应用场景

阅读更多关于 Spark的应用场景

Spark的生态圈 1.Spark的设计遵循“一个软件栈满足不同应用场景”的理念，逐渐形成一套完整的生态系统 2.Spark可以部署在资源管理器YARN之上，提供一站式大数据解决方案 3.Spark所提供的的生态系统可对应以下三种场景：复杂的批量数据处理：通常时间跨度在数十分钟到数小时之间基于历史数据的交互式查询：通常时间跨度在数十秒到数分钟之间基于实时数据的数据处理：通常时间跨度在数百毫秒到数秒之间 4.Spark生态系统已经成为伯克利数据分析栈（BDAS）中重要的组成部分 5.Spark生态系统主要包括： Spark Core Spark SQL Spark Streaming MLlib GraphX Spark Core提供Spark最基础与最重要的功能，主要包括： SparkContext：通常而言，Driver Application的执行与输出都是通过SparkContext来完成的，在正式提交Application之前，首先需要初始化SparkContext 只需要使用SparkContext提供的 API完成功能开发 Spark Core中包含了对RDD的API定义 Spark Core提供了创建和操作这些集合的多个API Spark SQL是Spark用来操作结构化数据的程序包 Spark Streaming 支持多种数据源提供窗口操作

spark的运行指标监控

阅读更多关于 spark的运行指标监控

sparkUi的4040界面已经有了运行监控指标，为什么我们还要自定义存入redis？ 1.结合自己的业务，可以将监控页面集成到自己的数据平台内，方便问题查找，邮件告警 2.可以在sparkUi的基础上，添加一些自己想要指标统计一、spark的SparkListener sparkListener是一个接口，我们使用时需要自定义监控类实现sparkListener接口中的各种抽象方法，SparkListener 下各个事件对应的函数名非常直白，即如字面所表达意思。想对哪个阶段的事件做一些自定义的动作，变继承SparkListener实现对应的函数即可，这些方法会帮助我监控spark运行时各个阶段的数据量，从而我们可以获得这些监控指标数据 abstract class SparkListener extends SparkListenerInterface {//stage完成的时调用 override def onStageCompleted(stageCompleted: SparkListenerStageCompleted): Unit = { } //stage提交时调用 override def onStageSubmitted(stageSubmitted: SparkListenerStageSubmitted): Unit = { } override def

Spark job提交时，spark-submit的主要参数的解析及建议

阅读更多关于 Spark job提交时，spark-submit的主要参数的解析及建议

前言说spark之前，先提一下MapReduce：最本质的两个过程就是Map和Reduce Map的应用在于我们需要数据一对一的元素的映射转换，比如说进行截取，进行过滤，或者任何的转换操作，这些一对一的元素转换就称作是Map； Reduce主要就是元素的聚合，就是多个元素对一个元素的聚合，比如求Sum等，这就是Reduce。 Mapreduce是Hadoop1.0的核心， Spark出现慢慢替代Mapreduce 。为什么Mapreduce还在被使用呢？因为有很多现有的应用还依赖于它，它不是一个独立的存在，已经成为其他生态不可替代的部分，比如pig，hive等。尽管 MapReduce极大的简化了大数据分析，但是随着大数据需求和使用模式的扩大，用户的需求也越来越多： 1.更复杂的多重处理需求（比如迭代计算, ML, Graph）； 2.低延迟的交互式查询需求（比如ad-hoc query）来源： CSDN 作者：阿啄debugIT 链接： https://blog.csdn.net/as4589sd/article/details/104339349

Spark 读取文件系统的数据

阅读更多关于 Spark 读取文件系统的数据

目录：一、在 spark-shell 中读取 Linux 系统本地文件二、在 spark-shell 中读取 HDFS 系统文件三、编写独立应用程序，读取 HDFS 系统文件（此处有sbt安装教程——> Spark之Scala独立应用编程）环境： Hadoop 2.6.0以上 java JDK 1.7以上 Spark 3.0.0-preview2 sbt 0.13.9 一、在 spark-shell 中读取 Linux 系统本地文件“/home/hadoop/test1.txt”，然后统计出文件的行数： 1、首先启动spark-shell进入Spark-shell模式：（进入spark目录下后输入命令 bin/spark-shell 启动spark-shell模式） 2、加载text文件（spark创建sc，可以加载本地文件和HDFS文件创建RDD） val textFile = sc.textFile("file:///home/hadoop/test1.txt") #注意file:后是三个“/” 注意：加载HDFS文件和本地文件都是使用textFile，区别是添加前缀(hdfs://和file://)进行标识。 3、获取RDD文件textFile所有项（文本文件即总共行数）的计数（还有很多其他的RDD操作，自行百度） textFile

【Spark】六、org.apache.hadoop.security.AccessControlException

阅读更多关于【Spark】六、org.apache.hadoop.security.AccessControlException

Exception in thread "main" org.apache.hadoop.security.AccessControlException: Permission denied: user=L.MOON, access=WRITE, inode="/user/lsy/result1/_temporary/0":lsy:supergroup:drwxr-xr-x Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Permission denied: user=L.MOON, access=WRITE, inode="/user/lsy/result1/_temporary/0":lsy:supergroup:drwxr-xr-x 修改配置文件：hdfs.site-xml【hadoop-2.7.2/etc/hadoop/hdfs.site.xml】  <property> <name>dfs.permissions</name> <value>false</value> </property> 分发修改后的文件【scp】，并重启HDFS 再次运行程序，即可成功写入！来源： CSDN 作者

菜鸟学习大数据技术的过程

阅读更多关于菜鸟学习大数据技术的过程

作为菜鸟的我，对数据分析产生了兴趣，揭示隐藏在各种各样不同信息背后的相互关系。在这个数据为王的时代，数据驱动产生变革，让数据存储的更安全、计算的更快、分析的更精确，让我们跟随王家林老师的脚步去学习吧。 Spark 是在 Scala 语言中实现的，创建Spark的目的是为了支持分布式数据集上的迭代作，但是实际上它是对 Hadoop 的补充，可以在 Hadoop文件系统中并行运行 spark是一个集群计算框架，引入的是内存集群计算，并行操作之间重用工作数据集的工作负载，将数据缓存在内存中，以缩短访问延迟。王家林的第一个中国梦：免费为全社会培养100万名优秀的大数据从业人员！您可以通过王家林老师的微信号18610086859发红包捐助大数据、互联网+、O2O、工业4.0、微营销、移动互联网等系列免费实战课程，目前已经发布的王家林免费视频全集如下： 1，《大数据不眠夜：Spark内核天机解密（共140讲）》： 51CTO在线观看（支持手机、平板、PC）: http://edu.51cto.com/course/course_id-4703.html 百度云下载: http://pan.baidu.com/s/1eQsHZAq 2，《Hadoop深入浅出实战经典》 http://pan.baidu.com/s/1mgpfRPu 3，《Spark纯实战公益大讲坛》 http://pan

2020.2.15

阅读更多关于 2020.2.15

一、大数据spark 补写实验报告学习 python 二、《一线架构师实践指南》阅读阅读了最后一章一、大数据spark 补写实验报告学习 python 二、《一线架构师实践指南》阅读阅读了最后一章一、大数据spark 补写实验报告学习 python 二、《一线架构师实践指南》阅读阅读了最后一章一、大数据spark 补写实验报告来源： https://www.cnblogs.com/yeshenfeng/p/12315055.html

Spark on Yarn遇到的几个问题

阅读更多关于 Spark on Yarn遇到的几个问题

本文转自：http://www.cnblogs.com/Scott007/p/3889959.html 1 概述 Spark的on Yarn模式，其资源分配是交给Yarn的ResourceManager来进行管理的，但是目前的Spark版本，Application日志的查看，只能通过Yarn的yarn logs命令实现。在部署和运行Spark Application的过程中，如果不注意一些小的细节，也许会导致一些问题的出现。 2 防火墙部署好Spark的包和配置文件，on yarn的两种模式都无法运行，在NodeManager端的日志都是说Connection Refused，连接不上Driver所在的客户端节点，但是客户端的80端口可以正常访问！同时，在日志中有类似信息出现： Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient memory 内存肯定是够的，但就是无法获取资源！检查防火墙，果然客户端只开启的对80端口的访问，其他都禁止了！如果你的程序在运行的时候也有类似连接被拒绝的情况，最好也是先检查下防火墙的配置！ 3 Spark Driver程序host的指定部署完Spark后

订阅 spark