spark | 易学教程

Spark集群术语

阅读更多关于 Spark集群术语

Spark集群术语解析 1. Application Application是用户在Spark上构建(编写)的程序，包含driver program 和executors（分布在集群中多个节点上运行的Executor代码）。 2. SparkContext Spark的上下文对象，是程序的起点，通往集群的入口（与cluster进行连接），通过其可以创建RDD（获取数据），在其中配置的参数拥有最高优先级。在Spark中由SparkContext负责和ClusterManager通行，进行资源的申请，任务的分配和监控等。 3. Driver program 包含应用程序的main函数，并且运行时会创建SparkContext。当Executor部分运行完后，Driver负责将SparkContext关闭。 4. Cluster Manager 集群资源管理的外部服务，在Spark上现有Standalone(Spark自带的管理器)，YARN(hadoop 2.x的管理器),Mesos等三种集群资源管理器，Standalone能满足绝大部分对集群资源管理的需求，基本上只有在集群中运行多套计算框架（例如同时运行MapReduce和Spark）的时候才建议使用YARN和Mesos。 5. Deploy mode 表明driver程序运行的位置。在”cluster”模式时

Spark集群模式概述

阅读更多关于 Spark集群模式概述

本文翻译自Spark 2.2.0 - Cluster Mode Overview (http://spark.apache.org/docs/latest/cluster-overview.html) 一、Spark应用构成（Components） Spark应用由集群上的一组独立的进程集构成，SparkContext对象对这些进程进行调度和协调（SparkContext对象在driver程序中创建）。在将应用运行在集群上时，SparkContext可以连接几种不同的cluster manager（Spark自带的standalone cluster manager，Mesos或者YARN），cluster manager可以为各应用分配资源。一旦SparkContext与cluster manager连接，Spark从集群的节点上获取executors，executor为可以运行计算代码和存储数据的进程。获取到executors后，Spark将应用代码（JAR或者Python文件）发给各executor。最后，SparkContext将tasks发给executors运行。关于此架构的几个注意点： 1.每个应用获得其执行进程（executor processes），这些进程以多线程方式运行任务（tasks），并且在整个应用运行期间保持在线

Spark 基本架构及原理

阅读更多关于 Spark 基本架构及原理

转载自： http://blog.csdn.net/swing2008/article/details/60869183 转自：http://www.cnblogs.com/tgzhu/p/5818374.html Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一，与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下优势： Spark提供了一个全面、统一的框架用于管理各种有着不同性质（文本数据、图表数据等）的数据集和数据源（批量数据或实时的流数据）的大数据处理的需求官方资料介绍Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍，甚至能够将应用在磁盘上的运行速度提升10倍目标：架构及生态 spark 与 hadoop 运行流程及特点常用术语 standalone模式 yarn集群 RDD运行流程架构及生态：通常当需要处理的数据量超过了单机尺度(比如我们的计算机有4GB的内存，而我们需要处理100GB以上的数据)这时我们可以选择spark集群进行计算，有时我们可能需要处理的数据量并不大，但是计算很复杂，需要大量的时间，这时我们也可以选择利用spark集群强大的计算资源，并行化地计算

spark实验四（2）

阅读更多关于 spark实验四（2）

第二题：第一步：在当前目录下新建一个目录 mkdir -p src/main/scala，然后在目录/usr/local/spark/mycode/remdup/src/main/scala 下新建一个 remdup.scala 在目录/usr/local/spark/mycode/remdup 目录下新建 simple.sbt 在目录/usr/local/spark/mycode/remdup 下执行下面命令打包程序最后在目录/usr/local/spark/mycode/remdup 下执行下面命令提交程序在目录/usr/local/spark/mycode/remdup/result 下即可得到结果文件。来源： https://www.cnblogs.com/muailiulan/p/12274379.html

通过docker镜像建立hdfs与spark集群

阅读更多关于通过docker镜像建立hdfs与spark集群

在vscode中，安装xml-tools后按 Cltr-Alt-L 可以格式化xml RUN apt install openjdk-8* -y ，jdk路径为 export JAVA_HOME = "/usr/lib/jvm/java-8-openjdk-amd64" 获取某个容器的ip import json import os from pathlib import Path if __name__ == "__main__" : data = json . loads ( os . popen ( 'docker inspect 4617c4e69001' ) . read ( ) ) ip = data [ 0 ] [ "NetworkSettings" ] [ "IPAddress" ] print ( ip ) 给centos的阿里云安装Hadoop root登录的错误解决 WARNING: HADOOP_SECURE_DN_USER has been replaced by HDFS_DATANODE_SECURE_USER. Using value of HADOOP 解决 ttyname failed: Inappropriate ioctl for device 问题 awk用法之：删除行 hadoop multi node cluster 安装 scala

Spark Streaming 数据限流简述

阅读更多关于 Spark Streaming 数据限流简述

Spark Streaming对实时数据流进行分析处理，源源不断的从数据源接收数据切割成一个个时间间隔进行处理；流处理与批处理有明显区别，批处理中的数据有明显的边界、数据规模已知；而流处理数据流并没有边界，也未知数据规模；由于流处理的数据流特征，使之数据流具有不可预测性，而且数据处理的速率还与硬件、网络等资源有关，在这种情况下如不对源源不断进来的数据流速率进行限制，那当Spark节点故障、网络故障或数据处理吞吐量下来时还有数据不断流进来，那将有可能将出现OOM进而导致Spark Streaming程序崩溃；在Spark Streaming中不同的数据源采用不同的限速策略，但无论是Socket数据源的限流策略还是Kafka数据源的限流策略其速率（rate）的计算都是使用PIDController算法进行计算而得来；下面从源码的角度分别介绍 Socket数据源与 Kafka数据源的限流处理。速率限制的计算与更新 Spark Streaming的流处理其实是基于微批处理(MicroBatch)的，也就是说将数据流按某比较小的时间间隔将数据切割成为一段段微批数据进行处理；添加监听器 StreamingContext调用Start()启动的时候会将速率控制器（rateController）添加到StreamingListener监听器中；当每批次处理完成时将触发监听器

数据挖掘、数据分析以及大数据之间的区别有哪些？

阅读更多关于数据挖掘、数据分析以及大数据之间的区别有哪些？

进入大数据时代，和数据相关的名词都被人们津津乐道。那数据挖掘、数据分析以及大数据之间有哪些区别呢？数据挖掘是发现信息以及收集数据的过程；数据分析则是将现有数据进行归纳以及分析得出相应结论的过程。而大数据则更加关注数据本身，重要表现就是数据量大，数据的多样性等等。　　首先我们了解一下这三个概念分别有哪些具体的含义以及特点。　　 1、大数据：　　指无法一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。　　在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径，而采用所有数据进行分析处理。大数据的5V特点：Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性) 。　　 2、数据分析：　　是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中，数据分析可帮助人们作出判断，以便采取适当行动。　　数据分析的数学基础在20世纪早期就已确立，但直到计算机的出现才使得实际操作成为可能，并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。　

手把手带你入门PySpark！

阅读更多关于手把手带你入门PySpark！

PySpark数据科学入门 PySpark是一种很好的语言，可以大规模地进行探索性数据分析、构建机器学习管道以及为数据平台创建ETL。如果您已经熟悉Python和Pandas等库，那么PySpark是一种很好的语言，可以用来创建更具扩展性的分析和管道。这篇文章的目的是展示如何启动和运行PySpark并执行常见任务。我们将使用Databricks作为Spark环境，将Kaggle的NHL数据集用作分析的数据源。这篇文章展示了如何在Spark 数据帧写入数据，创建这些帧的转换和聚合，可视化结果以及执行线性回归。我还将展示如何使用Pandas UDF以可扩展的方式将常规Python代码与PySpark混合。为了简单起见，我们将专注于批处理并避免流数据管道出现的一些复杂问题。这篇文章的完整笔记本可以在github上找到。(https://github.com/bgweber/StartupDataScience/blob/master/EDA/PySpark_NHL.ipynb) 环境启动和运行Spark有许多不同的选项：自托管：您可以使用裸机或虚拟机自行设置群集。 Apache Ambari是这个选项的一个有用的项目，但它不是我推荐的快速启动和运行的方法。云提供商：大多数云提供商都提供Spark集群：AWS具有EMR，GCP具有DataProc，它可以比自托管更快地进入互动环境

2月6日学习记录

阅读更多关于 2月6日学习记录

1，背诵单词：dive：潜水 wreck：残骸，毁灭 vitamin：维生素 distribution：分配 dismiss：解雇 Soviet：苏维埃 dialect：方言 wrist：手腕 interpreter：解释着 spider：蜘蛛 destination：终点 van：厢式货车 Fahrenheit：华氏温度计的 worship：崇拜 step：步，脚本 tomb：坟墓 tight：紧的 vase：花瓶 twinkle：闪烁的 2，学习spark视频： https://www.bilibili.com/video/av35028934 发现林子雨的教程有点老，有些地方现在不适用了 3，遇到的问题：今天依然没有解决用eclipse开发scala+spark操作HBASE的数据，我的HBASE使用的是外部的zookeeper，运行时一致报错找不到主类，根据网上的解决办法试了好几个也没解决然后就下载了IDEA，结果发现文件系统空间不足了，然后查了给Centos系统分配了15个G的内存；然后就用sbt+scala编译，结果sbt的依赖一直下不上，我到网上找了配置使用国内源和阿里源，结果不知道怎么回事一直下不上依赖；只能配置Maven项目，找了一个还不错的博客，编译了一个简单的单词统计功能 4，明天计划：学习spark 来源： https://www.cnblogs

深度预警:Spark运行原理

阅读更多关于深度预警:Spark运行原理

本文主要分以下章节：一、Spark专业术语定义二、 Spark的任务提交机制一、Spark专业术语定义 1、Application：Spark应用程序指的是用户编写的Spark应用程序，包含了Driver功能代码和分布在集群中多个节点上运行的Executor代码。 Spark应用程序，由一个或多个作业JOB组成，如下图所示: image 2、Driver：驱动程序 Spark中的Driver即运行上述Application的Main()函数并且创建SparkContext，其中创建SparkContext的目的是为了准备Spark应用程序的运行环境。在Spark中由SparkContext负责和ClusterManager通信，进行资源的申请、任务的分配和监控等；当Executor部分运行完毕后，Driver负责将SparkContext关闭。通常SparkContext代表Driver，如下图所示: image 3、Cluster Manager：资源管理器指的是在集群上获取资源的外部服务，常用的有：Standalone，Spark原生的资源管理器，由Master负责资源的分配；Haddop Yarn，由Yarn中的ResearchManager负责资源的分配；Messos，由Messos中的Messos Master负责资源管理，如下图所示: image 4

订阅 spark