executor | 易学教程

Spark性能调优-集群资源分配策略

阅读更多关于 Spark性能调优-集群资源分配策略

展开开发完成Spark作业之后，我们在运行Spark作业的时候需要为其配置一些资源参数，比如num-executors，executor-memory等，这些参数基本上都是可以在spark-submit命令中作为参数设置，但是如何设置合适的参数值是需要我们权衡考虑的（集群资源，调优经验，任务大小等）。参数设置的不合适往往会导致集群资源得不到有效的利用，设置的太大可能会导致资源不够而引发异常，太小的话会使得闲置的资源得不到有效利用，作业运行的极为缓慢。所以，如何合理有效的分配Spark作业资源是需要Spark学习者重点考虑的。下面将一些理论知识结合自己的实践进行讲解。集群资源情况我们在为自己的Spark作业设置资源参数的时候，需要对公司的集群资源使用情况有一个较为清晰的了解，主要了解以下几个方面： (1)集群总体情况公司集群的整体配置信息，比如总内存，内存使用情况，节点数等，对集群的资源有一个整体的认识。可以从Yarn页面来了解集群整体情况，如红线圈出的一些重要信息： (2)资源队列配置一般使用资源管理器，比如Yarn，都会设置一些资源队列，比如Hadoop,Spark，default队列等。这里以讯飞公司情况为例讲解，讯飞使用Yarn资源管理器，这里采用Capacity Scheduler任务调度模式，设置了两个资源队列：default和Spark

Spark之 RDD

阅读更多关于 Spark之 RDD

简介 RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。　　Resilient：弹性，它表示的含义rdd的数据是可以保存在内存中或者是磁盘中。　　Distributed：它的数据是分布式存储的，后期方便于进行分布式计算。　　Dataset：它就是一个集合，集合里面可以存放了很多个元素。 RDD的属性 1 A list of partitions 一个分区列表，在这里表示一个rdd中有很多个分区(partitions)，Spark任务的计算以分区为单位，每一个分区就是一个task。读取hdfs上文件产生的RDD分区数跟文件的block个数相等 rdd1=sc.textFile("/words.txt") 2 A function for computing each split Spark中RDD的计算是以分区为单位的，每个RDD都会实现compute函数以达到这个目的。compute函数会对迭代器进行复合，不需要保存每次计算的结果。 3 A list of dependencies on other RDDs 一个RDD会依赖于其他多个RDD,这里就涉RDD之间的依赖关系，RDD的每次转换都会生成新的RDD，Spark任务的容错机制就是根据这个特性而来

带你了解MyBatis一二级缓存

阅读更多关于带你了解MyBatis一二级缓存

在对数据库进行噼里啪啦的查询时，可能存在多次使用相同的SQL语句去查询数据库，并且结果可能还一样，这时，如果不采取一些措施，每次都从数据库查询，会造成一定资源的浪费，所以Mybatis中提供了一级缓存和二级缓存来解决这个问题，通过把第一次查询的结果保存在内存中，如果下次有同样的语句，则直接从内存中返回。一级缓存一级缓存的作用域在同一个SqlSession，也就是说两个一样的SQL语句，第一次会从数据库中获得，并保存在一个Map<Object, Object> 中，第二次会从这个Map中返回，Mybatis默认开启了一级缓存。下面是代码演示 public static void main( String[] args ) { String resource = "mybatis-config.xml"; try { InputStream inputStream = Resources.getResourceAsStream(resource); SqlSessionFactory build = new SqlSessionFactoryBuilder().build(inputStream); SqlSession sqlSession = build.openSession(); System.out.println(sqlSession.getMapper

mybatis源码阅读(五) ---执行器Executor

阅读更多关于 mybatis源码阅读(五) ---执行器Executor

转载自 mybatis源码阅读(五) ---执行器Executor 1. Executor接口设计与类结构图 public interface Executor { ResultHandler NO_RESULT_HANDLER = null; // 执行update，delete，insert三种类型的sql语句 int update(MappedStatement ms, Object parameter) throws SQLException; // 执行select类型的SQL语句，返回值分为结果对象列表和游标对象 <E> List<E> query(MappedStatement ms, Object parameter, RowBounds rowBounds, ResultHandler resultHandler, CacheKey cacheKey, BoundSql boundSql) throws SQLException; <E> List<E> query(MappedStatement ms, Object parameter, RowBounds rowBounds, ResultHandler resultHandler) throws SQLException; <E> Cursor<E> queryCursor(MappedStatement

mybatis源码阅读(六) ---StatementHandler了解一下

阅读更多关于 mybatis源码阅读(六) ---StatementHandler了解一下

转载自 mybatis源码阅读(六) ---StatementHandler了解一下 StatementHandler类结构图与接口设计 BaseStatementHandler：一个抽象类，只是实现了一些不涉及具体操作的方法 RoutingStatementHandler：类似路由器，根据配置文件来路由选择具体实现类SimpleStatementHandler、CallableStatementHandler和PreparedStatementHandler SimpleStatementHandler：就是直接使用普通的Statement对象，这样每次执行SQL语句都需要数据库对SQL进行预编译 PrepareStatementHandler：使用PrepareStatement执行，虽然初次创建PrepareStatement时开销比较大，但在多次处理SQL时只需要初始化一次，可以有效提高性能 CallableStatementHandler：使用CallableStatement执行，CallableStatement是用来执行存储过程的。在每个mapper节点可以设置statementType决定是否使用谁，如下 <!-- statementType （可选配置，默认配置为PREPARED） STATEMENT，PREPARED 或 CALLABLE 的一个。这会让

Spark学习之路（七）Spark 运行流程[转]

阅读更多关于 Spark学习之路（七）Spark 运行流程[转]

Spark中的基本概念（1）Application：表示你的应用程序（2）Driver：表示main()函数，创建SparkContext。由SparkContext负责与ClusterManager通信，进行资源的申请，任务的分配和监控等。程序执行完毕后关闭SparkContext （3）Executor：某个Application运行在Worker节点上的一个进程，该进程负责运行某些task，并且负责将数据存在内存或者磁盘上。在Spark on Yarn模式下，其进程名称为 CoarseGrainedExecutor Backend，一个CoarseGrainedExecutor Backend进程有且仅有一个executor对象，它负责将Task包装成taskRunner，并从线程池中抽取出一个空闲线程运行Task，这样，每个CoarseGrainedExecutorBackend能并行运行Task的数据就取决于分配给它的CPU的个数。（4）Worker：集群中可以运行Application代码的节点。在Standalone模式中指的是通过slave文件配置的worker节点，在Spark on Yarn模式中指的就是NodeManager节点。（5）Task：在Executor进程中执行任务的工作单元，多个Task组成一个Stage （6）Job

Spark学习之路（八）SparkCore的调优之开发调优[转]

阅读更多关于 Spark学习之路（八）SparkCore的调优之开发调优[转]

前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更快、性能更高。然而，通过Spark开发出高性能的大数据计算作业，并不是那么简单的。如果没有对Spark作业进行合理的调优，Spark作业的执行速度可能会很慢，这样就完全体现不出Spark作为一种快速大数据计算引擎的优势来。因此，想要用好Spark，就必须对其进行合理的性能优化。 Spark的性能调优实际上是由很多部分组成的，不是调节几个参数就可以立竿见影提升作业性能的。我们需要根据不同的业务场景以及数据情况，对Spark作业进行综合性的分析，然后进行多个方面的调节和优化，才能获得最佳性能。笔者根据之前的Spark作业开发经验以及实践积累，总结出了一套Spark作业的性能优化方案。整套方案主要分为开发调优、资源调优、数据倾斜调优、shuffle调优几个部分。开发调优和资源调优是所有Spark作业都需要注意和遵循的一些基本原则，是高性能Spark作业的基础；数据倾斜调优

Spark学习之路（十）SparkCore的调优之Shuffle调优[转]

阅读更多关于 Spark学习之路（十）SparkCore的调优之Shuffle调优[转]

概述大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此，如果要让作业的性能更上一层楼，就有必要对shuffle过程进行调优。但是也必须提醒大家的是，影响一个Spark作业性能的因素，主要还是代码开发、资源参数以及数据倾斜，shuffle调优只能在整个Spark的性能调优中占到一小部分而已。因此大家务必把握住调优的基本原则，千万不要舍本逐末。下面我们就给大家详细讲解shuffle的原理，以及相关参数的说明，同时给出各个参数的调优建议。 shuffle的定义 Spark的运行主要分为2部分：　　一部分是驱动程序，其核心是SparkContext；　　另一部分是Worker节点上Task,它是运行实际任务的。程序运行的时候，Driver和Executor进程相互交互：运行什么任务，即Driver会分配Task到Executor，Driver 跟 Executor 进行网络传输; 任务数据从哪儿获取，即Task要从 Driver 抓取其他上游的 Task 的数据结果，所以有这个过程中就不断的产生网络结果。其中，下一个 Stage 向上一个 Stage 要数据这个过程，我们就称之为 Shuffle。 HashShuffleManager的运行原理在Spark的源码中，负责shuffle过程的执行

Spark学习之路（十二）SparkCore的调优之资源调优[转]

阅读更多关于 Spark学习之路（十二）SparkCore的调优之资源调优[转]

概述在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源，作业运行会极其缓慢；或者设置的资源过大，队列没有足够的资源来提供，进而导致各种异常。总之，无论是哪种情况，都会导致Spark作业的运行效率低下，甚至根本无法运行。因此我们必须对Spark作业的资源使用原理有一个清晰的认识，并知道在Spark作业运行过程中，有哪些资源参数是可以设置的，以及如何设置合适的参数值。 Spark作业基本运行原理详细原理见上图。我们使用spark-submit提交一个Spark作业之后，这个作业就会启动一个对应的Driver进程。根据你使用的部署模式（deploy-mode）不同，Driver进程可能在本地启动，也可能在集群中某个工作节点上启动。Driver进程本身会根据我们设置的参数，占有一定数量的内存和CPU core。而Driver进程要做的第一件事情，就是向集群管理器（可以是Spark Standalone集群，也可以是其他的资源管理集群，美团•大众点评使用的是YARN作为资源管理集群）申请运行Spark作业需要使用的资源

Spark中的Spark Shuffle详解

阅读更多关于 Spark中的Spark Shuffle详解

Shuffle简介 Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁，Map的输出要用到Reduce中必须经过shuffle这个环节，shuffle的性能高低直接影响了整个程序的性能和吞吐量。因为在分布式情况下，reduce task需要跨节点去拉取其它节点上的map task结果。这一过程将会产生网络资源消耗和内存，磁盘IO的消耗。通常shuffle分为两部分：Map阶段的数据准备和Reduce阶段的数据拷贝处理。一般将在map端的Shuffle称之为Shuffle Write，在Reduce端的Shuffle称之为Shuffle Read. Hadoop MapReduce Shuffle Apache Spark 的 Shuffle 过程与 Apache Hadoop 的 Shuffle 过程有着诸多类似，一些概念可直接套用，例如，Shuffle 过程中，提供数据的一端，被称作 Map 端，Map 端每个生成数据的任务称为 Mapper，对应的，接收数据的一端，被称作 Reduce 端，Reduce 端每个拉取数据的任务称为 Reducer，Shuffle 过程本质上都是将 Map 端获得的数据使用分区器进行划分，并将数据发送给对应的 Reducer 的过程。 map端的Shuffle简述

订阅 executor