Spark任务处理流程

最近学习了spark，现根据任务提交分析处理过程总结一下相关的主要模块和任务提交处理流程。

一些重要术语

client，用户编写的spark任务提交程序
master，spark主节点，负责任务和资源调度、节点管理，类似于Yarn的ResourceManager
worker，spark工作节点，可以在上面启动Executor进程，类似于Yarn的NodeManager
driver，worker上的一进程，负责任务内部的分解执行等，类似于Yarn的ApplicationMaster
Application，用户在spark上构建的程序，包含了driver程序以及集群上的executors
Job，包含很多task的并行计算，可以认为是Spark RDD 里面的action,每个action的计算会生成一个job。用户提交的Job会提交给DAGScheduler，Job会被分解成Stage和Task
Stage，每一个 job 包含 n 个 stage，最后一个 stage 产生 result。一个Job会被拆分为多组Task，每组任务被称为一个Stage就像Map Stage， Reduce Stage。
Stage的划分在RDD的论文中有详细的介绍，简单的说是以shuffle和result这两种类型来划分。在Spark中有两类task，一类是shuffleMapTask，一类是resultTask，第一类task的输出是shuffle所需数据，第二类task的输出是result，stage的划分也以此为依据，shuffle之前的所有变换是一个stage，shuffle之后的操作是另一个stage。比如 rdd.parallize(1 to 10).foreach(println) 这个操作没有shuffle，直接就输出了，那么只有它的task是resultTask，stage也只有一个；如果是rdd.map(x => (x, 1)).reduceByKey(_ + _).foreach(println), 这个job因为有reduce，所以有一个shuffle过程，那么reduceByKey之前的是一个stage，执行shuffleMapTask，输出shuffle所需的数据，reduceByKey到最后是一个stage，直接就输出结果了。如果job中有多次shuffle，那么每个shuffle之前都是一个stage。
TaskSet：一组任务就是一个TaskSet，对应一个Stage，其中，一个TaskSet的所有Task之间没有Shuffle依赖，因此互相之间可以并行运行
Task，一个独立的工作单元，由Driver Program发送到Executor上去执行，通常情况下，一个Task处理RDD的一个Partition的数据。Spark上分为2类task，shuffleMapTask和resultTask

处理流程

集群初始化

启动master，执行master的main函数，初始化master的基本信息，等待任务处理，如相应worker注册，纳入集群管理
启动worker，创建Actor、创建本地目录、注册Worker

任务提交

spark-submit提交最终调用client类（standalone），向master请求requestSubmitJob
master响应，1创建driver、加入待分配driver队列2调度schedule
调度方法，schedule()：
1、从waitDrivers中分配driver,执行driver中的用户程序（FIFO）
2、给waitApps分配exectors（spreadout）
3、launchExectors
某个符合要求（cores、mem）的worker节点被选中作为driver，执行用户程序命令
用户命令new SparkContext(), 创建DAGScheduler、TaskScheduler、SparkDeploySchedulerBackend等，backend创建了AppClient，向master提交registerApplication请求
master响应，registerApplication:1app加入待处理队列waitApps 2调度schedule
调度方法执行launchExectors，worker上启动executor，准备执行任务
用户命令rdd.action,调用DAG进行任务分解为stage，在分解为tasks，TaskScheduler提交Task，backend.LaunchTask(serialiedTask)
worker上的executor线程池执行task，返回结果。1\shuffleMapTask,返回MapStatus2\ResultTask,返回directResult
通知driver，处理task完成，DAG.handleTaskComplet,1、Mapstatus,存放在MapoutputTrackerMaster中，供以后查询使用2、DriectResult,则所有结果在Driver合并，输出结果
程序结束，通知Master节点finishApplication
master节点，finishApplication：removeApp、释放回收executer等空间

以上过程是一个任务提交的主要处理流程，明细如RDD之间的依赖、计算、shuffle、存储等处理等请自行参照Spark源码。关系图总结如下：这里写图片描述

总结

SparkContext

SparkContext是用户通往Spark集群的唯一入口，可以用来在Spark集群中创建RDD、累加器Accumulator和广播变量Braodcast Variable。
SparkContext 也是整个Spark应用程序中至关重要的一个对象，可以说是整个应用运行调度的核心(不是指资源调度)。
SparkContext在实例化的过程中会初始化DAGScheduler、TaskScheduler和SchedulerBackend，而当RDD的action出发了作业Job之后，
SparkContext会调用DAGScheduler将整个Job划分成几个小的阶段(Stage),TaskScheduler会调度每个Stage的任务(Task)应该如何处理。另外，SchedulerBackend管理整个集群中为这个当前的应用分配的计算资源(Executor).

DAGScheduler

DAGScheduler是面向Stage的高层级的调度器，DAGScheduler把DAG拆分成很多Tasks，每组Tasks都是一个Stage。解析时是以Shuffle为边界反向解析构建Stage，每当遇到Shuffle就会产生新的Stage，然后以一个个TaskSet的形式提交给底层调度器TaskScheduler。另外，DAGScheduler需要记录哪些RDD被存入磁盘等物化动作，同时要寻求Task的最优化调度，如在Stage内部数据的本地性等。DAGScheduler还需要监视因为Shuffle跨节点输出可能导致的失败，如果发现这个Stage失败，可能就要重新提交该Stage。

TaskScheduler

TaskScheduler的核心任务是提交TaskSet到集群运算并汇报结果。
1. 为TaskSet创建和维护一个TaskSetManager，并追踪任务的本地性以及错误信息
2. 遇到Straggle任务会放到其他节点进行重试
3. 向DAGScheduler汇报执行情况，包括在Shuffle输出丢失时报告fetch failed错误等信息

TaskSchedulerImpl在submitTasks中初始化一个TaskSetManager对其进行生命周期管理，当TaskSchedulerImpl得到Worker节点上的Executor计算资源时，会通过TaskManager来发送具体的Task到Executor上执行计算。
如果Task执行过程中有错误导致失败，会调用TaskSetManager来处理Task失败的情况，进而通知DAGScheduler结束当前的Task。TaskSetManager会将失败的Task再次添加到待执行的Task队列中。Task的默认失败次数是4次。
如果Task执行完毕，执行的结果会反馈给TaskManager，由TaskManager通知DAGScheduler。DAGScheduler根据是否还存在待执行的Stage，继续迭代提交对应的TaskSet给TaskScheduler去执行，或者输出Job的结果。