主要有两点:
1、spark基于内存计算,比hadoop基于硬盘速度快
2、spark会为每个job生成DAG,DAG内部会划分宽依赖和窄依赖,窄依赖一个Stage内的窄依赖进行pipeline操作,这样就Spark就会找到它的最佳计算位置,一次性进行计算完毕,减少不必要的网络IO
Spark的DAG本质的优化主要程序员如何设计DAG,如何划分Stage,尽量多一点的窄依赖,这样就会大大加快了Spark计算速率
来源:CSDN
作者:cuiwenxu1
链接:https://blog.csdn.net/u011624157/article/details/104244410