spark性能好的原因

主要有两点：

1、spark基于内存计算，比hadoop基于硬盘速度快
2、spark会为每个job生成DAG，DAG内部会划分宽依赖和窄依赖，窄依赖一个Stage内的窄依赖进行pipeline操作，这样就Spark就会找到它的最佳计算位置，一次性进行计算完毕，减少不必要的网络IO

Spark的DAG本质的优化主要程序员如何设计DAG，如何划分Stage，尽量多一点的窄依赖，这样就会大大加快了Spark计算速率

来源：CSDN

作者：cuiwenxu1

链接：https://blog.csdn.net/u011624157/article/details/104244410

标签

易学教程内所有资源均来自网络或用户发布的内容，如有违反法律规定的内容欢迎反馈！
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!