spark性能好的原因

眉间皱痕 提交于 2020-02-10 11:03:59

主要有两点:

1、spark基于内存计算,比hadoop基于硬盘速度快
2、spark会为每个job生成DAG,DAG内部会划分宽依赖和窄依赖,窄依赖一个Stage内的窄依赖进行pipeline操作,这样就Spark就会找到它的最佳计算位置,一次性进行计算完毕,减少不必要的网络IO

Spark的DAG本质的优化主要程序员如何设计DAG,如何划分Stage,尽量多一点的窄依赖,这样就会大大加快了Spark计算速率

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!