spark笔记之RDD编程API

匿名 (未验证) 提交于 2019-12-03 00:09:02

4.1RDD的算子分类

        Transformation(转换):根据数据集创建一个新的数据集,计算后返回一个新RDD;例如:一个rdd进行map操作后生了一个新的rdd。

Action(动作):对rdd结果计算后返回一个数值value给驱动程序;

例如:collect算子将数据集的所有元素收集完成返回给驱动程序。

4.2Transformation

RDD中的所有转换都是延迟加载的,也就是说,它们并不会直接计算结果。相反的,它们只是记住这些应用到基础数据集(例如一个文件)上的转换动作。只有当发生一个要求返回结果给Driver的动作时,这些转换才会真正运行。这种设计让Spark更加有效率地运行。

常用的Transformation:

4.3Action

转载请标明出处:spark笔记之RDD编程API
标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!