Spark中RDD的Key-Value型Transformation算子操作(二)

匿名 (未验证) 提交于 2019-12-03 00:21:02
Spark算子大致上可分为三大类算子:



1、mapValues
mapValues是针对[K,V]中对V的值进行map



2、combineByKey
使用用户设置好的聚合函数对每个Key中对Value进行组合(combine),可以将输入类型为 RDD[(K,V)] 转成RDD[(K,C)]


3、reduceByKey
对元素为KV对的RDD中Key相同对元素对Value进行binary_function的reduce操作,因此Key相同的多个元素的值被reduce为一个值,然后与原RDD中的Key组成一个新的KV对


4、partitionBy
对RDD进行分区操作


5、cogroup
cogroup指对两个RDD中对KV元素,每个RDD中相同Key中对元素中的元素分别聚合成一个集合



6、join
对两个需要连接对RDD进行cogroup函数操作

7、leftOutJoin


8、rightOutJoin

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!