spark笔记(二)之RDD常用算子
大家好!下面是我在疫情假期期间学习的saprk算子笔记,刚刚用了一下午的时间把它整理出来分享给大家!码字实属不易如果对你有帮助,记得点赞呦! 文章目录 一.spark行动算子 二.spark单value类型 三.spark双value类型 四.spark算子KV类型 一.spark行动算子 1.reduce( f: (T, T) => T ) :通过func函数聚集RDD中的所有元素,先聚合分区内数据,再聚合分区间数据。 val list1 : RDD [ Int ] = sc . makeRDD ( 1 to 10 ) val reduceRDD : Int = list1 . reduce ( _ + _ ) println ( reduceRDD ) //55 2.collect() :在驱动程序中,以数组的形式返回数据集的所有元素。 val list1 : RDD [ Int ] = sc . parallelize ( List ( 1 , 2 , 3 , 4 , 5 ) ) list1 . collect ( ) . foreach ( println ) 返回值:Array ( 1 , 2 , 3 , 4 , 5 ) 3.count() :返回RDD中元素的个数。 val list1 : RDD [ Int ] = sc . parallelize ( List (