大数据技术Spark之Spark Core(三)
大数据技术Spark之Spark Core(三) 一:action reduce(func) :作用: 通过 func 函数聚集 RDD 中的所有元素,先聚合分区内数据,再聚合分区间数据。 collect():作用: 在驱动程序中,以数组的形式返回数据集的所有元素。 count():作用: 返回 RDD 中元素的个数 first():作用:返回RDD中的第一个元素 take(n):作用:返回一个由RDD的n个元素组成的数组 takeOrdered(n):作用:返回改RDD排序后的前n个元素组成的数组 aggregate:作用: aggregate 函数将每个分区里面的元素通过 seqOp 和初始值进行聚合,然后用 combine 函数将每个分区的结果和初始值(zeroValue)进行 combine 操作。这个函数最终返回 的类型不需要和 RDD 中元素类型一致。 fold(num)(func): 作用: 折叠操作, aggregate 的简化操作, seqop 和 combop 一样 saveAsTextFile(path):作用: 将数据集的元素以 textfile 的形式保存到 HDFS 文件系统或者其他支持的文件系统,对于每个元素, Spark 将会调用 toString 方法,将它装换为文件中的文本。 saveAsSequenceFile(path):作用: