scala

Apache Spark RDD编程指南

夙愿已清 提交于 2020-09-24 01:09:01
RDD 是Apache Spark编程非常重要的一个特性。Spark使用Scala语言编写并支持Java和Python。 目录 总览 与Spark链接 Scala语言 Java语言 Python语言 初始化Spark Scala语言 Java语言 Python语言 使用Shell Scala语言 Python语言 弹性分布式数据集(RDD) 并行集合 Scala语言 Java语言 Python语言 外部数据集 Scala语言 Java语言 Python语言 RDD操作 基本 Scala语言 Java语言 Python语言 将函数传递给Spark Scala语言 Java语言 Python语言 了解闭包 Scala语言 Java语言 Python语言 本地与集群模式 RDD的打印元素 使用键值对 Scala语言 Java语言 Python语言 转变 动作 随机操作 背景 绩效影响 RDD持久性 选择哪个存储级别? 删除资料 共享变量 广播变量 Scala语言 Java语言 Python语言 蓄能器 Scala语言 Java语言 Python语言 部署到集群 从Java / Scala启动Spark作业 单元测试 从这可去 总览 在较高级别上,每个Spark应用程序都包含一个 驱动程序 ,该 程序 运行用户的 main 功能并在集群上执行各种 并行操作 。Spark提供的主要抽象是