Spark 数据分析导论-笔记
Spark Core Spark Core 实现了Spark 的基本功能,包含 任务调度 、 内存管理 、 错误恢复 、与 存储系统交互 等模块。 Spark Core 中还包含了 对弹性分布式数据集(resilient distributed dataset,简称RDD)的API 定义。 RDD 表示分布在多个计算节点上可以并行操作的 元素集合 , 是Spark 主要的编程抽象 。 Spark Core 提供了创建和操作这些集合的多个API。 Spark SQL Spark SQL 是Spark 用来 操作结构化数据的程序包 。 使用SQL或者Apache Hive 版本的SQL 方言(HQL)来查询数据。 Spark SQL 支持多种数据源,比如Hive 表、Parquet 以及JSON 等。 除了为Spark 提供了一个SQL 接口, Spark SQL 还支持开发者将SQL 和传统的RDD 编程的数据操作方式相结合, 不论是使用Python、Java 还是Scala, 开发者都可以在单个的应用中同时使用SQL 和复杂的数据分析。 通过与Spark所提供的丰富的计算环境进行如此紧密的结合, Spark SQL 得以从其他开源数据仓库工具中脱颖而出。 Spark SQL 是在Spark 1.0 中被引入的。 Spark Streaming Spark Streaming