Apache Spark
Apache Spark 一、概述 官方地址: http://spark.apache.org/ Lightning-fast unified analytics engine : 快如闪电的统一分析引擎 快如闪电: Spark基于内存式计算,分布式并行计算框架。不同于MapReduce框架,基于磁盘式计算,将Job粗粒度的分为MapTask、ReduceTask,并且必须通过网络进行数据交互。 Spark任务执行时,实际上会将一个复杂的科学计算划分一个个的Stage(阶段),每一个Stage都支持分布式的并行计算 Spark计算时,每一个Stage计算结果都可以进行缓存,可以非常容易的进行故障恢复和结果重用 统一: 集结了大数据处理的主流方案 批处理(RDD:代替MapReduce) 流处理(Streaming:代替Storm、Kafka Streaming) 机器学习(Machine Learing: 代替Mahout) 交互式查询(SQL:代替Hive) 图形计算(GraphX) 分析引擎:代替MapReduce 特点 速度: 相对于MapReduce的计算,效率极高。Spark将复杂的Job分解为若个Stage,每一个Stage都可以进行分布式并行计算,称为DAG(Directed Acyclic Graph)有向无环图,类似于Kafka Streaming