一.了解spark
**Apache Spark™**是用于大规模数据处理的统一分析引擎。
Apache Spark™ is a unified analytics engine for large-scale data processing.
spark,快速、通用,可扩展数据分引擎:
二.Spark的诞生史
2009伯克利大学诞生
2010开源
2013年6月成为apache的孵化项目
2014年2月正式成为apache的顶级的项目
三.Spark框架里面的组成
Spark Core:最核心,最重要的
Spark SQL:类似hive的,一般用来离线数据处理
Spark Streaming:做实时计算
Spark MLlib:数据分析,建模
Spark Graphx:图计算
四.Spark特点:
速度:
spark和Hadoop的却别是什么?
spark和mapreduce:为什么spark的速度快
spark是基于内存计算,spark不落盘,而mapreduce要经过六次落盘
易用:Scala、Java、python、R、SQL
统一的:sparkSQL,Spark Streaming、spark Mllib (可以用同一集群,便于维护)
兼容性:
五.Spark官网:
Spark闪电般的统一分析引擎
速度
运行工作负载的速度提高了100倍。
Apache Spark使用最先进的DAG调度程序,查询优化器和物理执行引擎,为批处理数据和流数据提供了高性能。
使用方便
使用Java,Scala,Python,R和SQL快速编写应用程序。
Spark提供了80多个高级操作员,可轻松构建并行应用程序。您可以 从Scala,PRython,和SQL Shell 交互使用它。
无处不在
Spark可在Hadoop,Apache Mesos,Kubernetes,独立或云中运行。它可以访问各种数据源。
您可以在EC2,Hadoop YARN,Mesos或Kubernetes上使用其独立集群模式运行Spark 。访问HDFS, Alluxio, Apache Cassandra, Apache HBase,Apache Hive以及数百种其他数据源中的数据。
————保持饥饿,保持学习
Jackson_MVP
来源:CSDN
作者:Jackson_MVP
链接:https://blog.csdn.net/Jackson_mvp/article/details/103776909