揭开Spark的前世今生

旧街凉风 提交于 2020-01-13 05:35:19

一.了解spark

**Apache Spark™**是用于大规模数据处理的统一分析引擎。

Apache Spark™ is a unified analytics engine for large-scale data processing.

spark,快速通用可扩展数据分引擎

 

二.Spark的诞生史

2009伯克利大学诞生

2010开源

2013年6月成为apache的孵化项目

2014年2月正式成为apache的顶级的项目

 

三.Spark框架里面的组成

Spark Core:最核心,最重要的

Spark SQL:类似hive的,一般用来离线数据处理

Spark Streaming:做实时计算

Spark MLlib:数据分析,建模

Spark Graphx:图计算

 

四.Spark特点:

速度:

spark和Hadoop的却别是什么?

spark和mapreduce:为什么spark的速度快

spark是基于内存计算,spark不落盘,而mapreduce要经过六次落盘

易用:Scala、Java、python、R、SQL

统一的:sparkSQL,Spark Streaming、spark Mllib (可以用同一集群,便于维护)

兼容性

 

五.Spark官网:

Spark闪电般的统一分析引擎

速度

运行工作负载的速度提高了100倍。

Apache Spark使用最先进的DAG调度程序,查询优化器和物理执行引擎,为批处理数据和流数据提供了高性能。

使用方便

使用Java,Scala,Python,R和SQL快速编写应用程序。

Spark提供了80多个高级操作员,可轻松构建并行应用程序。您可以 从Scala,PRython,和SQL Shell 交互使用它。

  通用性

结合使用SQL,流和复杂的分析。

星火权力库,包括一叠 SQL和DataFramesMLlib机器学习, GraphX和SparkStreaming。您可以在同一应用程序中无缝组合这些库。

  无处不在

Spark可在Hadoop,Apache Mesos,Kubernetes,独立或云中运行。它可以访问各种数据源。

您可以在EC2Hadoop YARNMesosKubernetes上使用其独立集群模式运行Spark 。访问HDFS, Alluxio, Apache Cassandra, Apache HBaseApache Hive以及数百种其他数据源中的数据。

 

                                                                                                                                   ————保持饥饿,保持学习

                                                                                                                                                        Jackson_MVP

 

 

 

 

 

 

 

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!