前言
说spark之前,先提一下MapReduce:
最本质的两个过程就是Map和Reduce
- Map的应用在于我们需要数据一对一的元素的映射转换,比如说进行截取,进行过滤,或者任何的转换操作,这些一对一的元素转换就称作是Map;
- Reduce主要就是元素的聚合,就是多个元素对一个元素的聚合,比如求Sum等,这就是Reduce。
Mapreduce是Hadoop1.0的核心,Spark出现慢慢替代Mapreduce。
为什么Mapreduce还在被使用呢?
因为有很多现有的应用还依赖于它,它不是一个独立的存在,已经成为其他生态不可替代的部分,比如pig,hive等。
尽管MapReduce极大的简化了大数据分析,但是随着大数据需求和使用模式的扩大,用户的需求也越来越多:
- 1.更复杂的多重处理需求(比如迭代计算, ML, Graph);
- 2.低延迟的交互式查询需求(比如ad-hoc query)
来源:CSDN
作者:阿啄debugIT
链接:https://blog.csdn.net/as4589sd/article/details/104339349