spark技术热点问题互动问答2
决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 【第3期互动问答分享】 Q1 : groupbykey是排好序的吗?分组排序怎么实现? groupByKey在一个由(K,V)对组成的数据集上调用,返回一个(K,Seq[V])对的数据集,所以是没有排序的; 要想分组排序,首先要使用groupByKey完成分组功能,然后使用sortWith这个函数对指完成排序实现; 完整代码如下所示: spark.textFile(...).groupByKey().map{p => val sortArray = p._2.sortWith(_ < _) // 排序 (p._1, sortArray) } Q2 :spark 会替代Hadoop 吗? Hadoop在云计算大数据发展的早期做出了卓越的贡献,其MapReduce模型极大的简化了海量数据的分析。随着大数据多重处理例如迭代计算、机器学习、图计算等和低延迟交互式查询的需求爆发式的增长,Hadoop在架构的先天缓慢性导致了其无法满足人们在处理大数据时候的复杂计算和快速响应,Spark应运而生。 Hadoop的HDFS已经成为大数据存储的实施标准,例如淘宝内部有多带大数据处理系统,但是存储系统统一采用HDFS,其HDFS集群规模超过5000台,现在的Spark一般情况下都是从HDFS上获取数据并把计算后的数据交给HDFS。