Spark 3.0.0正式版发布,开发近两年新增了哪些特性?
原计划在2019年年底发布的 Apache Spark 3.0.0 赶在下周二举办的 Spark Summit AI 会议之前正式发布了! Apache Spark 3.0.0 自2018年10月02日开发到目前已经经历了近21个月! 这个版本的发布经历了两个预览版以及三次投票: 2019年11月06日第一次预览版,参见Preview release of Spark 3.0; 2019年12月23日第二次预览版,参见Preview release of Spark 3.0; 2020年03月21日 [VOTE] Apache Spark 3.0.0 RC1; 2020年05月18日 [VOTE] Apache Spark 3.0 RC2; 2020年06月06日 [vote] Apache Spark 3.0 RC3。 Apache Spark 3.0 增加了很多令人兴奋的新特性,包括: 动态分区修剪(Dynamic Partition Pruning); 自适应查询执行(Adaptive Query Execution); 加速器感知调度(Accelerator-aware Scheduling); 支持 Catalog 的数据源API(Data Source API with Catalog Supports); SparkR 中的向量化(Vectorization in