DateFrame&Dataset
DateFrame产生背景 DateFrame不是Spark SQL提出的,早期是在R、Pandas语言就已经有了。 Spark RDD API 和 MapReduce API 给大数据生态圈提供基于通用语言(Java、Python、Scala等)的,并且简单易用的API。 Spark处理代码量很少 R/Pandas语言 局限性非常强 只支持单机处理 DateFrame概述 DataSet是一个分部式数据集 DataFrame是一个DataSet,是以列(列名、列的类型、列值)的形式构成的分布式数据集,按照列赋予不同的名称。 可以理解为一关系数据库的一张表。 为查询、过滤、聚合和其他处理提供了一些抽象 在R和Pandas是用作单机处理小数据,它把这些经验作用到处理大数据分布式平台上。 Spark1.3之前交SchemaRDD,1.3之后改名为DataFrame DateFrame和RDD的对比 RDD: java/scala运行在jvm python运行在 Python Runtime DataFrame java/scala/python转换成逻辑计划Logic Plant DataFrame基本API操作 这里使用的是本地文件,文件是之前使用过的spark路径下的数据,从服务器路径 /home/hadoop/app/spark-2.2.0-bin-hadoop2.6