day15-数据源
前言 day13 ,我们学习了Spark SQL的DataFrame。今天开始进入Spark SQL的数据源。 Spark数据源介绍 在Spark-sql中可以使用各种各样的数据源来创建DataFrame或者DataSet,spark-sql对数据源兼容性比较好,并且提供了load 方法来加载数据,save方法保存数据源。load、save的时候默认都是以parquert格式处理。 parquet数据源 spark官方也提供了一些parquet数据源Demo,存放在Spark安装主目录的examples/src/main/resources/下面,下面使用官方提供的parquet数据源进行一些演示。 #读取parquert数据 scala> var df2 = spark . read . load ( "/opt/module/spark-2.1.0-bin-hadoop2.7/examples/src/main/resources/users.parquet" ) df2: org . apache . spark . sql . DataFrame = [name: string, favorite_color: string ... 1 more field] #查看数据 scala> df2 . show + - -- - -- + -- - -- - -- - -- -