spark-shell读取parquet文件

梦想的初衷 提交于 2019-11-30 05:40:59

1、进入spark-shell窗口

 

2、

val sqlContext = new org.apache.spark.sql.SQLContext(sc)

 

3、

val parquetFile = sqlContext.parquetFile("hdfs://cdp/user/az-user/sparkStreamingKafka2HdfsData/part-00000-ff60a7d3-bf91-4717-bd0b-6731a66b9904-c000.snappy.parquet")

hdfs://cdp是defaultFS,也可以不写,如下:

val parquetFile2 = sqlContext.parquetFile("/user/az-user/sparkStreamingKafka2HdfsData/part-00000-ff60a7d3-bf91-4717-bd0b-6731a66b9904-c000.snappy.parquet")

 

4、

parquetFile.take(30).foreach(println)

 

 

 

 

参考:https://www.jianshu.com/p/57b20d9d7b4a?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!