PySpark笔记(I)
PySpark笔记(I) Pyspark连接本地hive // 使用hivesupporter,选取master节点名 spark = SparkSession . builder . enableHiveSupport ( ) . master ( 'local' ) . appName ( 'task' ) . getOrCreate ( ) //本地节点,使用local(即localhost) spark . sql ( 'show tables' ) . show ( ) // //也可以这样 conf = ( SparkConf ( ) . setMaster ( "yarn" ) . setAppName ( "task0" ) ) sc = SparkContext ( conf = conf ) sqlContext = HiveContext ( sc ) df = spark . sql ( "select * from table_name" ) Pyspark一些基本操作 select df . select ( ) 可以选取相应的列 df = df [ 'xxx' , 'yyy' ] 同理 withColumn() 1)新增列 df_1 = df_1 . withColumn ( '列名称' , 内容 ) 2)更换列名 由于有些表是不带列名的