pyspark入门

回眸只為那壹抹淺笑 提交于 2020-08-12 03:59:38

python脚本方式执行spark程序,好处是不用编译,写完就走!

示例脚本如下:

from pyspark import SparkConf, SparkContext 

conf = SparkConf().setAppName("myTest").setMaster("local")
sc = SparkContext(conf=conf)
x = [1,2,3]
rdd = sc.parallelize(x)
count=rdd.count()
print("len=",count)

# read textfile
rdd2=sc.textFile("c:\\spark\\doc\\word.txt")

def f(x):return print(x)

rdd2.foreach(f)
print("rdd2:",rdd2.count())

保存为"test1.py"文件。然后执行spark-submit test1.py提交执行即可。

pyspark比scala方式要方便多了。

word.txt内容:

hello

world

1

执行结果:

len= 3
hello
workd
1
rdd2: 3

 

 

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!