Spark 机器学习实践 :Iris数据集的分类
3 月,跳不动了?>>> 今天试用了一下Spark的机器学习,体验如下: 第一步,导入数据 我们使用Iris数据集,做一个分类,首先要把csv文件导入。这里用到了spark的csv包,不明白为什么这么常见的功能不是内置的,还需要额外加载。 --packages com.databricks:spark-csv_2.11:1.4.0 from pyspark.sql import SQLContext sqlContext = SQLContext(sc) df = sqlContext.read.format('com.databricks.spark.csv') .options(header='true', inferschema='true') .load('iris.csv') # Displays the content of the DataFrame to stdout df.show() 结果如下: +-----+------------+-----------+------------+-----------+-------+ |rowid|Sepal.Length|Sepal.Width|Petal.Length|Petal.Width|Species| +-----+------------+-----------+------------+---------