Spark MLlib LDA主题模型
3 月,跳不动了?>>> Spark MLlib LDA主题模型(1) Spark MLlib LDA主题模型是Spark1.3开始加入的,具体介绍看以下文档: 官方编程指南: http://spark.apache.org/docs/latest/mllib-clustering.html#latent-dirichlet-allocation-lda Spark MLlib LDA 简介: http://blog.jobbole.com/86130/ 关于LDA主题模型的理论知识讲解放在下期。 1.1 LDA实例 实例步骤: 1)加载数据 返回的数据格式为:documents: RDD[(Long, Vector)],其中:Long为文章ID,Vector为文章分词后的词向量;用户可以读取指定目录下的数据,通过分词以及数据格式的转换,转换成RDD[(Long, Vector)]即可。 2)建立模型 模型参数设置说明: k: 主题数,或者聚类中心数 DocConcentration:文章分布的超参数(Dirichlet分布的参数),必需>1.0 TopicConcentration:主题分布的超参数(Dirichlet分布的参数),必需>1.0 MaxIterations:迭代次数 setSeed:随机种子 CheckpointInterval:迭代计算时检查点的间隔