Spark MLlib
Spark MLlib 一、Spark MLlib 模型选择与调参 CrossValidator TrainValidationSplit MLlib目录结构 MLlib处理流程 MLlib构成 数据类型(Data Type) 数学统计计算库 机器学习管道(pipeline) 机器学习算法 二、Spark MLlib算法库 2.1 推荐算法(AlterNating Least Squares)(ALS) 2.2 ALS:Scala 部分内容原文地址: 掘金:美图数据团队: 从Spark MLlib到美图机器学习框架实践 一、Spark MLlib 在 Spark 官网上展示了逻辑回归算法在 Spark 和 Hadoop 上运行性能比较,从下图可以看出 MLlib 比 MapReduce 快了 100 倍。 Spark MLlib 主要包括以下几方面的内容: 学习算法:分类、回归、聚类和协同过滤; 特征处理:特征提取、变换、降维和选择; 管道(Pipeline):用于构建、评估和调整机器学习管道的工具; 持久性:保存和加载算法,模型和管道; 实用工具:线性代数,统计,最优化,调参等工具。 Spark MLlib 典型流程如下: 构造训练数据集 构建各个 Stage Stage 组成 Pipeline 启动模型训练 评估模型效果 计算预测结果 通过一个 Pipeline