5个需要掌握的sklearn技能
虽然scikit-learn在机器学习领域很重要,但是很多人并不知道利用这个库中的一些强大的功能。本文将介绍scikit-learn中5个最有用的5个隐藏的瑰宝,充分利用这些秘密武器将有效提高你的机器学习处理的效率! 1、数据集生成器 Scikit-learn有很多数据集生成器,可以用来生成各种复杂度和维度的人工数据集。 例如, make_blobs 函数可以创建包含很多数据样本、聚类中心、维度的“blobs”或数据聚类。可视化以后可以清晰看出样本的分布: Scikit-learn其实提供了很多数据集创建函数: make_moons(n_samples=100, noise=0.1) make_circles(n_samples=100, noise=0.05) make_regression(n_samples=100, n_features=1, noise=15) make_classification(n_samples=100) 2、流水线/Pipeline 流水线可以将不同的方法组合为单一模型,在自然语言处理(NLP)应用中这一点非常重要。可以通过组合多个模型的方式来创建流水线,数据将依次流过聚合模型中的各环节。流水线有标准的拟合与预测能力,这使得训练过程得到很好的组织。 很多对象都可以整合进流水线: 缺失值处理器/Imputers:如果你的数据中包含缺失的数据