几种无监督学习示例
无监督学习模型是识别无标签数据结构的模型。这里简单介绍几种的无监督学习算法。分别是主成分分析(PCA)、高斯混合模型、流形学习算法(Isomap)。 主成分分析(PCA) 这里使用鸢尾花数据集进行演示,将它降维到两个维度,然后再可视化。其实,降维的任务是要找到一个可以保留数据本质特征的低维矩阵来描述高维数据,理解数据中的主要方差,降维通常用于辅助数据可视化工作的。当然,PCA并不是一个队每个高维数据集都有效的算法, 数据集中的异常点会影响PCA的效果 。因为这个缺点,很多PCA变体被开发出来了,在sklearn.decomposition子模块中有两个方法: RandomizedPCA 和 SparsePCA 。 RandomizedPCA算法是使用了一个非确定方法,快速地近似计算一个维度非常高的数据的前几个主成分,而SparsePCA引入了一个正则项来保证成分的稀疏性。 from sklearn .decomposition import PCA import seaborn as sns iris = sns .load _dataset( "iris" ) # iris.head() X_iris = iris .drop ( "species" , axis= 1 ) y_iris = iris[ "species" ] model = PCA(n_components=