聚类-K-Means
1.什么是K-Means? K均值算法聚类 关键词:K个种子,均值 聚类的概念:一种无监督的学习,事先不知道类别,自动将相似的对象归到同一个簇中 K-Means算法是一种聚类分析(cluster analysis)的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法. K-Means算法的思想很简单,对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大. 2.k-Means原理 每次计算距离采用的是欧式距离 步骤图: 步骤总结: 从数据中选择k个对象作为初始聚类中心; 计算每个聚类对象到聚类中心的距离来划分; 再次计算每个聚类中心 2~3步for循环,直到达到最大迭代次数,则停止,否则,继续操作。 确定最优的聚类中心 主要优点: 原理比较简单,实现也是很容易,收敛速度快。 聚类效果较优。 算法的可解释度比较强。 主要需要调参的参数仅仅是簇数k。 主要缺点: K是事先给定的,这个K值的选定是非常难以估计的。很多时候,事先并不知道给定的数据集应该分成多少个类别才最合适。(ISODATA算法通过类的自动合并和分裂,得到较为合理的类型数目K) K-Means算法需要用初始随机种子点来搞,这个随机种子点太重要,不同的随机种子点会有得到完全不同的结果。(K-Means++算法可以用来解决这个问题