聚类算法的评估
这里只讨论没有外部标签的情况,有标签自然好判别 数据簇的特点 以中心定义的数据簇:通常球形分布,集合中的数据到中心的距离相比到其他簇中心的距离更近 以密度定义的数据簇:当数据簇不规则或互相盘绕,并且有噪声和离群点时,常常使用 以连通定义的数据簇:具有连通关系 以概念定义的数据簇:同一集合内数据具有某一相同性质 聚类可行性 检测数据分布是否存在非随机的簇结构 方法 观察聚类误差是否随着聚类类别数目的增加而单调变化(找不到一个合适的K) 霍普金斯统计量,判断数据在空间上的随机性 首先,在所有样本中随机找n个点,记为 \(p_1, \cdots, p_n\) ,对其中的每一个点,都在样本空间中找到一个离它最近的点就按他们之间的距离 \(x_i\) ,从而得到距离向量 \(x_1, \cdots, x_n\) ;然后,从样本的可能取值范围随机生成n个点,记为 \(q_1, \cdots, q_n\) ,对每个点找到他们最近的样本点计算距离,得到 \(y_1, \cdots, y_n\) 。霍普金斯统计量 \(H\) 表示为 \[H = \frac{\sum \limits_{i=1}^n y_i}{\sum \limits_{i=1}^{n} x_i + \sum \limits_{i=1}^{n} y_i} \] 如果样本随机分布,则H接近0.5。如果有聚类趋势