维数灾难

curse of dimensionality维数灾难

跟風遠走 提交于 2019-12-01 08:41:30
curse of dimensionality维数灾难 或者翻译成维度的咒语,这个咒语出现在很多方面: sampling采样 如果数据是低维的,所需的采样点相对就比较少;如果数据是高维的,所需的采样点就会指数级增加,而实现中面对高维问题时往往无法获得如此多的样本点(即使获得了也无法处理这么庞大数据量),样本少不具有代表性自然不能获得正确的结果。 combinatorics组合数学 由于每个维度上候选集合是固定的,维度增加后所有组合的总数就会指数级增加。 machine learning机器学习 在机器学习中要求有相当数量的训练数据含有一些样本组合。给定固定数量的训练样本,其预测能力随着维度的增加而减小,这就是所谓的Hughes影响或Hughes现象。 data mining数据挖掘 在组织和搜索数据时有赖于检测对象区域,这些区域中的对象通过相似度属性而形成分组。然而在高维空间中,所有的数据都很稀疏,从很多角度看都不相似,因而平常使用的数据组织策略变得极其低效。 距离在高维环境下失去意义 在某种意义上,几乎所有的高维空间都远离其中心,或者从另一个角度来看,高维单元空间可以说是几乎完全由超立方体的“边角”所组成的,没有“中部”。一维正态分布有68%的值落于正负标准差之间,而在十维空间上只有0.02%。这对于理解卡方分布是很重要的直觉理解。 卡方分布:若N个随机变量服从标准正态分布