K-NN算法概述

梦想与她 提交于 2019-11-30 10:28:59

一、KNN算法(k-NearestNeighbor),k临近值算法:在给出一个数据点以后,判断它和已有数据点之间的距离,取k个距离最近的点,这些点中存在的那一类点最多就讲这个新的数据点归位那一类。

 • 容易存在的问题:

  1.、k 值过小,容易出现过拟合问题,结果就是在训练集上准确度很高,但是在测试集上就很低。

  2、特征的比重失衡。在计算样本点之间的距离时,如果不同的维度存在数量级差异,就会导致某些特征所起到的作用(对距离的影响)过大或过小。所以要进行归一化处理来避免这种问题的出现。

 • 距离的度量:欧式距离、曼哈顿距离、取最大值等等

 

二、k-d(K-demension tree)树:将空间划分为特定的几个部分,在特定的部分内进行相关搜索。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!