KNN

这一生的挚爱 提交于 2019-11-26 20:57:48

一、原理

选择距离测试样本最近的k个样本,出现频数最大的样本的类别就是该测试样本的类别。

二、优缺点

优点:简单、快速、易于实现;

缺点:计算量大,数据不平衡时预测偏差比较大;

三、不平衡问题怎么解决?

数据不平衡时,距离测试样本最近的k个样本中,可能大数量类别样本最多,这样导致预测错误。

解决:使用权值,近的权值大,远的权值小;

四、计算量大怎么解决?

先将样本集按距离进行分组,然后计算出质心,找到离测试样本最近的质心,然后在这个组里面进行KNN算法。

适用于样本容量大的情况。

五、K是如何选取的?

过小容易过拟合,过大容易欠拟合。一般是选较小的值,采用交叉验证进行调优。

 

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!