KNN的K值选取
note: 近似误差:可以理解为对现有训练集的训练误差。 估计误差:可以理解为对测试集的测试误差。 如果选择较小的K值, 就相当于用 较小的领域中的训练实例进行预测 ,“学习”近似误差会减小,只有与输入实例较近或相似的训练实例才会对预测结果起作用,与此同时带来的问题是“学习”的估计误差会增大, 换句话说, K值的减小就意味着整体模型变得复杂,容易发生过拟合; 如果选择较大的K值,就相当于 用较大领域中的训练实例进行预测 ,其优点是可以减少学习的估计误差,但缺点是学习的近似误差会增大。这时候,与输入实例较远(不相似的)训练实例也会对预测器作用,使预测发生错误, 且K值的增大就意味着整体的模型变得简单。 在实际应用中, K值一般取一个比较小的数值 ,例如采用交叉验证法(简单来说,就是一部分样本做训练集,一部分做测试集)来选择最优的K值。 来源: CSDN 作者: Jellyqin 链接: https://blog.csdn.net/tengchengtu4139/article/details/103465747