统计学习方法 | 第3章 k邻近法
第3章 k近邻法 1. 近邻法是基本且简单的分类与回归方法。 近邻法的基本做法是:对给定的训练实例点和输入实例点,首先确定输入实例点的 个最近邻训练实例点,然后利用这 个训练实例点的类的多数来预测输入实例点的类。 2. 近邻模型对应于基于训练数据集对特征空间的一个划分。 近邻法中,当训练集、距离度量、 值及分类决策规则确定后,其结果唯一确定。 3. 近邻法三要素:距离度量、 值的选择和分类决策规则。常用的距离度量是欧氏距离及更一般的 pL 距离。 值小时, 近邻模型更复杂; 值大时, 近邻模型更简单。 值的选择反映了对近似误差与估计误差之间的权衡,通常由交叉验证选择最优的 。 常用的分类决策规则是多数表决,对应于经验风险最小化。 4. 近邻法的实现需要考虑如何快速搜索k个最近邻点。 kd 树是一种便于对k维空间中的数据进行快速检索的数据结构。kd树是二叉树,表示对 维空间的一个划分,其每个结点对应于 维空间划分中的一个超矩形区域。利用 kd 树可以省去对大部分数据点的搜索, 从而减少搜索的计算量。 距离度量 设特征空间 是 维实数向量空间 , , , ,则: , 的 距离定义为: 曼哈顿距离 欧氏距离 闵式距离minkowski_distance In [1]: import math from itertools import combinations In [2]: def L