01.k-近邻算法(KNN)
3 月,跳不动了?>>> 参考: 机器学习实战教程 机器学习实战书籍下载 - - 密码:qi7q k-近邻算法 公式编辑器 drawio画流程图 百度思维导图 纸上得来终觉浅,绝知此事要躬行 文章目录 1.算法理论 2.实践 1.knn分类 2.knn回归 总结 1.算法理论 k-近邻算法 是一种特征搜索的方法(相似性搜索): 1、准备训练集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ( x 3 , y 3 ) , . . . ( x n , y n ) } D=\{(x_1,y_1),(x_2,y_2),(x_3,y_3),...(x_n,y_n)\} D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ( x 3 , y 3 ) , . . . ( x n , y n ) } 数据集量化 (将文本数据转成数字) 特征做归一化 (训练集与测试集都做) 2、每个测试样本与训练集中所有样本计算距离,按距离排序查找k个样本 可以使用的距离度量方法有: 欧式距离 (常用) 闵可夫斯基距离 曼哈顿距离 切比雪夫距离 马哈拉洛比斯距离 相似度度量 向量空间余弦相似度 皮尔森相关系数 3、统计这k个样本 分类 投票机制(少数服从多数) 回归 距离加权平均(类似于插值方式, 距离越小权重越大 ) 2.实践