数据挖掘——基于sklearn包的分类算法小结
目录 一、分类算法简介 二、KNN算法 三、贝叶斯分类算法 四、决策树算法 五、随机森林算法 六、SVM算法 一、分类算法简介 1、概念 1.1 监督学习(Supervised Learning) 从给定标注(训练集有给出明确的因变量Y)的训练数据集中学习出一个函数,根据这个函数为新数据进行标注。 1.2 无监督学习(Unsupervised Learning) 从给定无标注(训练集无明确的因变量Y)的训练数据中学习出一个函数,根据这个函数为所有数据标注。 1.3 分类 (Classification) 分类算法通过对已知类别训练数据集的分析,从中发现分类规则,以此预测新数据的类别, 分类算法属于监督学习 。 2、常用的分类算法 KNN算法(K-近邻分类算法) 贝叶斯算法 决策树算法 随机森林算法 SVM算法(支持向量机) 3、分类问题的验证方法 交叉验证(Cross Validation):训练集与测试集 K折交叉验证(K-fold Cross Validation) :设置k=10,那么我们把原来的数据集随机分为10份,分别为{D1,D2,D3...D10} 接着,使用D1作为测试集,{D2,D3...D10}作为训练集,计算得分S1 使用D2作为测试集,{D1,D3...D10}作为训练集,计算得分S2 ......... 最后