决策树及经典决策树
决策树 决策树是数据挖掘领域中的常用模型,其基本思想是对预测变量进行二元分离,从而构造一颗可用于预测新样本单元所属类别的树 经典决策树 针对乳腺癌数据集中的良性/恶性,和一组预测变量对应9个细胞特征为基础 (1) 选定一个最佳预测变量将全部样本单元分为两类,实现两类中的纯度最大化(即一类中良性样本单元尽可能多,另一类中恶性样本尽可能的多) a、如果预测变量连续,则选定一个分割点进行分类,使得两类纯度最大化; b、如果预测变量为分类变量,则对各类别进行合并再分类 (2)对每一个子类分别继续执行比步骤(1) (3)重复步骤(1)~(2),直到子类别中所含的样本单元数过少,或者没有分类法能将不纯度下线到一个给定阈值以下,最终集中的子类别即终端节点(terminal node)。根据每一个终端节点中样本单元数众数来判别这一终端节点的属性类别 (4)对任一样本单元执行决策树,得到其终端节点,即可根据步骤3得到模型预测的所属类别, 不过,上述算法通常会得到一棵过大的树,从而出现过度 拟合现象 ,导致对于训练集外单元的分类性能较差,可用 10折交叉验证法 ,这一 剪枝后 的树用于预测。 R中的 repart() 函数构造决策树,prune() 函数对决策树进行减枝 创建决策树 #使用rpart()函数创建分类决策树 > library(rpart) > set.seed(1234) >