决策树

僤鯓⒐⒋嵵緔 提交于 2019-12-02 14:23:21

决策树学习的目的是为了产生一棵泛化能力强的决策树,其基本流程遵循简单且直观的分而治之的策略

1 决策树递归返回的三个条件:

(1)当前节点包含的样本属于同一类别;

(2)当前属性集为空,或者所有样本在所有属性值上取值相同,无法划分

(3)当前节点包含的样本集合为空,不能划分

2 划分选择

  决策树学习的关键是如何选择最优的划分属性,划分的选择有信息增益,信息增益率和基尼指数,分别对应ID3,C4.5和CART算法。

  假设样本集合D,离散特征a有v个可能的取值,若用a进行划分,则可以产生v 个节点,其中第v个结点包含了所有在a上取值为a^v的样本D^v

2.1 信息增益

信息熵

 

 信息增益

 

 一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的纯度提升越大,因此信息增益可以用来进行决策树的划分属性选择。

缺点:信息增益偏向取值类别多的属性

2.2 信息增益率

 

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!