一、C4.5算法
【参考视频】(https://www.youtube.com/watch?v=A_YIP2e8xfM)
1.简介:
- 决策树算法(分类算法)一种,将P维特征的n个样本分到c个类别中去。
常见的决策树算法有ID3(用信息增益),C4.5(用信息增益率),CART(用gini系数)
2.天气情况与去不去打高尔夫之间的关系:
3.算法描述:
通过属性选择度量来判断优先选择优先对哪个属性进行判断
4.属性选择度量(分裂规则)
- 决定给定节点上的元组如何分裂;
- 提供了每个属性描述给定训练元组的秩评定,具有最好的度量得分的属性被选作给定元组的分裂属性
- 目前比较流行的属性选择度量-信息增益、增益率、gini指数
4.1 信息增益
- ID3算法中用来进行属性选择度量的
- 选择具有高信息增益的属性来作为节点N的分裂属性
- 该属性使结果划分中的元组分类所需信息量最小
- 对D中的元组分类所需期望信息为(期望:是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。 它反映随机变量平均取值的大小。)
- Info(D)又称之为 “熵”
- 熵越大,不确定性就越高;熵越小确定性就越大!
ID3 算法
C4.5算法