数据挖掘领域十大经典算法

你离开我真会死。 提交于 2019-12-01 22:46:46

一、C4.5算法

【参考视频】(https://www.youtube.com/watch?v=A_YIP2e8xfM

1.简介:

  • 决策树算法(分类算法)一种,将P维特征的n个样本分到c个类别中去。
  • 常见的决策树算法有ID3(用信息增益),C4.5(用信息增益率),CART(用gini系数)

2.天气情况与去不去打高尔夫之间的关系:

3.算法描述:

  • 通过属性选择度量来判断优先选择优先对哪个属性进行判断

4.属性选择度量(分裂规则)

  • 决定给定节点上的元组如何分裂;
  • 提供了每个属性描述给定训练元组的秩评定,具有最好的度量得分的属性被选作给定元组的分裂属性
  • 目前比较流行的属性选择度量-信息增益、增益率、gini指数

4.1 信息增益

  • ID3算法中用来进行属性选择度量的
  • 选择具有高信息增益的属性来作为节点N的分裂属性
  • 该属性使结果划分中的元组分类所需信息量最小
  • 对D中的元组分类所需期望信息为(期望:是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。 它反映随机变量平均取值的大小。)
    • Info(D)又称之为 “熵”
  • 熵越大,不确定性就越高;熵越小确定性就越大!
ID3 算法
  • C4.5算法
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!