机器学习(4)之决策树
文章目录 1 比特化(Bits) 2 信息熵 2.1 信息量 2.2 信息熵的意义 2.3 条件熵 3 决策树的概念 3.1 决策树的构建 3.2 决策树的特征属性 3.3 决策树分割属性 3.4 决策树量化纯度 3.5 决策树的停止条件 3.6 决策树算法效果的评估 4 ID3算法 5 C4.5算法 6 CART算法 7 分类树和回归树 8 决策树的优化策略 8.1 剪枝优化 9 总结 1 比特化(Bits) 假设现在随机变量X具有m个值,分别为: V 1 ,V 2 ,…,V m ;并且各个值出现的概率: P(X=V 1 )=p 1 ,P(X=V 2 )=p 2 , P(X=V 3 )=p 3 …P(X=V m )=p m 可以使用这些变量的期望来表示每个变量需要多少个比特位来描述信息: 2 信息熵 H(X)就叫做随机变量X的信息熵。 2.1 信息量 指的是一个样本/事件所蕴含的信息,如果一个事件的概率越大,那么就 可以认为该事件所蕴含的信息越少。极端情况下,比如:“太阳从东方升起”,因为是确定事件,所以不携带任何信息量。 2.2 信息熵的意义 信息熵就是用来描述系统信息量的不确定度。 一个系统越是有序,信息熵就越低,一个系统越是混乱,信息熵就越高,所以信息熵被认为是一个系统有序程度的度量。 High Entropy(高信息熵) :表示随机变量X是均匀分布的