了解信息增益和决策树
信息增益 ================ 一,特征选择中的信息增益: ================ 信息增益是什么,我们先从它的用处来了解它: 信息增益是特征选择中的一个重要指标,它定义为一个特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。 那么如何衡量一个特征为分类系统带来的信息多少呢: 对一个特征而言,系统有它和没它时信息量将发生变化,而前后信息量的差值就是这个特征给系统带来的信息量。所谓信息量,其实就是熵。 ================ 二,计算信息增益:利用熵 ================ 1. 信息论里的熵 因此先回忆一下信息论中有关信息量(就是“熵”)的定义。说有这么一个变量X,它可能的取值有n多种,分别是x 1 ,x 2 ,……,x n ,每一种取到的概率分别是P 1 ,P 2 ,……,P n ,那么X的熵就定义为: 意思就是一个变量可能的变化越多(反而跟变量具体的取值没有任何关系,只和值的种类多少以及发生概率有关),它携带的信息量就越大(因此我一直觉得我们的政策法规信息量非常大,因为它变化很多,基本朝令夕改,笑)。 2. 分类系统里的熵 对分类系统来说,类别C是变量,它可能的取值是C 1 ,C 2 ,……,C n ,而每一个类别出现的概率是P(C 1 ),P(C 2 ),……,P(C n ),因此n就是类别的总数