决策树
版权声明: 本文为博主原创文章,发表自 知一的指纹 。转载需向 我的邮箱 申请。 简单解释: 熵 为信息的期望值,计算公式如下。 $$ info(D) = -sum_{i=1}^m p_i log_2(p_i) $$ 信息增益 是指在划分数据集之前之后信息发生的变化。对信息按属性A划分后取得的熵。 $$ info_A(D) = sum_{j=1}^v frac{|D_j|}{|D|}info(D_j) $$ 计算两者之间的变化就是信息增益。 $$ gain(A) = info(D) - info_A(D) $$ 如下算法计算最大信息增益。 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106 # -*- coding:utf-8 -*-"""决策树算法"""from __future__ import divisionimport mathimport operatorfrom collections import