决策树算法
Infi-chu: http://www.cnblogs.com/Infi-chu/ 一、简介 决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-else结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法 1.定义: 决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树 。 二、决策树原理 1.熵 在物理学中,熵Entropy是“混乱”程度的度量 系统越有序,熵越低;系统混乱或者越分散,熵越高 信息理论 : 1、 从信息的完整性上进行的描述: 当 系统的有序状态一致时 ,**数据越集中的地方熵值越小,数据越分散的地方熵值越大。 2、 从信息的有序性上进行的描述: 当 数据量一致时 , 系统越有序,熵值越低;系统越混乱或者分散,熵值越高 。 1948年香农提出了 信息熵 (Entropy)的概念。 假如事件A的分类划分是(A1,A2,...,An),每部分发生的概率是(p1,p2,...,pn),那信息熵定义为公式如下:(log是以2为底,lg是以10为底) eg. 案例1: 如果一颗骰子的六个面都是1 ,投掷它不会给你带来任何新信息,因为你知道它的结果肯定是1,它的信息熵为? 答案: - log(1) = 0 。 案例2: 假设我们没有看世界杯的比赛