信息增益

分类算法-决策树、随机森林

≡放荡痞女 提交于 2019-12-03 11:02:48
分类算法之决策树 决策树是一种基本的分类方法,当然也可以用于回归。我们一般只讨论用于分类的决策树。决策树模型呈树形结构。在分类问题中,表示基于特征对实例进行分类的过程,它可以认为是if-then规则的集合。在决策树的结构中,每一个实例都被一条路径或者一条规则所覆盖。通常决策树学习包括三个步骤:特征选择、决策树的生成和决策树的修剪 优点: 计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理逻辑回归等不能解决的非线性特征数据 缺点: 可能产生过度匹配问题 适用数据类型: 数值型和标称型 特征选择 特征选择在于选取对训练数据具有分类能力的特征。这样可以提高决策树学习的效率,如果利用一个特征进行分类的结果与随机分类的结果没有很大差别,则称这个特征是没有分类能力的。经验上扔掉这样的特征对决策树学习的京都影响不大。通常特征选择的准则是信息增益,这是个数学概念。通过一个例子来了解特征选择的过程。 我们希望通过所给的训练数据学习一个贷款申请的决策树,用以对文莱的贷款申请进行分类,即当新的客户提出贷款申请是,根据申请人的特征利用决策树决定是否批准贷款申请。特征选择其实是决定用那个特征来划分特征空间。下图中分别是按照年龄,还有是否有工作来划分得到不同的子节点 问题是究竟选择哪个特征更好些呢?那么直观上,如果一个特征具有更好的分类能力,是的各个自己在当前的条件下有最好的分类

信息增益的计算

匿名 (未验证) 提交于 2019-12-03 00:22:01
信息增益有的也成为信息获取量(Information Gain)。 这里主要介绍在决策树中的使用。 G a i n ( A ) = I n f o r ( D ) I n f o r _ A ( D ) G a i n ( A ) = I n f o r ( D ) I n f o r _ A ( D ) 这里以特征A为例,特征A的信息增益计算方式如下: 计算整个信息(就是计算是否买电脑)的熵: I n f o r ( D ) = ( 9 14 log 2 ( 9 14 ) + 5 14 log 2 ( 5 14 ) ) = 0.94 b i t s I n f o r ( D ) = ( 9 14 log 2 ( 9 14 ) + 5 14 log 2 ( 5 14 ) ) = 0.94 b i t s 计算依照年龄分类时购买电脑的熵: I n f o r a g e ( D ) = 5 14 × ( 2 5 log 2 2 5 3 5 log 2 3 5 ) + + 5 14 ( 3 5 log 2 3 5 2 5 log 2 2 5 ) = 0.694 b i t s I n f o r a g e ( D ) = 5 14 × ( 2 5 log 2 2 5 3 5 log 2 3 5 ) + + 5 14 ( 3 5 log 2 3 5 2 5 log 2 2 5 ) =

分类算法学习(四)――决策树算法的原理及简单实现

匿名 (未验证) 提交于 2019-12-03 00:18:01
一、简介 决策树 是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。 数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测(就像上面的银行官员用他来预测贷款风险)。 从数据产生决策树的机器学习技术叫做 决策树学习 , 通俗说就是 决策树 。 决策树学习也是资料探勘中一个普通的方法。在这里,每个决策树都表述了一种树型结构,它由它的分支来对该类型的对象依靠属性进行分类。每个决策树可以依靠对源数据库的分割进行数据测试。这个过程可以递归式的对树进行修剪。 当不能再进行分割或一个单独的类可以被应用于某一分支时,递归过程就完成了。另外,随机森林分类器将许多决策树结合起来以提升分类的正确率。 二、决策树算法 1.ID3算法 越是小型的决策树越优于大的决策树( be simple 简单理论) 。尽管如此,该算法也不是总是生成最小的树形结构,而是一个启发式算法。 汤姆.米歇尔《机器学习》中对ID3算法的描述: 个人总结 仅供参考 ) a.对当前例子集合,计算属性的信息增益; b.选择信息增益最大的属性Ai(关于信息增益后面会有详细叙述) c

决策树

只谈情不闲聊 提交于 2019-12-02 16:40:02
决策树: 决策树方法在分类,预测,规则等领域有这广泛的应用,20世纪70年代后期和80年代初期,机器学习研究者提出了ID3算法后,决策树在机器学习,数据挖掘领域取得极大的发展,后来又有了c4.5,成为新的监督学习算法.1984年,几位科学家提出了CART分类算法,ID3和CART算法同时被提出,但都是采用类似的方法训练样本中学习决策树 决策树是一种树状结构,它的每一个叶节点对应着一个分类,非叶子节点对应着在某个属性上的划分,根据样本在该属性上的不同取值将其划分成若干个子集.对于非纯的叶子节点,多数类的标号给出到达这个节点的样本所属的类,构造决策树的核心问题是在每一步如何选择适当的属性对样本做拆分.对于一个分类问题,从已知类标记的训练样本中学习并构造出决策树是一个自上而下,分而治之的过程. 决策树算法 算法 描述 C4.5算法 C4.5决策树生成算法相当于ID3算法的重要改进是使用信息增益率来选择节点属性.C4.5算法可疑克服ID3算法存在的不足:ID3算法只适用于离散的描述属性,而C4.5算法即能够处理离散的描述性,也可以处理连续的描述属性 CART算法 CART决策树是一种十分有效的非参数分类和回归方法,通过构建树,修剪树,评估树来构建一个二叉树.当终结点是连续变量时,该树为回归树,当终结点是分类变量,该树为分类树 ID3算法 其核心的是在决策树的各级节点上

决策树

僤鯓⒐⒋嵵緔 提交于 2019-12-02 14:23:21
决策树学习的目的是为了产生一棵泛化能力强的决策树,其基本流程遵循简单且直观的分而治之的策略 1 决策树递归返回的三个条件: (1)当前节点包含的样本属于同一类别; (2)当前属性集为空,或者所有样本在所有属性值上取值相同,无法划分 (3)当前节点包含的样本集合为空,不能划分 2 划分选择   决策树学习的关键是如何选择最优的划分属性,划分的选择有信息增益,信息增益率和基尼指数,分别对应ID3,C4.5和CART算法。   假设样本集合D,离散特征a有v个可能的取值,若用a进行划分,则可以产生v 个节点,其中第v个结点包含了所有在a上取值为a^v的样本D^v 2.1 信息增益 信息熵 信息增益 一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的纯度提升越大,因此信息增益可以用来进行决策树的划分属性选择。 缺点:信息增益偏向取值类别多的属性 2.2 信息增益率 来源: https://www.cnblogs.com/lzc007/p/11750267.html

ML (8) - DesicionTree决策树

纵饮孤独 提交于 2019-12-02 12:28:36
决策树 决策树基本概念 衡量算法 信息熵 (Information Entropy) 信息增益 (Information Gain) 增益率 (Gain Ratio) 基尼系数 (gini) 选取'划分特征'方式 Scikit-learn中决策树 API:sklearn.tree.DecisionTreeClassifier 决策树基本概念 通过一系列节点判断,得到最终的结果。 例如鸢尾花数据集,仅取两个特征: 决策树为非参数学习算法,天然的可解决多分类问题,不需使用OvR、OvO等策略。 同样也可以解决回归问题。 构建一个决策树,主要考虑2个问题: 每个节点要在哪一个特征(维度)上进行划分? 特征(维度)以阀值多少作为划分? 主要流程: 利用训练样本特征及真值,通过衡量算法求出每一个节点最佳特征及划分阀值,从而构建一颗决策树。 衡量算法 信息熵 (Information Entropy) 熵在热力学中的定义,物体熵越大粒子运动越剧烈,熵越小粒子运动越平静。 熵在信息论中代表随机变量的不确定度。 熵越大,数据的不确定性越高。熵越小,数据的不确定性越低。 信息熵公式: H ( D ) = − ∑ i = 1 k p i ∗ l o g ( p i ) H(D) = -\sum_{i=1}^kp_i*log(p_i) H ( D ) = − ∑ i = 1 k ​ p i ​ ∗ l

天津哪里有卖银行卡

帅比萌擦擦* 提交于 2019-11-30 13:35:46
天津哪里有卖银行卡█ █微信:619998462█ █ 决策树 1.决策树是一种树型结构,其中每个内部结点表示在一个属性上的测试,每个分支代表一个测试输出,每个叶子结点代表一种类别。 2.决策树学习是以实例为基础的归纳学习 3.决策树学习采用的是自顶向下的递归方法,其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为零,此时每个叶子节点中的实例都属于同一类。 决策树学习算法的特点 1.决策树学习算法的最大优点是,它可以自学习。在学习的过程中,不需要使用者了解过多背景知识,只需要对训练实例进行较好的标注,就能够进行学习 2.显然,它属于有监督学习 3.从一类无序、无规则的事物中推理出决策树表示的分类规则 4. 非参数学习算法,可以解决多分类问题,也可以解决回归问题,非常好的可解释性 建立决策树的关键,即在当前状态下选择哪个属性作为分类依据。根据不同的目标函数,建立决策树主要有以下三种算法 1.ID3:使用信息增益/互信息g(D,A)进行特征选择 2.C4.5:信息增益率 3.CART:基尼指数 建立决策树需要知道 信息熵 熵在信息论中代表随机变量不确定度的度量 1)熵越大,数据的不确定性越高 2)熵越小,数据的不确定性越低 p i 为第i个事件发生的概率 接着是 条件熵 H(X,Y)-H(X) (X,Y)发生所包含的熵,减去X单独发生包含的熵

宁波哪里有卖银行卡

天涯浪子 提交于 2019-11-30 13:35:17
宁波哪里有卖银行卡█ █微信:619998462█ █ 决策树 1.决策树是一种树型结构,其中每个内部结点表示在一个属性上的测试,每个分支代表一个测试输出,每个叶子结点代表一种类别。 2.决策树学习是以实例为基础的归纳学习 3.决策树学习采用的是自顶向下的递归方法,其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为零,此时每个叶子节点中的实例都属于同一类。 决策树学习算法的特点 1.决策树学习算法的最大优点是,它可以自学习。在学习的过程中,不需要使用者了解过多背景知识,只需要对训练实例进行较好的标注,就能够进行学习 2.显然,它属于有监督学习 3.从一类无序、无规则的事物中推理出决策树表示的分类规则 4. 非参数学习算法,可以解决多分类问题,也可以解决回归问题,非常好的可解释性 建立决策树的关键,即在当前状态下选择哪个属性作为分类依据。根据不同的目标函数,建立决策树主要有以下三种算法 1.ID3:使用信息增益/互信息g(D,A)进行特征选择 2.C4.5:信息增益率 3.CART:基尼指数 建立决策树需要知道 信息熵 熵在信息论中代表随机变量不确定度的度量 1)熵越大,数据的不确定性越高 2)熵越小,数据的不确定性越低 p i 为第i个事件发生的概率 接着是 条件熵 H(X,Y)-H(X) (X,Y)发生所包含的熵,减去X单独发生包含的熵

机器学习之决策树笔记

跟風遠走 提交于 2019-11-30 12:56:57
决策树 1.决策树是一种树型结构,其中每个内部结点表示在一个属性上的测试,每个分支代表一个测试输出,每个叶子结点代表一种类别。 2.决策树学习是以实例为基础的归纳学习 3.决策树学习采用的是自顶向下的递归方法,其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为零,此时每个叶子节点中的实例都属于同一类。 决策树学习算法的特点 1.决策树学习算法的最大优点是,它可以自学习。在学习的过程中,不需要使用者了解过多背景知识,只需要对训练实例进行较好的标注,就能够进行学习 2.显然,它属于有监督学习 3.从一类无序、无规则的事物中推理出决策树表示的分类规则 4. 非参数学习算法,可以解决多分类问题,也可以解决回归问题,非常好的可解释性 建立决策树的关键,即在当前状态下选择哪个属性作为分类依据。根据不同的目标函数,建立决策树主要有以下三种算法 1.ID3:使用信息增益/互信息g(D,A)进行特征选择 2.C4.5:信息增益率 3.CART:基尼指数 建立决策树需要知道 信息熵 熵在信息论中代表随机变量不确定度的度量 1)熵越大,数据的不确定性越高 2)熵越小,数据的不确定性越低 p i 为第i个事件发生的概率 接着是 条件熵 H(X,Y)-H(X) (X,Y)发生所包含的熵,减去X单独发生包含的熵:在X发生的前提下,Y发生“新”带来的熵。   该式子定义为X发生前提下

交叉熵

妖精的绣舞 提交于 2019-11-29 12:32:50
参考: http://www.cnblogs.com/fantasy01/p/4581803.html?utm_source=tuicool http://blog.csdn.net/xbmatrix/article/details/58248347 https://www.zhihu.com/question/41252833/answer/141598211 1、信息 引用香农的话,信息是用来消除随机不确定性的东西,则某个类(xi)的信息定义如下:                        2、信息熵 信息熵便是信息的期望值,可以记作:                             熵只依赖X的分布,和X的取值没有关系,熵是用来度量不确定性,当熵越大,概率说X=xi的不确定性越大,反之越小,在机器学期中分类中说,熵越大即这个类别的不确定性更大,反之越小,当随机变量的取值为两个时,熵随概率的变化曲线如下图:                      当p=0或p=1时,H(p)=0,随机变量完全没有不确定性,当p=0.5时,H(p)=1,此时随机变量的不确定性最大 更特别一点,如果是个二分类系统,那么此系统的熵为: 3. 条件熵 X给定条件下Y的条件分布的熵对X的数学期望,在机器学习中为选定某个特征后的熵,公式如下: