信息熵

机器学习——信息熵

时光怂恿深爱的人放手 提交于 2019-11-29 03:13:50
信息熵在信息论中代表的是随机变量的不确定度的度量   1、熵越大,数据的不确定性越高,无规则运动越剧烈   2、熵越小,数据的不确定性越低 信息熵公式:    式子表示这个样本中有k类,pi表示第i类数据在总体中的占比。 负号是因为pi属于0到1之间,那么log(pi)就小于零,所以加一个负号。 举个栗子:          可以看到后一个的熵要小,后一个数据比前一个数据更加确定。 划 分的目的:   使得划分后信息熵降低   对所有的划分可能性进行搜索,找到最优划分方式,生成决策树 来源: https://www.cnblogs.com/miaoqianling/p/11441460.html

决策树算法

我的梦境 提交于 2019-11-29 00:26:02
Infi-chu: http://www.cnblogs.com/Infi-chu/ 一、简介 决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-else结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法 1.定义: 决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树 。 二、决策树原理 1.熵 在物理学中,熵Entropy是“混乱”程度的度量 系统越有序,熵越低;系统混乱或者越分散,熵越高 信息理论 : 1、 从信息的完整性上进行的描述: 当 系统的有序状态一致时 ,**数据越集中的地方熵值越小,数据越分散的地方熵值越大。 2、 从信息的有序性上进行的描述: 当 数据量一致时 , 系统越有序,熵值越低;系统越混乱或者分散,熵值越高 。 1948年香农提出了 信息熵 (Entropy)的概念。 假如事件A的分类划分是(A1,A2,...,An),每部分发生的概率是(p1,p2,...,pn),那信息熵定义为公式如下:(log是以2为底,lg是以10为底) eg. 案例1: 如果一颗骰子的六个面都是1 ,投掷它不会给你带来任何新信息,因为你知道它的结果肯定是1,它的信息熵为? 答案: - log(1) = 0 。 案例2: 假设我们没有看世界杯的比赛

决策树算法原理

走远了吗. 提交于 2019-11-27 16:11:37
//2019.08.17 #决策树算法 1、 决策树算法是一种非参数的决策算法 ,它根据数据的不同特征进行多层次的分类和判断,最终决策出所需要预测的结果。 它既可以解决分类算法,也可以解决回归问题 ,具有很好的解释能力。 图 原理图 2、对于决策树的构建方法具有多种出发点,它具有多种构建方式,如何构建决策树的出发点主要在于决策树每一个决策点上需要在哪些维度上进行划分以及在这些维度的哪些阈值节点做划分等细节问题。 3、 信息熵entropy 是决策树构建过程中最为常见的一种构建方式,熵在信息论中的含义是随机变量的不确定度, 熵越大,不确定性越大,越不确定,熵越小,表示不确定度越小,越确定。 图 4、信息熵的划分方式总体原则是 不断地使得整体的决策系统的熵值越来越小 ,使得系统越来越确定的方向发展。 5、 基尼系数gini 是决策树划分的另外一种方式,它和信息熵的原理是类似的,随着基尼系数的增大,整体的随机性在不断地增大。 6、对于 基尼系数和信息熵的决策树划分方式,其效果一般情况下都是大致相同的,只是信息熵的计算方式比起基尼系数要慢一些 ,sklearn中默认选用的是基尼系数。因此,对于决策树的决策方式信息熵和基尼系数这个超参数对于模型的好坏并没有太大的影响。 7、 CART的决策树形式 既可以解决回归问题,也可以解决分类问题

机器学习实战之决策树算法笔记

孤人 提交于 2019-11-27 08:36:24
简介 决策树类似于下图这种if-then 结构的判断算法。 必要的数学概念: 1. 信息熵 :度量信息混乱程度的一个概念,越混乱熵就越大,在概率论中用数学期望表示,在机器学习中按一下公式定义 ,所以信息熵是0-log2|y|之间的值 2. 信息增益 :用来度量某个特征对整个分类结果影响大小的量,实质是熵与特征条件熵的差,某个特征的信息增益越大,就说明这个特征越重要。*选取信息增益最大的特征可以作为划分特征的依据(ID3算法,不具备泛化能力,不能对新数据进行分类)。计算公式书本这么写的 3. 增益率 :信息增益偏向于特征取值多的那个特征,取值多会使得复杂、熵变大,因此求比值可以抵消这种复杂度。 特点是偏向选择特征数目少的特征,因此划分特征的时候选择信息增益高于平均水平特征中的增益比最大那个特征,而不是选择增益比最大的(C4.5算法) ,公式 4. 基尼指数 :类似于信息熵的一种计算方法,在CART算法中使用,公式 ID3算法书本实例计算信息熵和信息增益:我们拥有这样一个判断西瓜好不好的数据集 计算整体的信息熵, Pk 的取值是根据正负样本来取值的 ,也就是整体的信息熵计算中Pk看的是标签(最终结果),正样本为8/17,负样本是9/17. 然后计算某个特征信息熵的时候,它是建立在正负样本的基础上的,于是就比如色泽有三种,就拿青绿来举例子,正样本中为3个,负样本也是三个

机器学习——几种距离度量方法比较

大憨熊 提交于 2019-11-27 01:11:00
1. 欧氏距离(Euclidean Distance) 欧氏距离是最容易直观理解的距离度量方法,我们小学、初中和高中接触到的两个点在空间中的距离一般都是指欧氏距离。 二维平面上点a(x1,y1)与b(x2,y2)间的欧氏距离: 三维空间点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离: n维空间点a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的欧氏距离(两个n维向量): Matlab计算欧氏距离: Matlab计算距离使用pdist函数。若X是一个m×n的矩阵,则pdist(X)将X矩阵每一行作为一个n维行向量,然后计算这m个向量两两间的距离。 X=[1 1;2 2;3 3;4 4]; d=pdist(X,'euclidean') d= 1.4142 2.8284 4.2426 1.4142 2.8284 1.4142 2. 曼哈顿距离(Manhattan Distance) 顾名思义,在曼哈顿街区要从一个十字路口开车到另一个十字路口,驾驶距离显然不是两点间的直线距离。这个实际驾驶距离就是“曼哈顿距离”。曼哈顿距离也称为“城市街区距离”(City Block distance)。 二维平面两点a(x1,y1)与b(x2,y2)间的曼哈顿距离: n维空间点a(x11,x12,…,x1n)与b(x21,x22,…,x2n)的曼哈顿距离:

三、决策树算法梳理

一个人想着一个人 提交于 2019-11-27 00:32:13
1.信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度) 熵:香农用信息熵的概念来描述信源的不确定度,变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。 联合熵:联合熵表征了两事件同时发生系统的不确定度。 条件熵 :设有随机变量(X,Y),其联合概率分布为 p(X=x,Y= yi) = pij,i=1,2,…,n; j=1,2,…,m条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。随机变量X给定的条件下随机变量Y的条件熵H(Y|X),定义为X给定条件下,Y的条件概率分布的熵对X的数学期望 信息增益:以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。 基尼指数(基尼不纯度):表示在样本集合中一个随机选中的样本被分错的概率。 2.决策树的不同分类算法(ID3算法、C4.5、CART分类树)的原理及应用场景 ID3 ID3由Ross Quinlan在1986年提出。ID3决策树可以有多个分支,但是不能处理特征值为连续的情况。决策树是一种贪心算法,每次选取的分割数据的特征都是当前的最佳选择,并不关心是否达到最优。在ID3中,每次根据“最大信息熵增益”选取当前最佳的特征来分割数据,并按照该特征的所有取值来切分,也就是说如果一个特征有4种取值,数据将被切分4份,一旦按某特征切分后,该特征在之后的算法执行中,将不再起作用

信息熵的公式的通俗理解

无人久伴 提交于 2019-11-26 19:13:52
作者:忆臻 链接:https://www.zhihu.com/question/22178202/answer/161732605 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 作者:忆臻 链接:https://www.zhihu.com/question/22178202/answer/161732605 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 下面根据我的理解一步一步引出信息熵及其公式的来源: 信息熵的公式 先抛出信息熵公式如下: 其中 代表随机事件X为 的概率,下面来逐步介绍信息熵的公式来源! 信息量 信息量是对信息的度量,就跟时间的度量是秒一样,当我们考虑一个离散的随机变量x的时候,当我们观察到的这个变量的一个具体值的时候,我们接收到了多少信息呢? 多少信息用信息量来衡量, 我们接受到的信息量跟具体发生的事件有关。 信息的大小跟随机事件的概率有关。 越小概率的事情发生了产生的信息量越大 ,如湖南产生的地震了; 越大概率的事情发生了产生的信息量越小 ,如太阳从东边升起来了( 肯定发生嘛,没什么信息量 )。这很好理解! 例子 脑补一下我们日常的对话: 师兄走过来跟我说,立波啊,今天你们湖南发生大地震了。 我:啊,不可能吧,这么重量级的新闻!湖南多低的概率发生地震啊! 师兄,你告诉我的这件事,信息量巨大

决策树介绍

廉价感情. 提交于 2019-11-26 11:36:33
决策树(decision tree) 决策树: 是一种基本的分类和回归方法。它是基于实例特征对实例进行分类的过程,我们可以认为决策树就是很多if-then的规则集合。 优点:1) 训练生成的模型可读性强,我们可以很直观的看出生成模型的构成已经工作方式,因为模型就是由数据属性和类别构成一棵树。 2) 由于是一棵树,所以它的预测分类速度快,想想一棵树能有多大的深度。如果是一颗二叉树即使有N个数据,深度也只有logN。 原则: 根据损失函数最小化的原则建立决策树模型(其实大部分模型都是这个原则) 步骤:1) 特征选择(不同的算法,选择不一样,比如CART就是随机选择m个特征) 2) 决策树的生成(就是通过数据的属性进行不断的分裂,直到叶子节点为止) 现在目前主要的决策树算法: ID3,C4.5,CART,RandomForest ..... 信息熵: (有关信息熵的介绍在吴军的著作《数学之美》有着非常好的介绍,强烈介绍) 说到决策树算法,这个是不得不提的。因为在构建决策树的时候,节点选择的属性是依据信息熵来确定的,就是根据信息熵来确定选择哪个属性用于当前数据集的分类。 ”信息熵“是香农提出来的。我们知道信息是有用的,但是如何来定量描述这个信息量的大小呢。而“信息熵”就是为了解决这个问题而提出来的,用来量化信息的作用。 一条信息的信息量是和它的不确定性有着直接关系的

决策树介绍

陌路散爱 提交于 2019-11-26 11:36:21
决策树(decision tree) 决策树: 是一种基本的分类和回归方法。它是基于实例特征对实例进行分类的过程,我们可以认为决策树就是很多if-then的规则集合。 优点:1) 训练生成的模型可读性强,我们可以很直观的看出生成模型的构成已经工作方式,因为模型就是由数据属性和类别构成一棵树。 2) 由于是一棵树,所以它的预测分类速度快,想想一棵树能有多大的深度。如果是一颗二叉树即使有N个数据,深度也只有logN。 原则: 根据损失函数最小化的原则建立决策树模型(其实大部分模型都是这个原则) 步骤:1) 特征选择(不同的算法,选择不一样,比如CART就是随机选择m个特征) 2) 决策树的生成(就是通过数据的属性进行不断的分裂,直到叶子节点为止) 现在目前主要的决策树算法: ID3,C4.5,CART,RandomForest ..... 信息熵: (有关信息熵的介绍在吴军的著作《数学之美》有着非常好的介绍,强烈介绍) 说到决策树算法,这个是不得不提的。因为在构建决策树的时候,节点选择的属性是依据信息熵来确定的,就是根据信息熵来确定选择哪个属性用于当前数据集的分类。 ”信息熵“是香农提出来的。我们知道信息是有用的,但是如何来定量描述这个信息量的大小呢。而“信息熵”就是为了解决这个问题而提出来的,用来量化信息的作用。 一条信息的信息量是和它的不确定性有着直接关系的

【指数编制系列三】权重设置方法

 ̄綄美尐妖づ 提交于 2019-11-26 09:54:51
    在指数编制方法中,我们会经常提到加权平均法(这个在后面会介绍),这里面有一个重要的概念就是权重。权重的设定在指数编制过程中是非常重要的一步,适当的权重设定是指数客观准确反映目标变化趋势的一个关键要素。所以在设定权重的时候一定要选择合适的方法。     权重是一个相对的概念,是针对某一指标而言。某一指标的权重是指该指标在整体评价中的相对重要程度。权重表示在评价过程中,是被评价对象的不同侧面的重要程度的定量分配,对各评价因子在总体评价中的作用进行区别对待。事实上,没有重点的评价就不算是客观的评价。     在统计理论和实践中,权重是表明各个评价指标(或者评价项目)重要性的权数,表示各个评价指标在总体中所起的不同作用。权重有不同的种类,各种类别的权重有着不同的数学特点和经济含义,一般有以下几种权重。     按照权重的表现形式的不同,可分为绝对数权重和相对数权重。相对数权重也称比重权数,能更加直观地反映权重在评价中的作用。     按照权重的形成方式划分,可分为人工权重和自然权重。自然权重是由于变换统计资料的表现形式和统计指标的合成方式而得到的权重,也称为客观权重。人工权重是根据研究目的和评价指标的内涵状况,主观地分析、判断来确定的反映各个指标重要程度的权数,也称为主观权重。     按照权重形成的数量特点的不同划分,可分为定性赋权和定量赋权。如果在统计综合评价时