信息熵

机器学习(4)之决策树

本小妞迷上赌 提交于 2020-01-19 03:08:06
文章目录 1 比特化(Bits) 2 信息熵 2.1 信息量 2.2 信息熵的意义 2.3 条件熵 3 决策树的概念 3.1 决策树的构建 3.2 决策树的特征属性 3.3 决策树分割属性 3.4 决策树量化纯度 3.5 决策树的停止条件 3.6 决策树算法效果的评估 4 ID3算法 5 C4.5算法 6 CART算法 7 分类树和回归树 8 决策树的优化策略 8.1 剪枝优化 9 总结 1 比特化(Bits) 假设现在随机变量X具有m个值,分别为: V 1 ,V 2 ,…,V m ;并且各个值出现的概率: P(X=V 1 )=p 1 ,P(X=V 2 )=p 2 , P(X=V 3 )=p 3 …P(X=V m )=p m 可以使用这些变量的期望来表示每个变量需要多少个比特位来描述信息: 2 信息熵 H(X)就叫做随机变量X的信息熵。 2.1 信息量 指的是一个样本/事件所蕴含的信息,如果一个事件的概率越大,那么就 可以认为该事件所蕴含的信息越少。极端情况下,比如:“太阳从东方升起”,因为是确定事件,所以不携带任何信息量。 2.2 信息熵的意义 信息熵就是用来描述系统信息量的不确定度。 一个系统越是有序,信息熵就越低,一个系统越是混乱,信息熵就越高,所以信息熵被认为是一个系统有序程度的度量。 High Entropy(高信息熵) :表示随机变量X是均匀分布的

交叉熵损失函数

假装没事ソ 提交于 2020-01-16 08:26:18
在理解交叉熵损失函数之前,有必要先来说一下信息熵这个概念 信息熵 信息熵可以理解为信息杂乱程度的量化描述:信息越多,概率越均等则信息熵就越大;反之,信息越单一,概率越偏向其中某一个信息,那么熵值就越小 公式如下: H ( X ) = − ∑ i = 1 n P ( x ( i ) ) l o g P ( x ( i ) ) H(X)=-\sum _ {i=1}^n P(x^{(i)}) logP(x^{(i)}) H ( X ) = − i = 1 ∑ n ​ P ( x ( i ) ) l o g P ( x ( i ) ) 其中, − l o g P ( x ( i ) ) -logP(x^{(i)}) − l o g P ( x ( i ) ) 表示一个信息的信息量,概率越小,信息量就越大,这很好理解,比如“太阳从西边出来了”,这几乎不可能发生,如果发生了,那对于我们来说其所含的信息量是巨大的 交叉熵损失函数 先给出公式: L ( y ^ , y ) = − [ y l o g y ^ + ( 1 − y ) l o g ( 1 − y ^ ) ] L(\hat y,y)=-[ylog\hat y+(1-y)log(1-\hat y)] L ( y ^ ​ , y ) = − [ y l o g y ^ ​ + ( 1 − y ) l o g ( 1 − y ^ ​ ) ]

决策树ID3、C4.5概述

余生长醉 提交于 2020-01-14 01:47:56
1.获取数据集 2.从数据集中找到最优的切分特征(离散变量)/最优切分特征和最优切分特征值(连续变量) ID3算法:信息熵/条件熵/信息增益 选择决断特征时选择信息增益最大的 信息熵:[衡量信息的复杂度] H(D) = -∑[P(i)log(p(i))]: p(i)-->第i个类别出现的概率 条件熵:[在X给定的情况下,D的条件分布的熵对X的期望] H(D|X) = ∑[p(j)H(D|X = x(j))] X-->某个特征 x(j)-->特征值 H(D|X = x(j))-->数据D中特征X的特征值等于x(j)时D中相关数据的信息熵 p(j)-->特征X的特征值等于x(j)的概率 信息增益(特征X的信息增益):[在得知特征X的条件下,使得数据D不确定性减少的程度] Gain(D,X) = H(D) - H(D|X) 备注: 信息增益是针对一个一个的特征而言的,就是看数据有他和无他时的信息熵 各是多少,两者差值就是该特征给系统带来的的信息增益 C4.5算法:以信息增益进行分类决策是,存在偏向取值较多的特征的问题, 为了解决这个问题,开发了基于信息增益比的分类决策算法,也就是说C4.5 备注: a.C4.5与ID3都是利用贪心算法进行求解 b.选取决断特征时选择信息增益比最大的 c.分裂信息度量SplitInformatioon(D,X): 备注: 1

决策树算法(一)

拟墨画扇 提交于 2020-01-13 07:02:35
一、决策树算法 1.决策树 决策树思想的来源非常朴素,程序设计中的条件分支结构(if-else)结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法。 决策时:是一种树形结构,其实每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树。 2.决策树的分类原理 1.熵 1.1概念 物理学上,熵 Entropy是“混乱”程度的量度。 系统越有序,熵值越低,系统越无序,熵值越高。 1948年香农提出了信息熵(Entropy)的概念: 信息理论 1.从信息的完整性来说: 当系统的有序状态一致时,数据越集中的地方熵值越小,数据越分散熵值越大。 2.从信息有序性来说: 当数据量是一致时,系统越有序,熵值越低;系统越混乱或者分散,熵值越高。 ”信息熵“(information entropy)是度量样本集合纯度最常用的一种指标,用来描述信息的不确定程度。 3.决策树的划分依据——信息增益 3.1 概念 信息增益:以某种特征划分数据集前后的熵的差值。熵可以表示样本集合的不确定性,熵越大,样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。 信息增益 = entropy(前) - entropy(后) 定义与公式 信息熵的计算: 条件熵的计算: 其中: D^v D*

《数学之美》读书笔记和知识点总结(一)

时光总嘲笑我的痴心妄想 提交于 2020-01-12 05:13:10
  早在前几个月我在台湾的时候,就听说《数学之美》是一本非常不错的书,也正好是我喜欢的类型,一直想买。回到北京之后的第一件事就是把我这半年积攒的书单全部兑现,其中包括《数学之美》和《浪潮之巅》。看了之后大叫过瘾,让我好好享受了一回数学之美。 文字和数字的起源 很久以前人类以不同的叫声表示不同的信息,达到彼此交流的目的,当所要表达的信息太多时,叫声已经不够用了,于是文字产生了。 文字:知道“ 罗塞塔 ”石碑的典故。 信息冗余的重要性:当石碑经历风吹日晒,一部分文字被腐蚀掉时,还有另一部分重复的文字作为备份,可以还原石碑的信息。类似的还有人体的DNA,在人体当中,有99%的DNA是无效的,正是这99%保证了人类的正常繁衍,当遇人类遇到辐射时,DNA发生变异的概率是1%. 数字:进制的产生 为了表达大数,不同的文明产生了不同的数字表示方法,最终只有使用10进制的文明生存了下来。 10进制:古中国、古印度、阿拉伯 12进制:印度、斯里兰卡 20进制:玛雅,玛雅文明失败的原因之一就是进制太复杂,不利于科学进步,咱们现在要背九九乘法表,他们背的是361路围棋棋盘。 单位进制:罗马(5、10、50、100、500、1000) 数字的表示方法(编解码原理) 中国:编解码的密钥是乘除 二百万 = 2 x 100 x 10000 罗马: 编解码的密钥是加减 IV = 5-1 = 4 ,

信息论-熵-随机变量-泛函

别等时光非礼了梦想. 提交于 2020-01-09 02:54:03
一. 熵的定义: 原始熵的定义:克劳修斯(T.Clausius) 于1854年提出熵(entropie)的概念, 我国物理学家胡刚复教授于1923年根据热温商之意首次把entropie译为“熵”。熵,热力学中表征物质状态的参量之一,用符号S表示,其物理意义是体系混乱程度的度量。统计热力学: 熵的大小与体系的微观状态Ω有关,即S=klnΩ,其中k为玻尔兹曼常量,k=1.3807x10 -23J·K -1。体系微观状态Ω是 大量质点的体系经统计规律而得到的热力学概率 ,因此熵有统计意义,对只有几个、几十或几百分子的体系就无所谓熵。   信息熵:1948年,香农提出了“信息熵”的概念,才解决了对信息的量化度量问题。信息熵这个词是C.E.香农从热力学中借用过来的。热力学中的热熵是表示分子状态混乱程度的物理量。香农用信息熵的概念来描述信源的不确定度。信息论之父克劳德·艾尔伍德·香农第一次用数学语言阐明了概率与信息冗余度的关系。C. E. Shannon 在 1948 年发表的论文“通信的数学理论( A Mathematical Theory of Communication )”中, Shannon 指出,任何信息都存在冗余,冗余大小与信息中每个符号(数字、字母或单词)的出现概率或者说不确定性有关。   离散信号的信息熵:信源的平均不确定性应当为单个符号不确定性-logPi的统计平均值(E)

求图像的信息熵

人盡茶涼 提交于 2020-01-08 23:36:38
  1948年,香农(Claude E. Shannon)提出了信息熵的概念,解决了对信息的量化度量问题。香农第一次用数学语言描述了概率于信息冗余度的关系。   信息的定义:     信息是确定性的增加。     信息是物质、能量、信息及其属性的标示。   所谓信息熵,是一个数学上颇为抽象的概念,在这里不妨把信息熵理解成某种特定信息的出现概率。根据Charles H. Bennett对Maxwell's Demon的重新解释,对信息的销毁是一个不可逆过程,所以销毁信息是符合热力学第二定律(熵增定律)的。一般而言,当一种信息出现概率更高的时候,表明它被传播得更广泛,或者说,被引用的程度更高。我们可以认为,从信息传播的角度来看,信息熵可以表示信息的价值。这样子我们就有一个衡量信息价值高低的标准,可以做出关于知识流通问题的更多推论。   【计算公式】     H(x)=E[I(xi)]=E[ log(2,1/p(xi)) ]=-∑p(xi)log(2,p(xi)) (i=1,2,..n) 1 double Entropy(Mat img) 2 { 3 //将输入的矩阵为图像 4 double temp[256]; 5 /*清零*/ 6 for(int i=0;i<256;i++) 7 { 8 temp[i] = 0.0; 9 } 10 /*计算每个像素的累积值*/ 11 for(int

浅谈信息熵(熵权法的应用)

被刻印的时光 ゝ 提交于 2020-01-08 22:34:54
信息是一个很抽象的东西,吃苹果的概率是二分之一,吃香蕉的概率是二分之一,这里面包含了多少信息量,由于信息很抽象,无法直观的量化。   信息熵原先是热力学中的名词,原先含义是表示分子状态的混乱程度。   香农引用了信息熵概念,因此,便有了信息论这一门学科,信息熵表示一个事件或者变量的混乱程度(也可称为一个事件的不确定性),将信息变成可以量化的变量。   综上所述,信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。所以,信息熵也可以说是系统有序化程度的一个度量。高信息度的信息熵是很低的,低信息度的熵则高。具体说来, 凡是随机事件导致的变化,都可以用信息熵的改变量这个统一的标尺来度量。   换一种说法:信我们可以吧信息熵理解为一个随机变量出现的期望值,也就是说信息熵越大,该随机变量会有更多的形式。信息熵衡量了一个系统的复杂度,比如当我们想要比较两门课哪个更复杂的时候,信息熵就可以为我们作定量的比较,信息熵大的就说明那门课的信息量大,更加复杂。   举个例子:里约奥运会,女子自由泳决赛有两个国家,美国和中国,中国获胜的概率是80%,美国获胜的概率是20%。则谁获得冠军的信息熵=- 0.8 * log2 0.8 - 0.2 * log2 0.2 = 0.257 + 0.464 = 0.721。中国获胜的几率越高,计算出的熵就越小

信息熵

独自空忆成欢 提交于 2020-01-08 22:27:53
信息熵:信息的基本作用就是消除人们对事物的不确定性。多数粒子组合之后,在它似像非像的形态上押上有价值的数码,具体地说,这就是一个在博弈对局中现象信息的混乱。 计算公式   H(x)=E[I(xi)]=E[ log(1/p(xi)) ]=-∑p(xi)log(p(xi)) (i=1,2,..n) 信息熵是 信息论 中用于度量信息量的一个概念。一个系统越是有序,信息熵就越低;   反之,一个系统越是混乱,信息熵就越高。所以,信息熵也可以说是系统有序化程度的一个度量。   熵的概念源自热物理学.假定有两种气体a、b,当两种气体完全混合时,可以达到热物理学中的稳定状态,此时熵最高。如果要实现反向过程,即将a、b完全分离,在封闭的系统中是没有可能的。只有外部干预(信息),也即系统外部加入某种有序化的东西(能量),使得a、b分离。这时,系统进入另一种稳定状态,此时,信息熵最低。热物理学证明,在一个封闭的系统中,熵总是增大,直至最大。若使系统的熵减少(使系统更加有序化),必须有外部能量的干预。   信息熵的计算是非常复杂的。而具有多重前置条件的信息,更是几乎不能计算的。所以在现实世界中信息的价值大多是不能被计算出来的。但因为信息熵和热力学熵的紧密相关性,所以信息熵是可以在衰减的过程中被测定出来的。因此信息的价值是通过信息的传递体现出来的。在没有引入附加价值( 负熵 )的情况下,传播得越广

ID3决策树

妖精的绣舞 提交于 2020-01-07 13:05:59
决策树是一个树形结构,类似下面这样: 上图除了根节点外,有三个叶子节点和一个非叶子节点。 在解决分类问题的决策树中,叶子节点就表示所有的分类,比如这里的分类就有3种:无聊时阅读的邮件、需及时处理的邮件、无需阅读的邮件。 使用决策树来分类某个样本数据,就是利用根节点选取的特征,将当前输入样本划分到根节点下的某个子节点上,然后再利用子节点表示的特征来将当前样本划分到该子节点下的某个子节点上,以此继续,直到到达某个叶子节点,那么这个叶子节点表示的类别就是当前决策树对该样本数据所属的类别的预测。 对于上图,因为各个节点表示的特征和各个叶子节点表示的分类都已经给出了,所以给定一个数据很容易就能预测出对应的类别,但是在实际的分类场景中,我们手上有了标注好的训练样本数据后,要如何来构建一颗能够预测新样本类别的决策树呢?换句话说就是,我们如何知道这颗决策树的各个节点选取什么特征来划分数据才最合适呢?ok,你可能听过一些算法的名字,比如ID3、C4.5、CART等,它们其实就是用来解决这个问题的。 这里我们将介绍ID3算法。 我们选取划分数据集的特征的时候,需要考虑的标准是什么特征可以更好的将数据集分开,比如判断是男人还是女人,那么【是否穿高跟鞋】要比【是否带耳钉】更容易将人群划分开,或者说更能划分出纯度高的数据子集。 然而,其实很多时候我们都无法轻易的看出哪种特征能划分出更纯的数据子集