相对熵

交叉熵 相对熵

人走茶凉 提交于 2020-03-17 08:34:17
交叉熵(cross entropy)是深度学习中常用的一个概念,一般用来求目标与预测值之间的差距。 1 信息量 假设 X X是一个离散型随机变量,其取值集合为 χ χ,概率分布函数 p ( x ) = P r ( X = x ) , x ∈ χ p(x)=Pr(X=x),x∈χ,则定义事件 X = x 0 X=x0的信息量为: I ( x 0 ) = − l o g ( p ( x 0 ) ) I(x0)=−log(p(x0)) 由于是概率所以 p ( x 0 ) p(x0)的取值范围是 [ 0 , 1 ] [0,1],绘制为图形如下: 可见该函数符合我们对信息量的直觉 2 熵 考虑另一个问题,对于某个事件,有 n n种可能性,每一种可能性都有一个概率 p ( x i ) p(xi) 这样就可以计算出某一种可能性的信息量。举一个例子,假设你拿出了你的电脑,按下开关,会有三种可能性,下表列出了每一种可能的概率及其对应的信息量 序号 事件 概率p 信息量I A 电脑正常开机 0.7 -log(p(A))=0.36 B 电脑无法开机 0.2 -log(p(B))=1.61 C 电脑爆炸了 0.1 -log(p(C))=2.30 注:文中的对数均为自然对数 我们现在有了信息量的定义,而熵用来表示所有信息量的期望,即: H ( X ) = − ∑ i = 1 n p ( x i ) l o

通俗的解释交叉熵与相对熵

拥有回忆 提交于 2020-02-21 03:57:07
参考 信息熵是什么? 交叉熵损失函数原理详解 信息可以量化? 信息熵,信息熵,怎么看怎么觉得这个 “熵” 字不顺眼,那就先不看。我们起码知道这个概念跟信息有关系。而它又是个数学模型里面的概念,一般而言是可以量化的。所以,第一个问题来了:信息是不是可以量化? 起码直觉上而言是可以的,不然怎么可能我们觉得有些人说的废话特别多,“没什么信息量”,有些人一语中的,一句话就传达了很大的信息量。 为什么有的信息量大有的信息量小? 有些事情本来不是很确定,例如明天股票是涨还是跌。如果你告诉我明天 NBA 决赛开始了,这两者似乎没啥关系啊,所以你的信息对明天股票是涨是跌带来的信息量很少。但是假如 NBA 决赛一开始,大家都不关注股票了没人坐庄股票有 99% 的概率会跌,那你这句话信息量就很大,因为本来不确定的事情变得十分确定。 而有些事情本来就很确定了,例如太阳从东边升起,你再告诉我一百遍太阳从东边升起,你的话还是丝毫没有信息量的,因为这事情不能更确定了。 所以说 信息量的大小跟事情不确定性的变化有关 。 那么,不确定性的变化跟什么有关呢? 一,跟事情的可能结果的数量有关;二,跟概率有关。 先说一。 例如我们讨论太阳从哪升起。本来就只有一个结果,我们早就知道,那么无论谁传递任何信息都是没有信息量的。 当可能结果数量比较大时,我们得到的新信息才有潜力拥有大信息量。 二,单看可能结果数量不够

从jensen不等式到相对熵的非负性性

為{幸葍}努か 提交于 2020-01-30 13:37:38
从jensen不等式到相对熵的非负性性  前言:在上上次博客我们证明观测到的归一化的频率就是最大似然估计的解时,我们用到了相对熵恒大于等于0的性质,那么本文就当是扩展一下知识,主要以证明和介绍为主。   首先我们简要介绍一下熵的概念。“熵”这一概念并不仅仅存在于物理化学中,还应用于信息论中。熵是结果不确定度的一种度量。shannon熵定义为: H ( x ) = − ∑ i P ( x i ) log ⁡ P ( x i ) H ( x ) = - \sum _ { i } P \left( x _ { i } \right) \log P \left( x _ { i } \right) H ( x ) = − ∑ i ​ P ( x i ​ ) lo g P ( x i ​ ) 其中X为随机变量,它在K个事件 x 1 x_{1} x 1 ​ , x 2 x_{2} x 2 ​ , x k x_{k} x k ​ 的离散集合上有概率P( x i x_{i} x i ​ )  ps:我们可以试着证明一下当其实均匀分布时,它的熵值最大。(思路提示:可以用用最小二乘法。具体详见下篇文章。)   相对熵又称KL散度,信息散度,是两个概率分布间差异的非对称性度量。令P(X),Q(X)是随机变量X的概率分布,则在其实离散型随机变量的情况下,相对熵为: H ( P ∥ Q ) = ∑ i P

浅谈KL散度

心已入冬 提交于 2020-01-30 08:22:26
一、第一种理解     相对熵(relative entropy)又称为KL散度(Kullback–Leibler divergence,简称KLD),信息散度(information divergence),信息增益(information gain)。   KL散度是两个概率分布P和Q差别的非对称性的度量。 KL散度是用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的比特个数。 典型情况下,P表示数据的真实分布,Q表示数据的理论分布,模型分布,或P的近似分布。    根据shannon的信息论,给定一个字符集的概率分布,我们可以设计一种编码,使得表示该字符集组成的字符串平均需要的比特数最少。假设这个字符集是X,对x∈X,其出现概率为P(x),那么其最优编码平均需要的比特数等于这个字符集的熵:   H(X)=∑ x∈X P(x)log[1/P(x)]   在同样的字符集上,假设存在另一个概率分布Q(X)。如果用概率分布P(X)的最优编码(即字符x的编码长度等于log[1/P(x)]),来为符合分布Q(X)的字符编码,那么表示这些字符就会比理想情况多用一些比特数。KL-divergence就是用来衡量这种情况下平均每个字符多用的比特数,因此可以用来衡量两个分布的距离。即:   D KL (Q||P)=∑ x∈X Q(x)[log(1/P(x))] - ∑ x∈X Q(x)

深度学习如何处理信息实现智慧之信息熵、相对熵、交叉熵等

谁说胖子不能爱 提交于 2020-01-25 01:19:48
“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,后经管理人员调查研究发现,这种现象出现在年轻的父亲身上,父亲在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段。没想到这个举措居然使尿布和啤酒的销量都大幅增加。 如今,“啤酒+尿布”的大数据挖掘分析成果早已成了大数据技术应用的经典案例,被人津津乐道。啤酒尿布这一看似可笑的现象之所以能被发现,正是“大数据”惊人威力的体现。 今天,大量数据、大量信息充斥我的日常生活和工作中,仿佛生活在数据和信息的海洋中,各类信息严重影响了我们的生活,碎片、垃圾、过时信息耗费了我们宝贵时间,最后可留在我们大脑中的知识少之又少,如何提高有效信息转化率、加快知识积累,更高效的创新,成为我们信息化社会、智慧企业新课题。 信息化社会、智慧企业构成如上图的金字塔模型,基础是数据,通过信息化技术进行数字化;第二层是信息,通过流程上下文,对数据处理;第三层是知识,对信息分类、分层次、归纳梳理;最后,顶端形成人工智能,实现决策支持。 智慧是指人工智能,人工智能是系统基于数据、信息和知识,形成类似于人脑的思维能力(包括学习、推理、决策等)。 知识是对信息的总结和提炼

GAN--4

强颜欢笑 提交于 2020-01-23 19:31:22
极大似然估计 找一个θ,使得Pdata和PG越接近越好 加上log不影响求取θ,logA*logB=log(A+B),累乘变累加 * KL divergence又叫相对熵。相对熵是一些优化算法,例如最大期望算法的损失函数。此时参与计算的一个概率分布为真实分布,另一个为理论分布,相对熵表示使用理论分布拟合真实分布时产生的信息损耗。 PG和Pdata的Divergence越接近越好 问题: PG和Pdata的公式未知 怎么计算这个divergence train discriminator时要做什么 详见GAN–1 ———————————————————————————————————————————— GAN算法 D可以多次迭代。从Pdata(x)中取样m个x,取m个噪声z,获得生成的数据G(z),更新θd最大化这个式子。 G只有一次。取m个噪声,更新θg最小化这个式子。 来源: CSDN 作者: shanhaibukeping 链接: https://blog.csdn.net/shanhaibukeping/article/details/103681681

信息熵,交叉熵与相对熵

邮差的信 提交于 2019-12-27 02:24:28
前言 最近在多处看到熵的概念,之前零散的了解了一下,最近总结下,加深一下理解。 熵 熵是信息论中的一个概念,用于衡量一个随机变量的不确定性,公式很简单: l o g ( 1 / p ( x ) ) log(1/p(x)) l o g ( 1 / p ( x ) ) ,其中 p ( x ) p(x) p ( x ) 为x的概率分布(离散)或者概率密度(连续)函数,公式很直观,概率越小熵越大,即信息量越大。 信息熵 信息熵为熵的期望,用于衡量一个分布的不确定性,以下为离散变量概率分布下的计算公式: H ( p ) = ∑ i p ( i ) l o g ( 1 / p ( i ) ) = − ∑ i p ( i ) l o g p ( i ) H(p)=\sum_i p(i)log(1/p(i))=-\sum_i p(i)logp(i) H ( p ) = i ∑ ​ p ( i ) l o g ( 1 / p ( i ) ) = − i ∑ ​ p ( i ) l o g p ( i ) 基本可以看出,当一个随机变量分布越散,信息熵越大,而分布越集中,信息熵越小,二元分布和连续分布类似,这里不多做讨论。 交叉熵 假设我们知道某个分布的真实概率分布 p ( x ) p(x) p ( x ) (机器学习中的标签)和一个预测概率分布 q ( x ) q(x) q ( x ) (模型预测概率

一文搞懂交叉熵损失

痞子三分冷 提交于 2019-12-20 06:12:42
本文从信息论和最大似然估计得角度推导交叉熵作为分类损失函数的依据。 从熵来看交叉熵损失 信息量 信息量来衡量一个事件的不确定性,一个事件发生的概率越大,不确定性越小,则其携带的信息量就越小。 设 \(X\) 是一个离散型随机变量,其取值为集合 \(X = {x_0,x_1,\dots,x_n}\) ,则其概率分布函数为 \(p(x) = Pr(X = x),x \in X\) ,则定义事件 \(X = x_0\) 的信息量为: \[ I(x_0) = -\log(p(x_0)) \] 当 \(p(x_0) = 1\) 时,该事件必定发生,其信息量为0. 熵 熵用来衡量一个系统的混乱程度,代表系统中信息量的总和;熵值越大,表明这个系统的不确定性就越大。 信息量是衡量某个事件的不确定性,而熵是衡量一个系统(所有事件)的不确定性。 熵的计算公式 \[ H(x) = -\sum_{i=1}^np(x_i)\log(p(x_i)) \] 其中, \(p(x_i)\) 为事件 \(X=x_i\) 的概率, \(-log(p(x_i))\) 为事件 \(X=x_i\) 的信息量。 可以看出,熵是信息量的期望值,是一个随机变量(一个系统,事件所有可能性)不确定性的度量。熵值越大,随机变量的取值就越难确定,系统也就越不稳定;熵值越小,随机变量的取值也就越容易确定,系统越稳定。 相对熵

机器学习之相对熵、交叉熵(为什么交叉熵可以作为损失函数)

回眸只為那壹抹淺笑 提交于 2019-12-10 15:58:10
文章目录 自信息 信息熵 相对熵(KL散度) 交叉熵 为什么交叉熵可以作为损失函数 参考文章 自信息   信息论的基本想法是一个不太可能的事件居然发生了,要比一个非常可能的事件发生,能够提供发更多的信息。消息说:“今天早上太阳升起”,信息量是如此少,以至于没有必要发送;但一条消息说:“今天早上有日食”,信息量就很丰富。   一条信息的信息量大小和它的不确定性有直接的关系,我们可以认为, 信息量的度量就等于不确定性的多少 。使用 自信息 来量化 信息量 : I ( x ) = − l o g P ( x ) I(x)=-logP(x) I ( x ) = − l o g P ( x )    l o g log l o g 函数基的选择是任意的,信息论中基常常选择为2,因此信息的单位为比特(bit);而机器学习中基常常选择为自然常数,因此单位常常被称为奈特(nats)。 信息熵   使用信息熵对整个 概率分布 中的 不确定性总量 进行量化: H ( X ) = E x ∼ P [ I ( x ) ] = − E x ∼ P [ l o g P ( x ) ] H(X)=E_{x\sim P}[I(x)]=-E_{x\sim P}[logP(x)] H ( X ) = E x ∼ P ​ [ I ( x ) ] = − E x ∼ P ​ [ l o g P ( x ) ]  

机器学习中的一些信息论的概念简介

匿名 (未验证) 提交于 2019-12-03 00:38:01
机器学习和深度学习中常用信息论中的一些概念。 这里只做目录简介,具体的内容参考原文: 信息量 联合熵 条件熵 相对熵 互信息 信息增益 Information Gain 信息增益率 Information Gain ratio 出自:远方的橄榄树 原文链接 https://blog.csdn.net/light_lj/article/details/52208838 文章来源: 机器学习中的一些信息论的概念简介