信息熵

信息熵公式解析

£可爱£侵袭症+ 提交于 2020-02-06 04:22:15
信息熵公式解析 信息熵的公式: H ( A ) = − ∑ x i ϵ A n p ( x i ) l o g 2 p ( x i ) H(A)=-\sum_{x_{i}\epsilon A}^{n} p(x_{i})log_{2}p(x_{i}) H ( A ) = − x i ​ ϵ A ∑ n ​ p ( x i ​ ) l o g 2 ​ p ( x i ​ ) H(A): 集合A的信息熵 A: 集合A={ x 1 x_{1} x 1 ​ , x 2 x_{2} x 2 ​ , x 3 x_{3} x 3 ​ … x n x_{n} x n ​ } x i x_{i} x i ​ : x i x_{i} x i ​ = x 1 x_{1} x 1 ​ , x 2 x_{2} x 2 ​ , x 3 x_{3} x 3 ​ … x n x_{n} x n ​ p( x i x_{i} x i ​ ): x i x_{i} x i ​ 在集合A中的概率 来源: CSDN 作者: 夏华东的博客 链接: https://blog.csdn.net/weixin_44493841/article/details/104189052

归一化(softmax)、信息熵、交叉熵

旧巷老猫 提交于 2020-02-03 14:08:34
机器学习中经常遇到这几个概念,用大白话解释一下: 一、归一化 把几个数量级不同的数据,放在一起比较(或者画在一个数轴上),比如:一条河的长度几千甚至上万km,与一个人的高度1.7m,放在一起,人的高度几乎可以被忽略,所以为了方便比较,缩小他们的差距,但又能看出二者的大小关系,可以找一个方法进行转换。 另外,在多分类预测时,比如:一张图,要预测它是猫,或是狗,或是人,或是其它什么,每个分类都有一个预测的概率,比如是猫的概率是0.7,狗的概率是0.1,人的概率是0.2... , 概率通常是0到1之间的数字,如果我们算出的结果,不在这个范围,比如:700,10,2 ,甚至负数,这样就需要找个方法,将其转换成0-1之间的概率小数,而且通常为了满足统计分布,这些概率的和,应该是1。 最常用的处理方法,就是softmax,原理如上图(网上淘来的)。 类似的softmax(1)=0.12,softmax(-3)=0,这个方法在数学上没毛病,但是在实际运用中,如果目标值x很大,比如10000,那e的10000次方,很可能超出编程语言的表示范围,所以通常做softmax前,要对数据做一下预处理(比如:对于分类预测,最简单的办法,所有训练集整体按比例缩小) 二、信息熵 热力学中的热熵是表示分子状态混乱程度的物理量,而且还有一个所谓『熵增原理』,即:宇宙中的熵总是增加的,换句话说

决策树算法

回眸只為那壹抹淺笑 提交于 2020-02-03 11:35:47
决策树入门 决策树是分类算法中最重要的算法, 重点 决策树算法在电信营业中怎么工作? 为什么叫决策树? 因为树的叶子节点是我们最终预判的结果。 决策树如何来? 根据训练样本建立。 问题1:为什么费用变换率放第一个? 根据特征建决策树,会有n棵树,找出最优树。 问题2:当我们特征是连续值的时候,到底从哪里开始切分? 连续值要改为离散的。 问题3:决策树能不能做回归 决策树例子: 不同的决策树对我们判定的效率,速度有影响。 总结: 树的深度:深度的基数是1,上图深度是4。一棵树所有层次的最大值称为 深度 。 决策树进阶 **决策树一共有五种算法。**前面四个都是有关联的。 Hunt算法: 决策树是一个递归的过程。 2,3解释 :当所有的样本点都属于同一个类别的时候,不需要划分(递归结束的一个条件); 5,6解释 :属性不能再划分的时候,其类别标记取决于该样本中数据最多的类。如果类别数量相同,注意看一下另一个叶子节点,不能与上一个叶子节点的类别相同,否则,无需划分。 8,解释 :如何构建最优决策树。 hunt算法有一个bug:不好选最优划分属性。D是样本集。 9~14解释 :对于某一个特征(属性),的每一个值,设置为node并生成一个分支;形成两个样本子集。为空,分支节点为叶子节点,否则,样本子集中数量多的类为返回值。 信息增益–information gain(ID3) (b)方法更好

信息=能量?

可紊 提交于 2020-02-01 18:53:49
在环球科学公众号看到一篇关于信息和能量关系的推文,对于这些基本概念进行了论述。 在人类文明史上,存在一些基本的理论概念。一旦弄清这些基本概念之间的联系,科技乃至人类文明就将出现飞跃。比如爱因斯坦搞清楚了质量与能量的关系后,人类就制造出了原子弹,爱因斯坦也成为科学史上巨人。兰道尔与他的论文 None 在历史上,首先完整阐述信息和能量之间的关系的人是罗夫·兰道尔(Rolf Landauer)。 ^罗夫·兰道尔(Rolf Landauer)^ 原籍在德国的兰道尔出生在第一次世界大战和第二次世界大战中间的一个犹太人家庭,那年是1927年,在7岁那年他的父亲去世,跟着母亲来到美国纽约谋生。他天资聪颖,18岁就拿到了哈佛大学的毕业证,随后在美国海军服役18个月后,又返回到哈佛大学攻读博士。五年后,即1950年获得博士学位。 毕业后兰道尔找到的第一份稳定的工作就是进入IBM公司上班,之后一直没有离开过IBM。平均的上班族的生活并没有使他引起人们特别的注意,直到1961年,他在《IBM研究通讯》发表了一篇著名论文,即:《不可逆性与计算过程中的热量产生》“Irreversibility and Heat Genration in the Computing Process”。 在这篇文章中,他大胆提出一个惊人的论断“经典计算机中要改变一个经典比特信息,需要不可避免消耗掉至少KTln2的能量

指标权重确定方法之熵权法

南楼画角 提交于 2020-01-31 05:59:26
一、熵权法介绍 熵最先由申农引入信息论,目前已经在工程技术、社会经济等领域得到了非常广泛的应用。 熵权法的基本思路是根据指标变异性的大小来确定客观权重。 一般来说,若某个指标的信息熵 越小,表明指标值得变异程度越大,提供的信息量越多,在综合评价中所能起到的作用也越大,其权重也就越大。相反,某个指标的信息熵 越大,表明指标值得变异程度越小,提供的信息量也越少,在综合评价中所起到的作用也越小,其权重也就越小。 二、熵权法赋权步骤 1. 数据标准化 将各个指标的数据进行标准化处理。 假设给定了 k 个指标 ,其中 。假设对各指标数据标准化后的值为 ,那么 。 2. 求各指标的信息熵 根据信息论中信息熵的定义,一组数据的信息熵 。其中 ,如果 ,则定义 。 3. 确定各指标权重 根据信息熵的计算公式,计算出各个指标的信息熵为 。通过信息熵计算各指标的权重: 。 三、熵权法赋权实例 1. 背景介绍 某医院为了提高自身的护理水平,对拥有的11个科室进行了考核,考核标准包括9项整体护理,并对护理水平较好的科室进行奖励。下表是对各个科室指标考核后的评分结果。 但是由于各项护理的难易程度不同,因此需要对9项护理进行赋权,以便能够更加合理的对各个科室的护理水平进行评价。 2. 熵权法进行赋权 1 )数据标准化 根据原始评分表,对数据进行标准化后可以得到下列数据标准化表 表 2 11 个科室 9

一看就懂的信息熵

删除回忆录丶 提交于 2020-01-30 00:54:36
信息熵: (看之前可以了解一下信息熵的创始人: 克劳德·艾尔伍德·香农(Claude Elwood Shannon ,1916年4月30日—2001年2月24日) ) 先给出信息熵的公式: 其中:𝑝(𝑥 𝑖 )代表随机事件𝑥 𝑖 的概率。 下面逐步介绍信息熵公式来源! 首先了解一下信息量:信息量是对信息的度量,就跟时间的度量是秒一样,当我们考虑一个离散的随机变量 x 的时候,当我们观察到的这个变量的一个具体值的时候,我们接 收到了多 少信息呢? 多少信息用信息量来衡量,我们接受到的信息量跟具体发生的事件有关。 信息的大小跟随机事件的概率有关。越小概率的事情发生了产生的信息量越大,如湖南产生 的地震了;越大概率的事情发生了产生的信息量越小,如太阳从东边升起来了(肯定发生嘛, 没什么信息量)。这很好理解! 因此一个具体事件的信息量应该是随着其发生概率而递减的,且不能为负。但是这个表示信 息量函数的形式怎么找呢?随着概率增大而减少的函数形式太多了!不要着急,我们还有下 面这条性质。 如果我们有俩个不相关的事件 x 和 y,那么我们观察到的俩个事件同时发生时获得的信息应 该等于观察到的事件各自发生时获得的信息之和,即: h(x,y) = h(x) + h(y) 由于 x,y 是俩个不相关的事件,那么满足 p(x,y) = p(x)*p(y). 根据上面推导,我们很容易看出 h(x)一定与

机器学习之信息论

佐手、 提交于 2020-01-25 18:25:48
条件熵: 信息熵是对观测过程中变量的不确定性的度量,基本公式为: 当X服从均匀分布时,H(x)取得最大值,这也符合感性认识。 从公式可以看出,这是一个熵值的期望,约束为随机变量X,可理解为X约束下对H(Y)的影响,因此这种信息熵被记为H(Y|X)。 信息增益: 有上述公式,感性上容易得出H(Y)大于等于H(Y|X),因为提供了X的信息,Y的熵值应该变小或者不变,因此有信息增益: G越大,表示A提供的信息很有用,以至于H(D|A)的不确定性接近0(完全确定) G越小,表示A提供的信息没什么用 因此可以用G来衡量变量A对D的影响,G越大越好,另外可以将A的熵值考虑到G中,有: 比如G(D,A)和G(D,B)相等,但A的熵值更小,表示A本身比较确定的情况下,对D的影响更大,因此A对D比B对D更有影响。 基尼指数: 基尼指数与信息熵类似,也是对比变量不确定性的度量,在变量A的影响下,D的基尼指数为: 这里Gini(D,A)应该是越小越好,表示在A的约束下,D的不确定变得很小。 来源: CSDN 作者: 厉害了我的汤 链接: https://blog.csdn.net/YD_2016/article/details/104039251

信息熵与随机数

柔情痞子 提交于 2020-01-25 13:59:40
信息熵与随机数 在程序开发中,我们经常会用到随机数,确保某个事件发生是具有随机性,不可预测性的。而事实是随机性却不是那么随机,我们大多用的都是伪随机数。那什么才是真随机数呢? 信息熵 什么是熵?在物理学中,熵(entropy)是一个描述系统混乱程度的物理量,熵越大说明系统越无序、越混乱,不确定性越大。例如:一杯水,所有的水分子都是聚集在一起叫低熵,把这杯水静置一段时间,水分子扩散出处,弥漫到整个房间,这个过程叫熵增。整个宇宙事实上都在做熵增的运动。而人可能喜欢有序,尽量把物体放置整齐,垃圾分类处理,减少熵的增加,让世界整齐有序活动,喜欢可预测可掌控生活。 那么什么是信息熵?信息熵是描述信息的复杂程度,信息克服了多大的不确定性。例如:abcdefgh… 我们很容易推测到后面应该是ijklmn,例如数列: 1 1 2 3 5 8 13… 我们也容易知道后面的数是21。这些都是可预测性的规律,信息熵就比较低。同样的一本书,英文版本的书信息熵比较低,而中文版的信息熵比较高。因为英文有大量介词,定冠词等字母。即时去掉一两个也同样能理解这句话的意思,但是同样的一句话中文表达的信息量就远大于英文。古代的文言文信息熵就远大于今天的汉语,因为文言文的信息熵比较高,这也是省了不少竹简呀!同样高效的语言文本,最高效的信息熵应该是乱码,杂乱无章,没任何规律可循。列如:服务器密钥文件,比特币

深度学习如何处理信息实现智慧之信息熵、相对熵、交叉熵等

谁说胖子不能爱 提交于 2020-01-25 01:19:48
“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,后经管理人员调查研究发现,这种现象出现在年轻的父亲身上,父亲在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段。没想到这个举措居然使尿布和啤酒的销量都大幅增加。 如今,“啤酒+尿布”的大数据挖掘分析成果早已成了大数据技术应用的经典案例,被人津津乐道。啤酒尿布这一看似可笑的现象之所以能被发现,正是“大数据”惊人威力的体现。 今天,大量数据、大量信息充斥我的日常生活和工作中,仿佛生活在数据和信息的海洋中,各类信息严重影响了我们的生活,碎片、垃圾、过时信息耗费了我们宝贵时间,最后可留在我们大脑中的知识少之又少,如何提高有效信息转化率、加快知识积累,更高效的创新,成为我们信息化社会、智慧企业新课题。 信息化社会、智慧企业构成如上图的金字塔模型,基础是数据,通过信息化技术进行数字化;第二层是信息,通过流程上下文,对数据处理;第三层是知识,对信息分类、分层次、归纳梳理;最后,顶端形成人工智能,实现决策支持。 智慧是指人工智能,人工智能是系统基于数据、信息和知识,形成类似于人脑的思维能力(包括学习、推理、决策等)。 知识是对信息的总结和提炼

熵?物理学四大神兽之一,麦克斯韦妖?信息量?

丶灬走出姿态 提交于 2020-01-23 21:35:17
1.什么是熵?   说到熵,他很有很多种的定义,但也都大同小异,在这里给出一种通俗的解释——熵,是对 混乱程度 、 不确定程度 的度量。熵越大,混乱程度、不确定程度越高。   笔者将从物理学上的熵、信息论中的熵来剖析熵的概念,这其中会有一些很有意思的案例,仔细往后看哦~ 2.物理学上的熵 2.1热力学第二定律   我们熟识的热力学第二定律: 不可能把热量从低温物体传递到高温物体而不产生其他影响 。   有这样一个例子:一个水杯,中间由 隔板 隔开(两边除温度外,其他都一样)。左边40℃,右边60℃,不考虑其他环境影响,将隔板拿开,水的最终温度大概是50℃。这个很好理解吧。但是,你有没有想过隔板拿开之后,为什么不是左边20℃,右边80℃呢?   其实,热力学第二定律最初就是为了描述这个现象的。再来看这个水杯,从一种状态变成了另一种状态,人们为了定量描述这两种状态的区别,人们就 引入了熵的概念 。一个系统可以自发的从一个状态到另一个状态,一定是因为某种物理量,什么物理量呢?那就是熵。第一种状态的熵值更低(更有序),第二种状态的熵值更高(更混乱)。就是说,一个 孤立系统 ,从一种状态转换成另一种状态, 熵不会减少 。这是热力学第二定律的一种表示方法,叫 熵增定律 。   熵增定律很重要,一个孤立系统,熵大概率是增大的。一个孤立系统的熵不可能减少。仔细想想下面的问题?