概率分布

1.Deep learning AlexNet (1)

僤鯓⒐⒋嵵緔 提交于 2020-02-07 11:36:33
NIPS (神经信息处理系统进展大会) 读哪些东西? 论文背景 成果及其意义 未来的研究趋势 Auto L 自动的设计网络结构 softmax 可以将数值变成概率分布 再与 label 交叉熵 softmax 可以将负数变为正数 加起来概率和为1 交叉熵数值越大说明越不接近。。。 fc8 未归一化的概率分布。。。 第一个计算公式 除不尽的时候进行下取整 第二和第三个 除不尽的时候上取整 F为特征图的尺寸 k卷积核尺寸 卷积核通道数 Kc Foc 输出特征图的通道数 输入图片大小为 227 227 3 包含了96个大小为 11*11通道数为3的卷积核 卷积核的通道数等于输入map的通道数 所以是3 方式为valid parameters =(卷积核尺寸 * 卷积核通道 *+ 1) * 特征图通道数 因为之前GPU性能不够 所以分开来进行处理, 再将其进行了 合并操作 concate Alexnet应为包含了很多权重参数因此很容易过拟合 所以训练的时候采用了数据增强处理 来源: CSDN 作者: hzzDeeplearning 链接: https://blog.csdn.net/weixin_44400401/article/details/104031192

概率分布之间的距离度量以及python实现(三)

瘦欲@ 提交于 2020-02-07 06:53:44
转自: https://www.cnblogs.com/denny402/p/7050779.html 概率分布之间的距离,顾名思义,度量两组样本分布之间的距离 。 1、卡方检验 统计学上的 χ 2 统计量,由于它最初是由英国统计学家Karl Pearson在1900年首次提出的,因此也称之为Pearson χ 2 ,其计算公式为   (i=1,2,3,…,k)   其中, A i 为i水平的观察频数, E i 为i水平的期望频数,n为总频数, p i 为i水平的期望频率。i水平的期望频数 E i 等于总频数n×i水平的期望概率 p i 。当n比较大时, χ 2 统计量近似服从k-1(计算 E i 时用到的参数个数)个自由度的卡方分布。 卡方检验经常用来检验某一种观测分布是不是符合某一类典型的理论分布(如二项分布,正态分布等)。 观察频数与期望频数越接近,两者之间的差异越小, χ 2 值越小;如果两个分布完全一致, χ 2 值为0; 反之,观察频数与期望频数差别越大,两者之间的差异越大, χ 2 值越大。 换言之,大的 χ 2 值表明观察频数远离期望频数,即表明远离假设。小的 χ 2 值表明观察频数接近期望频数,接近假设。因此, χ 2 是观察频数与期望频数之间距离的一种度量指标,也是假设成立与否的度量指标。如果 χ 2 值“小”,研究者就倾向于不拒绝 H 0 ;如果 χ 2 值大

[白话解析] 深入浅出最大熵模型

。_饼干妹妹 提交于 2020-01-31 16:35:42
[白话解析] 深入浅出最大熵模型 0x00 摘要 本文将尽量使用易懂的方式,尽可能不涉及数学公式,而是从整体的思路上来看,运用感性直觉的思考来解释最大熵模型。并且从名著中找了几个具体应用场景来帮助大家深入这个概念。 0x01 背景概念 1. 什么是熵? 熵这个概念可以从多个角度来理解。 1.1 从物理学角度理解熵 熵最早来原于物理学。德国物理学家鲁道夫·克劳修斯首次提出熵的概念,用来表示任何一种能量在空间中分布的均匀程度,能量分布得越均匀,熵就越大。即,熵是表示物质系统状态的一种度量,用它来表征系统的无序程度。 熵越大,系统越无序,意味着系统结构和运动的不确定和无规则; 熵越小,系统越有序,意味着系统具有确定和有规则的运动状态。 1.2 从系统复杂度理解熵 信息熵还可以作为一个系统复杂程度的度量,即物质系统有序化,组织化,复杂化状态的一种度量。 如果系统越复杂,出现不同情况的种类越多,那么他的信息熵是比较大的。 如果一个系统越简单,出现情况种类很少(极端情况为1种情况,那么对应概率为1,对应的信息熵为0),此时的信息熵较小。 熵越大则该系统不确定性就越大,该系统未来发展就存在越多的可能性。 1.3 熵的推导&定义 熵的定义是:𝐇(𝐱) = −𝒔𝒖𝒎(𝒑(𝒙)𝒍𝒐𝒈𝟐𝒑(𝒙)) 其中,𝑝(𝑥)代表随机事件𝑥的概率,H(X) 就被称为随机变量 x 的熵,它是表示随机变量不确定的度量

概率的角度看生命

寵の児 提交于 2020-01-29 00:04:30
人是符合一种分布情况.这个情况可能是复杂的. 对人而言假设人的思想是符合一种分布的.只是处在一种发生和未发生之间.环境是以分布的形式. 人是随环境的. 这样人的基本几个因素都有了. 假定人的各种情况都是以概率的分布形式进行的.选择本身是不可逆的当选择做出后不能去修改. 这样说时间是否就是一个假想的量.因为根本没有时间这个量出现事情依旧进行. 因为概率本身不可观测.但我们却需要一个能观测的量来进行观察. 所以假想出一个时间概念. 但是由于假想的,客观不存在. 所以人类无限次对于时间机器的想象其实也是不存在.因为即使你能够穿越时间.但是就此而言你在那一个空间里的概率依旧在不断进行.概率的不可逆性. 时间方面无法下手. 那就从人的行为下手. 我们可以假想一下人的思维思考方式.假设是从我们脑海中的库中去抓取认知的事物来进行表现 那么换一个角度上看,学习是知道了一个组合的结果并存储.作为自己的一个认知.那么对于此人的行为表现是不是可以说是从思考中进行. 对于此学习从概率的形式出发. 可以想象. 我们是从认知的库中进行一个组合碰撞. 假定这种碰撞组合的过程就是思考. 就有下面的问题: 当量无限大的时候.因为抓取是一种概率的问题.如此当因子很大,因为对于一个抓取多少的局限.就会导致幅值很大.当幅值很大.而总量是一定,就会使出现的结果呈现一个唯一性. 这样当我们把所有的认知排列.极尽所有的结果

基于贝叶斯估计的星级得分排名

风格不统一 提交于 2020-01-25 11:41:12
问题阐述 互联网早已成为人们生活的一部分,没事在网上看看电影、逛逛淘宝、定定外卖(有时间还是要多出去走走)。互联网的确为我们提供了非常多的便利,但它毕竟是一个虚拟的环境,具有更多的不确定性,大多数情况下我们只能通过别人的评论及打分来判别某个商品的好坏。五星打分是许多网站采用的商品排名方法,它也是消费者最直观最简单的评价尺度,我想大部分人都会去点击那些星级排名比较高的商品以最大限度降低我们的顾虑。 多数情况下,星级排名都能准确的反映一个商品的好坏,因为它是多人的一个综合得分,减小了个人偏好的影响。但是这里有一个前提条件,即打分的人要足够多。 考虑下面两种商品: 1.A商品的星级平均得分为5(1位评论者) 2.B商品的星级平均得分为4.1(87位评论者) A、B两种商品谁的得分排名更高呢?我想大部分都认为B应该排在A的前面吧,尽管B的平均星级得分要低于A,但是它有更多的体验人数,其得分更具有说服力。 现在我们已经明白,一个商品的排名应同时考虑它的星级得分与评论人数。那么我们应该如何将二者结合起来呢?也许会有人想到,我们可以给评论人数设定一个阀值,使得小于该阀值的商品,其排名会相对较低。上述过程可以使用下面的式子来表达: 这里的 m代表平均星级得分,n代表打分的人数,k代表修正的阀值。K值该如何确定呢,它在某些极端的情况下准吗?这些都有待进一步考证。这里我们不采用该方法

统计学面试经典问题

点点圈 提交于 2020-01-25 02:56:39
1. 叙述你所熟悉的大数定律与中心极限定理,并举例说明它在统计学中的应用。 1) 大数定律 弱大数定律(通常指辛钦大数定律): a) 马尔科夫大数定律: 随机变量满足马尔科夫条件: 1 n 2 D ( ∑ k = 1 n ξ k ) → 0 \frac {1}{n^2} D(\sum^n_{k=1} \xi_k)\rightarrow 0 n 2 1 ​ D ( ∑ k = 1 n ​ ξ k ​ ) → 0 ,则样本均值依概率收敛于期望值。 b) 辛钦大数定律: 随机变量独立同分布,一阶矩存在且等于 a a a ,样本均值 依概率收敛 于期望值 a a a 。 强大数定律(柯尔莫哥洛夫): 随机变量独立同分布,一阶矩存在且等于 a a a ,样本均值 以概率1收敛 于期望值 a a a 。 2) 中心极限定理 Lindeberg-Levy 中心极限定理 (最早的版本是de Moivre – Laplace,指出二项分布的极限为正态分布): 随机变量 X 1 , X 2 , ⋯   , X n X_{1},X_{2},\cdots ,X_{n} X 1 ​ , X 2 ​ , ⋯ , X n ​ 独立同分布, 且具有有限的数学期望和方差 E ( X i ) = μ E(X_{i})=\mu E ( X i ​ ) = μ , D ( X i ) = σ 2 ≠ 0 ( i = 1

深度学习如何处理信息实现智慧之信息熵、相对熵、交叉熵等

谁说胖子不能爱 提交于 2020-01-25 01:19:48
“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,后经管理人员调查研究发现,这种现象出现在年轻的父亲身上,父亲在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段。没想到这个举措居然使尿布和啤酒的销量都大幅增加。 如今,“啤酒+尿布”的大数据挖掘分析成果早已成了大数据技术应用的经典案例,被人津津乐道。啤酒尿布这一看似可笑的现象之所以能被发现,正是“大数据”惊人威力的体现。 今天,大量数据、大量信息充斥我的日常生活和工作中,仿佛生活在数据和信息的海洋中,各类信息严重影响了我们的生活,碎片、垃圾、过时信息耗费了我们宝贵时间,最后可留在我们大脑中的知识少之又少,如何提高有效信息转化率、加快知识积累,更高效的创新,成为我们信息化社会、智慧企业新课题。 信息化社会、智慧企业构成如上图的金字塔模型,基础是数据,通过信息化技术进行数字化;第二层是信息,通过流程上下文,对数据处理;第三层是知识,对信息分类、分层次、归纳梳理;最后,顶端形成人工智能,实现决策支持。 智慧是指人工智能,人工智能是系统基于数据、信息和知识,形成类似于人脑的思维能力(包括学习、推理、决策等)。 知识是对信息的总结和提炼

【概率论与数理统计】小结6 - 大数定理与中心极限定理

可紊 提交于 2020-01-24 23:42:44
注 :这两个定理可以说是概率论中最重要的两个定理。也是由于中心极限定理的存在,使得正态分布从其他众多分布中脱颖而出,成为应用最为广泛的分布。这两个定理在概率论的历史上非常重要,因此对于它们的研究也横跨了几个世纪(始于18世纪初),众多耳熟能详的大数学家都对这两个定理有自己的贡献。因此,这两个定理都不是单一的定理。不同的大数定理和中心极限定理从不同的方面对相同的问题进行了阐述,它们条件各不相同,得到的结论的强弱程度也不一样。 1. 大数定理(law of large numbers,LLN) 图1-1,伯努利(1655-1705) 大数定律可以说是整个数理统计学的一块基石,最早的大数定律由伯努利在他的著作《推测术》中提出并给出了证明。这本书出版于伯努利去世后的1713年。数理统计学中包含两类重要的问题——对概率p的检验与估计。大数定律的本质是一类极限定理,它是由概率的统计定义“频率收敛于概率”引申而来的。简单来说就是n个独立同分布的随机变量的观察值的均值$\bar{X}$依概率收敛于这些随机变量所属分布的理论均值,也就是总体均值。 举一个古典概率模型的例子:拿一个盒子,里面装有大小、质地一样的球a+b个,其中白球a个,黑球b个。这时随机地从盒子中抽出一球(意指各球有同等可能被抽出),则“抽出的球为白球”这一事件A的概率p=a/(a+b).但是如果不知道a、b的比值,则p也不知道

一分钟分清概率函数,分布函数,概率密度函数

亡梦爱人 提交于 2020-01-21 03:07:36
很多初学概率论的同学一定会被这几个概念迷惑,概率函数、分布函数、密度函数,下面就要我们用五分钟的时间来搞定他们! 概率函数:用函数的形式来表达概率 P i = P ( X = a i ) ( i = 1 , 2 , 3... n ) P_i=P\left(X=a_i\right) \qquad \left(i=1,2,3...n \right) P i ​ = P ( X = a i ​ ) ( i = 1 , 2 , 3 . . . n ) 概率分布:离散型随机变量的值分布和值的概率分布列表 x 1 2 3 4 5 6 P 1 6 \frac{1}{6} 6 1 ​ 1 6 \frac{1}{6} 6 1 ​ 1 6 \frac{1}{6} 6 1 ​ 1 6 \frac{1}{6} 6 1 ​ 1 6 \frac{1}{6} 6 1 ​ 1 6 \frac{1}{6} 6 1 ​ 分布函数:概率函数取值的累加结果,所以它又叫累积概率函数 P { X = X k } = P k k = 1 , 2 , 3... P\left\{ X=X_k \right\}=P_k \qquad k=1,2,3... P { X = X k ​ } = P k ​ k = 1 , 2 , 3 . . . F ( x ) = P ( X ⩽ x ) = ∑ X ⩽ x P k F\left(x

用函数来描述概率

天大地大妈咪最大 提交于 2020-01-18 18:56:00
1、引入随机变量 样本空间内的概率事件都能定义唯一的一个数与之对应,把事件数字化,这些数也变得有概率性。这些数就是随机变量。 当把随机变量定义为数轴上的一个数时,我们也称之为一维随机变量。用大写的X表示。 当研究一维随机变量X时,引入随机变量的分布函数。 2、随机变量的分布 对于数轴上的某个数,研究其分布时就引入了该函数式:(x表示数轴上的数) p={X<=x} 这个函数式表达的是: 当数轴上的全体实数x(小写x)从负无穷向正无穷移动时,通过不等式X<=x计算出的值就是随机变量X不断出现的概率值。 当移动的过程中,X随机变量出现的概率由不可能(概率=0)变为必然(概率=1) 随机变量的分布函数 F(x) = p{X<=x} x取值为负无穷到正无穷,取遍整个实数集。 连续型随机变量某个点的概率值是测不出来的,其概率密度函数的积分为0; 一般情况下,概率分布函数用F(大写F)表示,概率密度函数用f(小写f)表示。 概率分布函数和概率密度函数的自变量都是数轴上的数。 连续型随机变量的分布函数是累加函数 与离散型随机变量分布不同,连续型随机变量的分布的某点分布是无意义的,其值为积分值。也要区别与离散随机变量的分布律。 概率分布函数 = 概率密度函数的定积分 3、常见随机变量分布类型 一、伯努利一次实验(0-1分布) 二、伯努利n次实验(二项分布) 三、伯努利首中即停止实验(几何分布) 四