概率论

Batch Normalization

心已入冬 提交于 2019-12-03 02:36:43
Batch Normalization作为最近一年来DL的重要成果,已经广泛被证明其有效性和重要性。虽然有些细节处理还解释不清其理论原因,但是实践证明好用才是真的好,别忘了DL从Hinton对深层网络做Pre-Train开始就是一个经验领先于理论分析的偏经验的一门学问。 本文是对论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》的导读(看看看, 这是通过减少内部协变量移位加速神经网络训练)。 机器学习领域有个很重要的假设:IID独立同分布假设,就是假设训练数据和测试数据是满足相同分布的,这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。那BatchNorm的作用是什么呢?BatchNorm就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的(相同分布是怎样的?是什么的相同分布?参数吗?)。 接下来一步一步的理解什么是BN。 为什么深度神经网络随着网络深度加深,训练起来越困难,收敛越来越慢?这是个在DL领域很接近本质的好问题。很多论文都是解决这个问题的,比如ReLU激活函数,再比如Residual Network,BN本质上也是解释并从某个不同的角度来解决这个问题的(这个解释还是很妙的)。

PRML学习笔记第一章

匿名 (未验证) 提交于 2019-12-03 00:41:02
【转】 模式识别的目标 自动从数据中发现潜在规律,以利用这些规律做后续操作,如数据分类等。 模型选择和参数调节 类似的一族规律通常可以以一种模型的形式为表达,选择合适模型的过程称为模型选择(Model Selection)。模型选择的目的只是选择模型的形式,而模型的参数是未定的。 从数据中获得具体规律的过程称为训练或学习,训练的过程就是根据数据来对选定的模型进行参数调节(Parameter Estimation)的过程,此过程中使用的数据为训练数据集(Training Set)。 对于相同数据源的数据来讲,规律应该是一般的(泛化Generalization),因此评估一个学习结果的有效性可以通过使用测试数据集(Testing Set)来进行的。 预处理 对于大多数现实中的数据集来讲,使用其进行学习之前,通常需要进行预处理,以提高学习精度及降低学习的开销。 以图像识别为例,若以像素做为一个特征,往往一幅图像的特征就能达到几万的数量级,而很多特征(如背景色)都是对于图像辨识起不到太大作用的,因此对于图像数据集,预处理过程通常包括维数约减(特征变换,特征选择),仅保留具有区分度的特征。 文本数据分类任务中,对训练文本也有类似的处理方式,只不过此时扮演特征的是单词,而不是像素值。 监督学习和非监督学习 输入向量(input vector): ,响应向量(target vector):

信息论、贝叶斯及机器学习

匿名 (未验证) 提交于 2019-12-03 00:34:01
信息论及贝叶斯 引言 1956年,让机器来做聪明的事情的科学被称为“人工智能”。直到1997年,人类才创造出来能下象棋的电脑并打败了世界冠军。通过这样的一个例子及数字计算机的发展历史表明,感知其实是一个很难解决的问题。但是,我们的脑却能够很简单的解决这个问题,这是否意味着,数字计算机不是人脑的一个好隐喻?或者,我们需要为计算机的运行找新的运算方式? 同时信息论的发展使得我们看到物理事件和电脉冲是如何转化为精神事件和讯息的。但是,在其最初表达中存在一个根本的问题。一条信息中的信息量,或者更通俗的说,任何刺激中的信息量完全由那个刺激源来决定,这种界定信息的方法看上去很完美,实际上会产生自相矛盾的结果。 比如在图像的处理中,图片是由像素点组成的,以此形成不同的颜色。比如看这样一张图片,它是一张简单的以白色为背景的黑色正方形的图片,这张图片中的哪些要素含有最多的信息?当我们的眼睛扫过一个颜色不变的区域的时候, 因为没有任何的改变,就不会产生任何的惊奇感。而当我们眼睛扫到边缘的时候,颜色突然变化,我们就会感到“惊奇”。因此,根据信息论,图片的边缘所含的信息量是最大的,这和我们的直觉也确实是相符的,假如我们用轮廓来代替这个 物体,换句话说,只留下有信息的边缘,我们仍然能够认出这个物体。 但是,这种表述实际上是自相矛盾的,按照这种界定,当我们用眼睛扫一幅图片的时候,我们预测不到接下来会发生什么

概率论有感

匿名 (未验证) 提交于 2019-12-03 00:34:01
概率论反应出人的一种普遍思维方式: 从过去发生事物的规律中归纳出常识,经验,定律。再用这些归纳出的结论预测未来。 前半句可以对应参数估计,后半句对应通常的随机变量的概率计算(分布已知)。 在参数估计中,凭借大量的样本来估计概率函数的参数,其实不仅是参数,连分布也是通过大量的样本总结得到的。通过过去样本得到的分布,再来预测未来的样本。 文章来源: 概率论有感

数理统计二(概率论)

匿名 (未验证) 提交于 2019-12-03 00:27:02
一,条件概率 1. 概念 事件A已发生的条件下事件B发生的概率。(记为P(B|A)) 2. 定义 设A、B是两个事件,且P(A)>0,称 P ( B / A ) = P ( A B ) P ( A ) P ( B / A ) = P ( A B ) P ( A ) 为事件A发生的条件下事件B发生的条件概率。 二,乘法定理 1、定义:设P(A)>0,则有 P(AB)=P(B|A)P(A) 称 为乘法公式。 2、推广: P(ABC)=P(C|AB)P(B|A)P(A) 三,全概率公式和贝叶斯公式 1、样本空间的划分 (1)定义:设S为试验E的样本空间,B1,B2,…,Bn为E的一组事件。若 (Ⅰ) BiBj=ф,i≠j,i,j=1,2,…,n; (Ⅱ)B1∪B2 ∪ … ∪ Bn=S 则称B1,B2,…,Bn为样本空间S的一个划分。 (2)举例:设试验E为“掷一颗骰子观察点数”,它的样本空间为 S={1,2,3,4,5,6}。 E的一组事件B1={1,2,3}, B2={4,5}, B3={6}是S的一个划分。 2、全概率公式 (1)定义:设试验E的样本空间S,A为E的事件, B 1 , B 2 , … , B n B 1 , B 2 , … , B n 为S的一个划分,且 P ( B i ) > 0 ( i = 1 , 2 , … , n ) , P ( B i ) > 0 ( i

基于朴素贝叶斯分类的多因子选股

匿名 (未验证) 提交于 2019-12-02 23:42:01
你和我之前的人生, 就像是来自同一个分布族的共轭曲线, 即使有各自的参数空间, 也注定要相识相念。 你和我之后的人生, 是我们相扶相持下不离不弃的最大似然, 用“信任与珍惜”的先验去修正所有后验, 用“包容和分享”的样本去做无悔一生的推断。 这是朴素的贝叶斯思想, 也是我们朴素的爱情宣言 贝叶斯(Thomas Bayes,1701―1761),这个十八世纪伦敦的长老会牧师和业余数学家,41岁时因介绍并捍卫牛顿的微积分学而加入英国皇家学会。 他曾经为了证明上帝的存在,发明了概率统计学原理,虽然他这一美好愿望至死也未能实现,生前也并没有发表过自己的数学学说。但是,贝叶斯逝世后,好友Richard Price搜集了他的手稿,使概率统计学的贝叶斯理论终于公布于世的。可能贝叶斯生前也并未预料,自己作为业务数学家的手稿竟在一百多年后对二十世纪后的各类现代科学一次次地推波助澜,使得无数现代科学家不得不回头学习贝叶斯理论将其纳入自己的研究体系。 所谓的贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章,在贝叶斯写这篇文章之前,人们已经能够计算“正向概率”,如“假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大”。而一个自然而然的问题是反过来:“如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后

概率论知识点(不定期持续更新)

匿名 (未验证) 提交于 2019-12-02 22:56:40
1.互斥事件和独立事件 比如,投两次硬币,第一次正面朝上,第二次背面朝上。两者互为独立事件,却不互为互斥事件。 2.C和A的计算 C是从n个中取出r个,不用排序,所以小一点,要除以r的阶乘;A是从n个中取出r个,且排序,所以大一点。 3.中奖几率 抽签或抽奖,无论采用有放回抽取还是无放回抽取,先抽和后抽的中奖几率都一样。 4.蒲丰(Buffon)问题 这个问题是几何概型问题,全域为影响因素范围的乘积,作用域是满足要求的范围的积分。 5.条件概率 (1)概率的乘法公式 (2)全概率公式 (3)贝叶斯公式(P24页的例题) (4)全概率公式和贝叶斯公式两个常用的形式(当n=2时)(P26的例题) 6.多个事件互相独立 两两独立不一定相互独立,但相互独立一定两两独立。 7.伯努利(Bernoulli)概型 只关心某个事件是否发生的试验称为伯努利试验。一个伯努利试验独立地做n(n>=2)次,n个试验合在一起称为n重伯努利试验。 8.二项分布的性质 当x=(n+1)p的时候,P{X=x}取到最大值 9.泊松定理 P44 10.常见的连续型随机变量及其分布 (1)均匀变量及其分布 (2)指数变量及其分布 (3)正态变量及其分布 原文: https://www.cnblogs.com/yuanninesuns/p/9368630.html

概率论基本概念详解

白昼怎懂夜的黑 提交于 2019-12-02 10:53:07
详解概率与期望的概念 本篇随笔简单讲解一下数学中的概率和期望的相关内容,并致力于对概率期望在信息学奥林匹克竞赛中的应用。建议阅读本篇博客并希望从中弄懂概率和期望相关内容的读者现行具备一定的(不低于初中)的统计学相关知识。了解一定的数学知识(尽量不低于初三--高一)。 概念集锦 1、随机现象 在一定的条件下,并不总是出现相同的结果的现象称为随机现象。 就是在同一条件下出现很多种不同的结果。 比如在一个固定的时间段,乘坐公交车的人数可能会不同。这就是一个随机现象。 2、随机变量 表示随机现象的各种结果的变量叫做随机变量。 比如在一个固定的时间段,乘坐公交车的乘客人数。(哈哈哈还是上面的例子) 比较数学的一个说法:设一个随机现象的所有可能结果做一个基本空间 \(\Omega\) ,随机变量 \(X\) 是定义在 \(\Omega\) 上的取值为实数的函数。这是个映射的关系,也就是对于这个基本空间 \(\Omega\) 的所有可能结果,都有一个值在实轴上与之对应。 怎么去理解这个东西呢?还是上面这个例子,如果定义 \(X\) 为八点到九点中乘坐公交车的乘客人数。那么 \(X\) 就是个随机变量。它会有很多种可能的结果。对于每个结果, \(X\) 有分别不同的取值。这就是一个映射的对应关系。 3、随机事件 在概率论中,将实验的结果称之为事件。在每次实验中,可能发生也可能不发生的事件

概率论与数理统计学习笔记——第十六讲——二元随机变量,离散型随机变量分布律

ε祈祈猫儿з 提交于 2019-12-02 09:09:57
1. 引例 2. 二元随机变量 3. 二元离散型随机变量 4. 离散型随机变量的联合概率分布律 5. 离散型随机变量的联合概率分布律的性质 6. 离散型随机变量的联合概率分布律示例 来源: https://blog.csdn.net/hpdlzu80100/article/details/102748685