概率论

概率论与数理统计图式(第三章 多维随机变量)

瘦欲@ 提交于 2019-12-01 04:24:46
概率论与数理统计图式(第三章 多维随机变量) 1、二位随机变量及其分布 1)二维随机变量定义 设随机试验E 的样本空间为Ω,对于每一样本点ω∈Ω ,有两个实数 X (Ω), Y (Ω) 与之对应,称它们构成的有序数组 ( X , Y ) 为 二维随机变量。 注:对二维随机变量( X, Y )来说, X,Y 都是定义在Ω上的一维随机变量. 2)联合分布函数 (1)联合分布函数几何意义 平面随机点( X, Y ) 落入以(x, y)为顶点的左下方区域的概率。 (2)联合分布函数的性质 单调不减性 非负有界性 右连续性 相容性    3)边缘分布函数 (1)定义:称X、Y各自 的分布函数 FX(x) 与 FY(y) 为( X, Y ) 的边缘分布函数。 (2)由联合分布函数可确定边缘分布函数: 2、联合分布律 用边缘分布律不一定能确定联合分布律! 原因:多维随机变量的联合分布不仅与每个变量的边缘分布有关,而且还与每个变量之间的联系有关!两个随机变量X,Y不等同于二维随机变量(X,Y)! 3、联合概率密度 (1)联合概率密度的物理解释:概率在(x, y)处的面密度. (2)联合概率密度曲面 (3)f(x)满足 对边缘概率密度的求解,实质上是求带参变量的积分。 难点: 积分上下限的确定! 可通过图形来帮助解决这个问题。 来源: https://www.cnblogs.com

19 误差分布曲线的建立 - 高斯导出误差正态分布

半城伤御伤魂 提交于 2019-11-29 18:34:47
事实上,棣莫弗早在1730年~1733年间便已从二项分布逼近的途径得到了正态密度函数的形式,到了1780年后,拉普拉斯也推出了中心极限定理的一般形式,但无论是棣莫弗,还是拉普拉斯,此时他们这些研究成果都还只是一个数学表达式而非概率分布,也就是压根就还没往误差概率分布的角度上去思索,而只有到了1809年,高斯提出“正太误差”的理论之后,它正太理论才得以“概率分布“的身份进入科学殿堂,从而引起人们的重视。 追本溯源,正态分布理论这条大河的源头归根结底是测量误差理论。那高斯到底在正态分布的确立做了哪些贡献呢?请看下文。 1801年1月,天文学家Giuseppe Piazzi发现了一颗从未见过的光度8等的星在移动,这颗现在被称作谷神星(Ceres)的小行星在夜空中出现6个星期,扫过八度角后在就在太阳的光芒下没了踪影,无法观测。而留下的观测数据有限,难以计算出他的轨道,天文学家也因此无法确定这颗新星是彗星还是行星,这个问题很快成了学术界关注的焦点。高斯当时已经是很有名望的年轻数学家了,这个问题也引起了他的兴趣。高斯一个小时之内就计算出了行星的轨道,并预言了它在夜空中出现的时间和位置。1801年12月31日夜,德国天文爱好者奥伯斯(Heinrich Olbers)在高斯预言的时间里,用望远镜对准了这片天空。果然不出所料,谷神星出现了! 高斯为此名声大震

几个贝叶斯估计的例题

心不动则不痛 提交于 2019-11-29 03:22:18
几个贝叶斯估计的例题   以下例题来自《机器学习导论》,书中证明不是很全也没有推导过程,所以我补全了解答。 贝叶斯估计 Dirichlet分布 已知方差的正态分布 正态分布      此时不再是共轭后验先验分布了,会得到一个t分布,由于涉及的特殊函数积分和自由度计算的数学技巧比较高,所以我没能补全证明。数学好的同学可以尝试一下,虽然我联系概率统计的知识看看结论觉得很显然可以理解,但是我自己没有动手算过。 来源: CSDN 作者: pku_zzy 链接: https://blog.csdn.net/PKU_ZZY/article/details/74295673

异常检测(2)——基于概率统计的异常检测(1)

放肆的年华 提交于 2019-11-28 22:39:41
  某个工厂生产了一批手机屏幕,为了评判手机屏幕的质量是否达到标准,质检员需要收集每个样本的若干项指标,比如大小、质量、光泽度等,根据这些指标进行打分,最后判断是否合格。现在为了提高效率,工厂决定使用智能检测进行第一步筛选,质检员只需要重点检测被系统判定为“不合格”的样本。   智能检测程序需要根据大量样本训练一个函数模型,也许我们的第一个想法是像监督学习那样,为样本打上“正常”和“异常”的标签,然后通过分类算法训练模型。假设x test 是数据样本,predict(x test )来判断x test 是否是合格样本。某个偷懒的家伙写下了这样的代码: def predict(xtest): return 1    由于工厂的质量管理过硬,仅有极少数不合格样本,因此这段荒唐的预测居然展现出极高的准确率!这是由于严重的数据偏斜导致的,或许我们可以通过查准率(Precision)和召回率(Recall)两个指标识别出这段不负责任的代码,但是当你再次试图使用某个监督学习算法时,仍然会面对同样的问题——仅有极少数不合格样本,以至于监督学习无法学到足够的知识。能否从极度偏斜的数据中学习出一个有效的检测模型呢?当然能,这就是基于统计的异常检测。这类方法通常会假设给定的数据集服从一个随机分布模型,将与模型不一致的样本视为异常样本。其中最常用的两种分布模型是一元正态分布模型和多元正态分布模型。

【深度学习】深入理解Batch Normalization批标准化

霸气de小男生 提交于 2019-11-28 15:38:33
这几天面试经常被问到BN层的原理,虽然回答上来了,但还是感觉答得不是很好,今天仔细研究了一下Batch Normalization的原理,以下为参考网上几篇文章总结得出。   Batch Normalization作为最近一年来DL的重要成果,已经广泛被证明其有效性和重要性。虽然有些细节处理还解释不清其理论原因,但是实践证明好用才是真的好,别忘了DL从Hinton对深层网络做Pre-Train开始就是一个 经验领先于理论分析 的偏经验的一门学问。本文是对论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》的导读。   机器学习领域有个很重要的假设: IID独立同分布假设 ,就是假设训练数据和测试数据是满足相同分布的,这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。那BatchNorm的作用是什么呢? BatchNorm就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的。   接下来一步一步的理解什么是BN。   为什么深度神经网络 随着网络深度加深,训练起来越困难,收敛越来越慢? 这是个在DL领域很接近本质的好问题。很多论文都是解决这个问题的,比如ReLU激活函数,再比如Residual Network

概率论概念总结

你。 提交于 2019-11-28 13:52:42
随机变量   何谓随机变量?即给定样本空间 ,其上的实值函数 称为(实值)随机变量。 期望   离散随机变量的一切可能值与其对应的概率P的乘积之和称为数学 期望 方差   一个随机变量的方差(Variance)描述的是它的离散程度,也就是该变量离其期望值的距离 协方差   在概率论和统计学中用于衡量两个变量的总体误差。而 方差 是 协方差 的一种特殊情况,即当两个变量是相同的情况。 相关系数   衡量随机变量X与Y相关程度的一种方法,相关系数的取值范围是[-1,1]。相关系数的绝对值越大,则表明X与Y相关度越高。当X与Y线性 时,   相关系数取值为1(正线性相关)或-1(负线性相关)。 中心极限定理  心极限定理说明,在适当的条件下,大量相互独立 随机变量 的均值经适当标准化后 依分布收敛 于 正态分布 。这组定理是 数理统计学 和误差分析的理   论基础,指出了大量随机变量之和近似服从正态分布的条件。并且呈正态分布。 贝叶斯公式    P ( h ∣ D ) = P ( h ) P ( D ∣ h )/ P ( D ) ​    贝叶斯定理 是关于随机事件A和B的条件概率的一则定理。其中P是在B发生的情况下A发生的可能性 ,把x关于y的后验概率,转换成了y关于x的后验概率和先验概率,简单说,把不好计算的条件概率转换为好计算的条件概率 全概率公式 设实验E的样本空间为S

概率论与数理统计

百般思念 提交于 2019-11-28 12:57:28
原文引用 https://www.dazhuanlan.com/2019/08/25/5d6226dd86e0b/ 第一章 概率论的基本概念 随机试验 的全部可能结果组成的集合S称为 样本空间 。样本空间S的子集称为 事件 。当且仅当这一子集中的一个样本点出现时,称这一事件发生。事件是一个集合,因而事件间的关系与事件的运算自然按照集合论中集合之间的关系和集合的运算来处理。 在一次试验中,一个事件(除必然事件与不可能事件外)可能发生也可能不发生,其发生的可能性的大小是客观存在的。事件发生的频率以及它的稳定性,表明能用一个数来表征事件在一次试验中发生的可能性大小。我们从频率的稳定性及频率的性质得到启发和抽象,给出了概率的定义。 我们定义了一个集合(事件)的函数P(.),它满足三条基本性质: 非负性 规范性 可列可加性 这一函数的函数值P(A)就定义为事件A的 概率 。 概率的定义只给出概率必须满足的三条基本性质,并未对事件A的概率P(A)给定一个具体的数。只在古典概型的情况,对于每个事件A给出了概率P(A)=k/n的,一般,我们可以进行大量的重复试验,得到事件A的频率,而以频率作为P(A)的近似值。或者根据概率的性质分析,得到P(A)的取值。 在古典概型中我们证明了条件概率的公式: $$ P(B|A) = frac{P(AB)}{P(A)} , P(A) > 0. $$

数据挖掘十大算法(九):朴素贝叶斯 python和sklearn实现

大憨熊 提交于 2019-11-28 09:16:59
第三个算法终于算是稍有了解了,其实当你结合数据了解了它的实现原理后,你会发现确实很朴素。这里对朴素贝叶斯算法做一个介绍和总结,包括( 原理、一个代码示例、sklearn实现 ),皆为亲自实践后的感悟,下面进入正文。 原理: 首先我们需要了解概率论的一些简单知识: 最后推导出的就是贝叶斯公式,这里说一下我的感悟:上面的公式如果就这样不结合数据来看,是很容易理解的,我用了几分钟便了解了这个高中学过的东西。但是在我将它和实际数据之间联系起来时,却花了几个小时。毕竟得到一个公式只是基础,如果不能在数据上运用得当那也是无用武之地。下面就这个问题说一下: 朴素贝叶斯的原理: 根据一些先验概率计算Y变量属于某个类别的后验概率 先验概率: 是指现有数据根据以往的经验和分析得到的概率 后验概率: 事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小 一个通俗的理解: 你求出了你在百思图买了一双白鞋的概率,那么如何得知你买了一双白鞋而这双白鞋就在百思图的概率呢。 这就是利用先验概率来求得后验概率的问题,再拿一个数据说明(引入他人的): 上表中的信息反映的是某P2P企业判断其客户是否会流失(churn),而影响到该变量的因素包含年龄、性别、收入、教育水平、消费频次、支持。那根据这样一个信息,我该如何理解朴素贝叶斯的思想呢?再来看一下朴素贝叶斯公式: 从公式中可知

几大分布函数

余生颓废 提交于 2019-11-27 19:29:55
目录 1、0-1分布(两点分布、伯努利分布) 2、几何分布 3、二项分布 4、高斯分布(正态分布) 5、卡方分布 (chi-square distribution) 6、t分布 单个二值型离散随机变量的分布,概率分布函数: 2、几何分布 离散型概率分布,定义为:n次伯努利试验中,试验k次才能得到一次成功的机率。即前k-1次皆失败,第k次成功的概率。 概率分布函数: 3、二项分布 n次伯努利试验,各次试验之间相互独立,每次试验只有两种可能(抛硬币),相互对立。设事件发生的概率是P,不发生的概率是1-P,n次重复独立试验中发生K次的概率: 4、高斯分布(正态分布) 随机变量X服从数学期望为μ,方差为σ2的正态分布,记为N(μ,σ2)。 μ决定正态分布的位置。 标准差决定正态分布的幅度。 性质: 标准正态分布:μ=0,σ=1。 性质: Φ(x)=1-Φ(-x) 5、卡方分布 (chi-square distribution) 若n个相互独立的随机变量ξ₁,ξ₂,...,ξn ,均服从 标准正态分布 N(0,1) (也称独立同分布于标准 正态分布 ),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)。 随机变量 : 记为: 其中参数 称为 自由度 ,自由度不同就是另一个 分布。