概率论

概率论与数理统计总结

耗尽温柔 提交于 2019-11-27 18:53:15
前置知识: \(1.\) 高中数学相关知识。 \(2.\) 高等数学(微分,定积分,不定积分,泰勒展开,极限等) 定积分常用计算方式:牛顿—莱布尼兹公式:( \(F()\) 为 \(f()\) 的原函数,即 \(F^{'}()=f()\) ) \[ \int_a^b{f(x)dx}=F(b)-F(a) \] 泰勒中值定理 \(1\) : \(f(x)=f(x_0)+f'(x_0)(x-x_0)+\frac{f''(x_0)}{2!}(x-x_0)^2+...+\frac{f^{(n)}(x_0)}{n!}(x-x_0)^n+R_n(x)\) ,满足 \(f(x)\) 在 \(x_0\) 处有 \(n\) 阶导数, \(x\) 为 \(x_0\) 的一个邻域中的任意值, \(R_n(x)=o((x-x_0))^n\) 称为佩亚诺余项。 泰勒中值定理 \(2\) : \(f(x)=f(x_0)+f'(x_0)(x-x_0)+\frac{f''(x_0)}{2!}(x-x_0)^2+...+\frac{f^{(n)}(x_0)}{n!}(x-x_0)^n+R_n(x)\) ,满足 \(f(x)\) 在 \(x_0\) 的某一邻域中有 \(n+1\) 阶导数, \(x\) 为 \(x_0\) 该邻域中的任意值, \(R_n(x)=\frac{f^{n+1}(\xi)}{(n+1)!}(x

[转]概率漫谈

懵懂的女人 提交于 2019-11-27 06:23:11
以下资料来自 Dahua 的博客,非常可惜后来该博客关闭了。 前一段时间,随着研究课题的深入,逐步研习现代概率理论,这是一个令人耳目一新的世界。这个世界实在太博大,我自己也在不断学习之中。这篇就算起一个头吧,后面有空的时候还会陆续写一些文章和大家分享我在学习过程中的思考。 概率论要解决的问题 概率论是很古老的数学分支了——探讨的是不确定的问题,就是说,一件事情可能发生,也可能不发生。然后,我们要预计一下,它有多大机会会发生,这是概率论要解决的问题。这里面要特别强调概率和统计的区别,事实上这个区别在很多文章里面被混淆了。举一个简单的例子,比如抛硬币。那么我们可以做两件事情: 我们预先知道抛硬币的过程是“平衡的”,也就是说出现正面的机会和出现背面的机会都是50%,那么,这就是我们的概率模型——这个简单的模型有个名字——伯努利试验(Bernoulli trial)。然后,我们可以预测,如果我们抛10000次硬币,那么正面和背面出现的次数大概各在5000次左右。这种执因“测”果的问题是概率论要解决的,它在事情发生之前进行。 我们预先不知道抛硬币的过程遵循什么法则。于是,我们先去做个实验,抛10000次硬币,数一下正面和反面各出现了多少次。如果各出现了5000次,那么我们可以有很高的信心去认为,这是一个“平衡的”硬币。如果正面出现9000次,反面出现1000次

朴素贝叶斯

被刻印的时光 ゝ 提交于 2019-11-27 05:11:56
《概率论》(当年我学习的课程为《概率论与数理统计》,涵盖了概率论与统计学)应该是每个理工科大学生都要学习的课程,不知道有多少同学和我一样,学得一头雾水。悲催的是,考研的时候又学习了一遍,依然不着门路,靠死记硬背过关。好在后面的学习和工作生涯中,再没有和它打过照面,直到最近开始接触机器学习。 《机器学习实战》第4章,开始介绍基于概率论的分类方法。其实《机器学习》这本书对贝叶斯决策论有比较详细的介绍,不过涉及到比较多的数学公式,比较难懂。而本书对程序员比较友好,只涉及很少的数学知识,更多的是通过程序来阐述这一算法。 条件概率 书中举了一个例子来阐述条件概率的概念。7块石头,3块是灰色的,4块是黑色的,放入两个桶A和B,A桶放4块石头(2块灰色,2块黑色),B桶放3块石头(1块灰色,2块灰色)。计算从B桶中取到灰色石头的概率的方法,就是所谓的条件概率。这里的已知条件是石头取自B桶且B桶有3块石头。用公式表示为: P(gray | bucketB) = P(gray and bucketB) / P(bucketB) 1 这个公式看起来不起眼,但却开启了一门新的理论,即通过先验知识和逻辑推理来处理不确定命题。另一种概率解释称为频数概率,它只从数据本身获取结论,并不考虑逻辑推理及先验知识。 另一种有效计算条件概率的方法称为贝叶斯准则。贝叶斯准则告诉我们如何交换条件概率中的条件和结果

从随机过程的熵率和马尔科夫稳态过程引出的一些思考 - 人生逃不过一场马尔科夫稳态

旧时模样 提交于 2019-11-26 19:21:01
1. 引言 0x1:人生就是一个马尔科夫稳态 每一秒我们都在做各种各样的选择,要吃青菜还是红烧肉、看电影还是看书、跑步还是睡觉,咋一看起来,每一个选择都是随机的,而人生又是由无数个这样的随机选择组成的结果。从这个前提往下推导,似乎可以得出一个结论,即人生是无常的,未来是不可预测的。但事实真的是如此吗? 以前的老人流行说一句话,三岁看小,七岁看老。这似乎是一句充满迷信主义色彩的俗语,但其实其中暗含了非常质朴而经典的理论依据,即随机过程不管其转移概率分布如何,随着时序的增大,最终会收敛在某个稳态上。用人话说就是:人在七岁时,其核心性格会定型,在今后的一生中,不管其经历了什么,最终都会殊途同归,到达同一个人生结局。 现在很流行一句话叫,性格决定命运。这句话从很多不同的学科中可以得到不同的解释,例如现代心理学会说性格的本质就是潜意识,而潜意识影响所有的思想和行为,进而影响了命运。社会行为学会说性格决定了你的人际网络拓朴结构与网络信息交互率等因素,而成功的人往往是那种同时占据了多个重要结构洞的关键人物,例如国家领导人或者公司高层。用信息论马尔柯夫随机过程的理论来解释就说,每个人的概率转移函数在很小的时候就会基本定型,对于每个人来说,出生、天赋这些都不是至关重要的因素,而相反,决定一个人最终能得到多少成就的决定因素是你的n,也即你能在多大程度上延伸生命的长度,生命周期n越长

变分贝叶斯(Variational Bayes)

安稳与你 提交于 2019-11-26 15:01:20
此文公式图片不全。详见博客: http://www.blog.huajh7.com/variational-bayes/ 【关键字】平均场理论,变分法,贝叶斯推断,EM算法,KL散度,变分估计,变分消息传递 引言 · 从贝叶斯推断说起 Question : 如果我们有一组观测数据D,如何推断产生这些数据的模型m? 模型由1)模型的类别ξ(如高斯分布,伽马分布,多项式分布等)与2)模型的参数Θ共同决定,即 . 模型的选择 假设M为所有可能的模型集合(包括不同类别),那么选择 如何计算p(m | D)? 通常情况很难直接计算p(m | D),根据贝叶斯公式有 ,p(m)表示模型的先验,p(D | m)表示证据; 先验:贝叶斯规则倾向于选择能解释数据的最简单模型:Occam剃刀原理。因为简单模型只在有限范围内做预测,复杂模型(如有更多自由参数)能对更宽范围做预测。 那么如何计算证据(evidence) ? 参数θ的后验概率为 证据p(D | m)通常会在最可能的参数 附近有一个很强的峰。 以一维参数为例:利用Laplace方法近似,即用被积函数 乘以其宽度 。即 。 此处不在深究Occam因子。 从模型的选择可以看出参数的估计非常重要。 考虑同一个类别的模型。由于任何模型(函数)都可以由统一的数学形式给出,比如拉格朗日展开,傅里叶极数,高斯混合模型(GMM)等