概率分布

Localization

折月煮酒 提交于 2020-04-04 06:53:40
Localization (using Histogram Filters) 定位指的是在传感器和移动之间来回的迭代,使得能够保持跟踪目标对象的位置、方向和速度。 这篇将写一个程序来实施定位,与GPS相比,这个的程序将极大的降低误差范围。 假设一个汽车或者机器人所处在一个一维世界,它在没有得到任何提示在哪一位置。通过一个函数对这个问题建模,纵轴表概率,横轴表这个一维世界里所有位置,利用一个当值函数给这个一维世界每一个地方分配相同权重。 为了定位必须引入其他特征,假设有三个看起来相似的门,可以从非门区域 区分一扇门,(brlief = 信度),机器人感受到了它在一扇门的旁边,它分配这些地点更大的概率。门的度量改变了信度函数,得到新函数像这样,三个临近门的位置信度递加,其他所有地方信度递减,posterior bilief 表示它是在机器人进行感测测量后定义的。 如果机器人移动了,那么凸起的信度也会随之移动(所在位置的概率),而且凸起会因为机器人只是粗略地知道移动了多远而变得扁平化,这个过程叫卷积,卷积就是两个函数或措施的重叠,具体的说是一个函数划过另一个函数的重叠占比,介于0~1之间(CONVOLUTION 卷积) 假设汽车或机器人发现它的右边再一次靠近一扇门,此时在先于第二次测量的信度上乘以一个函数,函数如下,它在每一扇门下都有一个很小的凸起,但却有一个非常大的凸起

数据类型与数据分布

流过昼夜 提交于 2020-04-03 14:54:05
1.离解数据与离散分布 离解数据通常是那些只能用整数表现的数据。比如某省的人口数,宇宙中单位体积内的星球个数等。 1.1统计中常见的描述离散型数据的离散分布: 1.退化分布: 一个随机变量X以概率1取某一常数,即 P{X=a}=1,则称X服从a处的退化分布。确定分布。 2. 两点分布 : 一个随机变量只有两个可能取值, 设其分布为 P { X = x 1 } = p , P { X = x 2 } = 1 - p , 0 < p < 1, 则称 X 服从 x 1 , x 2 处参数为 p 的两点分布。 当如果 X只取 0 , 1两个值, 其概率分布为P { X = 1} = p , P { X = 0} = 1 - p , 0 < p < 1。则称 X服从参数为 p的 0 - 1分布 , 也称 X是参数为 p的伯努利随机变量. 此时EX = p , DX = p (1 - p)。【抛一枚硬币】 3.n个点上的均匀分布: 设随机变量X取n个没不同的值,且其概率分布为 P { X = x i } = 1/n,(i=1,2,3,...,n),则称X服从n个点{x1,x2,...,xn}上的均匀分布。【抛一枚骰子】 古典概型中经常出现此类分布情形。 4. 二项分布 :n重伯努利试验,成功k次的概率分布。 【判断是否为伯努利试验的关键是每次试验事件A的概率不变

【译】使用SQL生成非均匀随机数

不羁岁月 提交于 2020-03-21 22:34:27
正如”随机数的生成过程非常重要因此我们不能对其视而不见”(引自Robert R -橡树岭国家实验室),我们希望占用您一点点宝贵的时间在基于SQL Server MVP Jeff Moden 的成果的基础上完成这项工作。对于使用SQL来产生随机数来说,我们会重点讲解从均匀分布随机数(non-uniformly distributed random numbers)的基础上生成非均匀分布随机数(uniformly distributed random numbers);包括一些统计分布的基础来帮你起步。 正如我们所知,随机数在仿真中非常重要(尤其是 蒙特卡洛仿真法 ),还有随机数在 密码学 以及其它高科技领域中也扮演了同样重要的角色。除此之外在我们的SQL Server中有时也需要产生大量的随机数据来测试SQL的性能。 因为我并不是统计学家,因此我们这里仅仅来看用SQL生成并且能显而易见的看出其随机性的的随机数字,而并不会深入到数学原理来看这个随机性是真正的“随机”还是“貌似随机”我们的意图是文章中算法的正确性以及这个算法在非关键领域是否足够使用。 通常来说,由 均匀随机数转换成非均匀随机数 的技术是将均匀随机数乘以 累计分布函数(CDF) 对于目标数据的反转。但在实践中,累计分布函数是否针对特定分布存在有效哪怕是接近的函数并不好估计。但幸运的是

贝叶斯、概率分布与机器学习

浪子不回头ぞ 提交于 2020-03-21 06:39:35
本文由LeftNotEasy原创,可以转载,但请保留出处和此行,如果有商业用途,请联系作者 wheeleast@gmail.com 一. 简单的说贝叶斯定理: 贝叶斯定理用数学的方法来解释生活中大家都知道的常识 形式最简单的定理往往是最好的定理,比如说中心极限定理,这样的定理往往会成为某一个领域的理论基础。机器学习的各种算法中使用的方法,最常见的就是贝叶斯定理。 贝叶斯定理的发现过程我没有找到相应的资料,不过我相信托马斯.贝叶斯(1702-1761)是通过生活中的一些小问题去发现这个对后世影响深远的定理的,而且我相信贝叶斯发现这个定理的时候,还不知道它居然有这么大的威力呢。下面我用一个小例子来推出贝叶斯定理: 已知:有N个苹果,和M个梨子,苹果为黄色的概率为20%,梨子为黄色的概率为80%,问,假如我在这堆水果中观察到了一个黄色的水果,问这个水果是梨子的概率是多少。 用数学的语言来表达,就是已知P(apple) = N / (N + M), P(pear) = M / (N + M), P(yellow|apple) = 20%, P(yellow|pear) = 80%, 求P(pear|yellow). 要想得到这个答案,我们需要 1. 要求出全部水果中为黄色的水果数目。 2. 求出黄色的梨子数目 对于1) 我们可以得到 P(yellow) * (N + M), P

t分布, 卡方x分布,F分布

非 Y 不嫁゛ 提交于 2020-03-12 02:32:01
T分布:温良宽厚 本文由“医学统计分析精粹”小编“Hiu”原创完成,文章采用知识共享Attribution-NonCommercial-NoDerivatives 4.0国际许可协议(http://creativecommons.org/licenses/by-nc-nd/4.0/)进行许可,转载署名需附带本号二维码,不可用于商业用途,不允许任何修改,任何谬误建议,请直接反馈给原作者,谢谢合作! 命名与源起 “t”,是伟大的Fisher为之取的名字。Fisher最早将这一分布命名为“Student's distribution”,并以“t”为之标记。 Student,则是William Sealy Gosset(戈塞特)的笔名。他当年在爱尔兰都柏林的一家酒厂工作,设计了一种后来被称为t检验的方法来评价酒的质量。因为行业机密,酒厂不允许他的工作内容外泄,所以当他后来将其发表到至今仍十分著名的一本杂志《Biometrika》时,就署了student的笔名。所以现在很多人知道student,知道t,却不知道Gosset。(相对而言,我们常说的正态分布,在国外更多的被称为高斯分布……高斯~泉下有知的话,说不定会打出V字手势~欧耶!) 看懂概率密度图 这一点对于初学者尤为重要,相信还是有不少人对正态分布或者t分布的曲线没有确切的理解。 首先,我们看一下频率分布直方图,histogram:

统计1:概述

て烟熏妆下的殇ゞ 提交于 2020-03-07 06:57:13
概率论是人们在长期实践中发现的理论,是客观存在的。自然界和社会上发生的现象是多种多样的,有一类现象,在一定条件下必然发生,称作确定性现象,而概率论研究的现象是不确定性现象,嗯嗯,醒醒,概率论研究的对象是 随机现象 。那什么是随机现象呢?在个别试验中呈现出不确定性,而在大量重复实验中呈现出固有规律性的现象,称作随机现象,在大量重复实验中所呈现的固有规律,是统计规律性,也就是概率。 一,概率和频率 在提到概率之前,不得不说频率。对于一个随机事件来说,在一次试验中可能发生,也可能不发生,那么,如何表征事件在一次试验中发生的可能性大小呢?为了解答这个问题,引入了频率。频率描述了事件发生的频繁程度,频率越大,事件发生的越频繁,这意味着事件在一次试验中发生的可能性越大。我们定义,概率表征事件在一次试验中发生的可能性大小,因此,可从频率引出概率。 大数定理和中心极限定理是概率论的基本理论。大数定理论证了频率具有稳定性,中心极限定理表明了正态分布是普遍适用的。 概率是事件的固有规律,必须是稳定的一个数值,频率具有稳定性吗?在长期实践中,当试验次数不断增大时,事件发生的频率稳定在一个值附近,这一客观事实证明频率具有稳定性。 伯努利大数定理 用数学公式证明了频率的稳定性,因此,在实际应用中,当试验次数很大时,可以用事件的频率来代替事件的概率,用于表征事件发生的可能性大小。

概率统计笔记1

孤街醉人 提交于 2020-02-17 02:25:04
二项分布 n次独立随机试验,成功概率p,定义变量X,表示成功的次数k( κ ∈ [ 0 , n ] ),则分布P(X=k): p ( k ) = ( n k ) p k p n − k 特别的例子就是,抛硬币.做100次抛硬币试h验(抛10次硬币)你会发现这一百次的试验,所记录的k次成功,k有高,有低,(0,10)之间.直觉告诉我,这个k的分布接近正态分布. 当日常说,人的智商接近正态分布.随机变量是由什么的随机事件映射成? - 这里的数学thoughts 1. Events Algebra.Set Theory. complex events → simplified events.something like ,多项式化简. 2. Probability measure not just about ∑ , 0 ≤ P ( A ) ≤ 1 ,它们只是表示的符号.内容,比如0,1之间,事件的和的概率是事件概率的和;才是概率测度的属性.这个公理和欧几里得公理一样,也是历史的归纳得出.和我们计算组合数一样也是归纳出来的. 3. Reflection 随机变量random variable X ( u ) : u → R 其中 U ( u ) ⊂ Ω . - distribution function: F ( x ) = P ( X < x ) , − ∞ < x < + ∞

常见概率分布图表总结

这一生的挚爱 提交于 2020-02-13 07:40:58
摘要:   1.算法概述   2.算法推导   3.算法特性及优缺点   4.注意事项   5.实现和具体例子   6.适用场合   7.与NB,pLSA比较 内容: 1.算法概述: 先贴一段维基百科中关于主题模型的描述,便于大家理解我们接下来要做什么: 主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。 直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。比方说,如果一篇文章是在讲狗的,那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的,那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是,一篇文章通常包含多种主题,而且每个主题所占比例各不相同。因此, 如果一篇文章10%和猫有关,90%和狗有关,那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。 一个主题模型试图用数学框架来体现文档的这种特点。 主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。 接下来细化LDA的主题模型表示: 共有m篇文章,一种设计了k(超参数)个主题; 每篇文章都有自己的主题分布(先验的认为是多项分布),该主题分布的参数服从参数为阿勒法的Dirchlet分布;

通俗理解LDA主题模型

回眸只為那壹抹淺笑 提交于 2020-02-12 04:57:22
通俗理解LDA主题模型 0 前言 印象中,最開始听说“LDA”这个名词,是缘于rickjin在2013年3月写的一个LDA科普系列,叫LDA数学八卦,我当时一直想看来着,记得还打印过一次,但不知是由于这篇文档的前序铺垫太长( 如今才意识到这些“铺垫”都是深刻理解LDA 的基础,但假设没有人帮助刚開始学习的人提纲挈领、把握主次、理清思路,则非常easy陷入LDA的细枝末节之中 ),还是由于当中的数学推导细节太多,导致一直没有完整看完过。 2013年12月,在我组织的Machine Learning读书会 第8期 上,@夏粉_百度 讲机器学习中排序学习的理论和算法研究。@沈醉2011 则讲主题模型的理解。又一次碰到了主题模型,当时貌似仅仅记得沈博讲了一个汪峰写歌词的样例。依旧没有理解LDA究竟是怎样一个东西(但理解了LDA之后。再看沈博主题模型的 PPT 会非常赞)。 直到昨日下午。 机器学习班 第12次课上,邹讲完LDA之后,才真正明确LDA原来是那么一个东东!上完课后,趁热打铁,再次看LDA数学八卦,发现曾经看不下去的文档再看时居然一路都比較顺畅。一口气看完大部。看完大部后,思路清晰了。知道理解LDA。能够分为下述5个步骤: 一个函数:gamma函数 四个分布:二项分布、多项分布、beta分布、Dirichlet分布 一个概念和一个理念:共轭先验和贝叶斯框架 两个模型:pLSA

随机采样方法整理与讲解(MCMC、Gibbs Sampling等)

拟墨画扇 提交于 2020-02-11 20:02:39
http://www.tuicool.com/articles/fqEf6f 本文是对参考资料中多篇关于sampling的内容进行总结+搬运,方便以后自己翻阅。其实参考资料中的资料写的比我好,大家可以看一下!好东西多分享!PRML的第11章也是sampling,有时间后面写到PRML的笔记中去:) 背景 随机模拟也可以叫做蒙特卡罗模拟(Monte Carlo Simulation)。这个方法的发展始于20世纪40年代,和原子弹制造的曼哈顿计划密切相关,当时的几个大牛,包括乌拉姆、冯.诺依曼、费米、费曼、Nicholas Metropolis, 在美国洛斯阿拉莫斯国家实验室研究裂变物质的中子连锁反应的时候,开始使用统计模拟的方法,并在最早的计算机上进行编程实现。[3] 随机模拟中有一个重要的问题就是给定一个概率分布 p ( x ) ,我们如何在计算机中生成它的样本。一般而言均匀分布 U n i f o r m ( 0 , 1 ) 的样本是相对容易生成的。 通过线性同余发生器可以生成伪随机数,我们用确定性算法生成 [ 0 , 1 ] 之间的伪随机数序列后,这些序列的各种统计指标和均匀分布 U n i f o r m ( 0 , 1 ) 的理论计算结果非常接近。这样的伪随机序列就有比较好的统计性质,可以被当成真实的随机数使用。 下面总结这么几点: 1、蒙特卡洛数值积分 2、均匀分布