正态分布

透彻理解高斯分布

╄→гoц情女王★ 提交于 2020-04-07 19:48:44
正态分布是与中的定量现象的一个方便模型。各种各样的心理学测试分数和现象比如计数都被发现近似地服从正态分布。 开始前,先看几个重要概念: 概率函数: 把事件概率表示成关于事件变量的函数 概率分布函数: 一个随机变量ξ取值小于某一数值x的概率,这概率是x的函数,称这种函数为随机变量ξ的分布函数,简称分布函数,记作F(x),即F(x)=P(ξ<x) (-∞<x<+∞),由它并可以决定随机变量落入任何范围内的概率。 概率密度函数: 概率密度等于变量在一个区间(事件的取值范围)的总的概率除以该段区间的长度。 概率密度函数是一个描述随机变量在某个确定的取值点附近的可能性的函数。 概率分布函数与概率密度函数的关系: 连续型随机变量X的概率分布函数F(x),如果存在非负可积函数f(x),使得对任意实数x,有 f(x)为X的概率密度 高斯分布 通过概率密度函数来定义高斯分布: 高斯分布的概率密度函数是: 均值为μ,标准差为σ 高斯分布的概率分布函数是: 高斯分布标准差在概率密度分布的数据意义 高斯分布重要量的性质 密度函数关于平均值对称 平均值是它的众数(statistical mode)以及中位数(median) 函数曲线下68.268949%的面积在平均值左右的一个标准差范围内 95.449974%的面积在平均值左右两个标准差2σ的范围内 99.730020

中心极限定理概念理解与记忆

痴心易碎 提交于 2020-03-29 15:12:00
在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,总的影响可以看作是服从正态分布的. 取n个随机变量,假设最终符合上述结论——满足正态分布的思想,那么用正态分布的思想来将其化为标准正态分布: 取n个随机变量,求这n个随机变量的样本之和(假设每个随机变量取一个样本), 预备知识:正常情况下(((正态分布的随机变量)再减去(其期望值))/其标准差)得到的变量就是标准正态分布; 现在我们已经假设我们取到的(n个随机变量)满足正态分布,并且每一个随机变量的方差和期望值都相同(n个随机变量独立同分布,并没有要求一定是正态分布); 则((n个随机变量样本值的和)再减去(n倍的随机变量期望值))/(n个随机变量的标准差))就是最后得到的符合标准正态分布的随机变量; 上面只是从已经知道结论的情况下反推公式,因为最后满足正态分布的结论实在比过程好记多了,关于n个随机变量的标准差是(根号n倍的随机变量的标准差)解释如下:(n个随机变量的方差相加)再整体开根号,由于括号里提出一个n之后,再开根号必然有个根号n; 重在理解,盖如是也。 来源: https://www.cnblogs.com/hongdoudou/p/12592243.html

创建和使用闭包

巧了我就是萌 提交于 2020-03-23 13:18:35
函数内部定义的函数称为闭包(closure)。闭包的特点是在其函数体中,可以使用局部 参数,也可以使用其父环境中的变量。 举个例子,假设我们有如下函数: add <- function(x, y) { x + y } 此函数有两个参数。每次调用 add( ) 函数时,都需要提供这两个参数。如果使用闭 包,就可以生成带有事先指定参数的特殊版本。在下一节中,我们将创建一个简单的闭包。 1.创建一个简单的闭包 现在我们创建一个名为 addn( ),包含一个参数 y 的函数。此函数不执行加法运算, 而是在其内部创建一个子函数,并将 y 加到其参数 x 上: addn <- function(y) { function(x) { x + y } } 这里大家可能需要多想几遍才能理解,addn( ) 函数并不会像一般函数那样返回一个 数值,而是返回一个闭包,即定义在一个函数内部的函数。此闭包计算 x+y 的值,其中 x 是 局部参数,y 是其封闭环境中的参数。换句话说,addn( ) 并不是一个“计算器”,而是 一个产生“计算器”的“计算器工厂”。 函数工厂使我们能够创建专用的计算函数。例如,可以创建两个函数,给一个数值向 量分别加上 1 和 2: add1 <- addn(1) add2 <- addn(2) 这两个函数的作用就相当于 add(x, y) 的第 2 个参数 y 分别固定为 1

t分布, 卡方x分布,F分布

非 Y 不嫁゛ 提交于 2020-03-12 02:32:01
T分布:温良宽厚 本文由“医学统计分析精粹”小编“Hiu”原创完成,文章采用知识共享Attribution-NonCommercial-NoDerivatives 4.0国际许可协议(http://creativecommons.org/licenses/by-nc-nd/4.0/)进行许可,转载署名需附带本号二维码,不可用于商业用途,不允许任何修改,任何谬误建议,请直接反馈给原作者,谢谢合作! 命名与源起 “t”,是伟大的Fisher为之取的名字。Fisher最早将这一分布命名为“Student's distribution”,并以“t”为之标记。 Student,则是William Sealy Gosset(戈塞特)的笔名。他当年在爱尔兰都柏林的一家酒厂工作,设计了一种后来被称为t检验的方法来评价酒的质量。因为行业机密,酒厂不允许他的工作内容外泄,所以当他后来将其发表到至今仍十分著名的一本杂志《Biometrika》时,就署了student的笔名。所以现在很多人知道student,知道t,却不知道Gosset。(相对而言,我们常说的正态分布,在国外更多的被称为高斯分布……高斯~泉下有知的话,说不定会打出V字手势~欧耶!) 看懂概率密度图 这一点对于初学者尤为重要,相信还是有不少人对正态分布或者t分布的曲线没有确切的理解。 首先,我们看一下频率分布直方图,histogram:

卷积核与特征提取

試著忘記壹切 提交于 2020-03-11 19:55:34
原文地址: https://www.cnblogs.com/zongfa/p/9130167.html 线性滤波与卷积的基本概念 线性滤波可以说是图像处理最基本的方法,它可以允许我们对图像进行处理,产生很多不同的效果。做法很简单。首先,我们有一个二维的滤波器矩阵(有个高大上的名字叫卷积核)和一个要处理的二维图像。然后,对于图像的每一个像素点,计算它的邻域像素和滤波器矩阵的对应元素的乘积,然后加起来,作为该像素位置的值。这样就完成了滤波过程。 对图像和滤波矩阵进行逐个元素相乘再求和的操作就相当于将一个二维的函数移动到另一个二维函数的所有位置,这个操作就叫卷积或者协相关。卷积和协相关的差别是,卷积需要先对滤波矩阵进行180的翻转,但如果矩阵是对称的,那么两者就没有什么差别了。 Correlation 和 Convolution可以说是图像处理最基本的操作,但却非常有用。这两个操作有两个非常关键的特点:它们是线性的,而且具有平移不变性shift-invariant。平移不变性指我们在图像的每个位置都执行相同的操作。线性指这个操作是线性的,也就是我们用每个像素的邻域的线性组合来代替这个像素。这两个属性使得这个操作非常简单,因为线性操作是最简单的,然后在所有地方都做同样的操作就更简单了。 实际上,在信号处理领域,卷积有广泛的意义,而且有其严格的数学定义,但在这里不关注这个。

em-在高斯混合模型中的应用

时光怂恿深爱的人放手 提交于 2020-03-08 06:10:50
EM算法 EM算法的来源 李航的《统计学习方法一书》通过三硬币模型引入了对EM的用法,但是并没有讲解怎么通过EM算法推导出三硬币模型的递推公式。 从三硬币法开始讲起 三硬币模型 假设有三枚硬币A,B,C,硬币A以 π \pi π 的概率掷出正面,以 1 − π 1-\pi 1 − π 的概率掷出反面,硬币B以 p p p 的概率掷出正面,以 1 − p 1-p 1 − p 的概率掷出反面,硬币C以 q q q 的概率掷出正面,以 1 − q 1-q 1 − q 的概率掷出反面。定义以下规则:掷出硬币A,如果掷出正面,选择硬币B,记录掷出硬币B的结果;否则掷出硬币C,记录C的结果。记正面为1,反面为0,得到: 1 , 1 , 1 , 1 , 1 , 0 , 0 , 0 , 0 , 1 , 1 , 1 , 1 1,1,1,1,1,0,0,0,0,1,1,1,1 1 , 1 , 1 , 1 , 1 , 0 , 0 , 0 , 0 , 1 , 1 , 1 , 1 求 π \pi π 、 p p p 、 q q q 的最大似然估计。 这是一个典型的存在隐形变量的问题。即“硬币A的结果”是隐含变量,这里将硬币A的结果用 Z Z Z 表示,观测变量用 Y Y Y 表示,用 y i ∈ { 0 , 1 } y_i\in \{0,1\} y i ​ ∈ { 0 , 1 } 表示每一次掷出的结果

统计1:概述

て烟熏妆下的殇ゞ 提交于 2020-03-07 06:57:13
概率论是人们在长期实践中发现的理论,是客观存在的。自然界和社会上发生的现象是多种多样的,有一类现象,在一定条件下必然发生,称作确定性现象,而概率论研究的现象是不确定性现象,嗯嗯,醒醒,概率论研究的对象是 随机现象 。那什么是随机现象呢?在个别试验中呈现出不确定性,而在大量重复实验中呈现出固有规律性的现象,称作随机现象,在大量重复实验中所呈现的固有规律,是统计规律性,也就是概率。 一,概率和频率 在提到概率之前,不得不说频率。对于一个随机事件来说,在一次试验中可能发生,也可能不发生,那么,如何表征事件在一次试验中发生的可能性大小呢?为了解答这个问题,引入了频率。频率描述了事件发生的频繁程度,频率越大,事件发生的越频繁,这意味着事件在一次试验中发生的可能性越大。我们定义,概率表征事件在一次试验中发生的可能性大小,因此,可从频率引出概率。 大数定理和中心极限定理是概率论的基本理论。大数定理论证了频率具有稳定性,中心极限定理表明了正态分布是普遍适用的。 概率是事件的固有规律,必须是稳定的一个数值,频率具有稳定性吗?在长期实践中,当试验次数不断增大时,事件发生的频率稳定在一个值附近,这一客观事实证明频率具有稳定性。 伯努利大数定理 用数学公式证明了频率的稳定性,因此,在实际应用中,当试验次数很大时,可以用事件的频率来代替事件的概率,用于表征事件发生的可能性大小。

数据分析数据挖掘(一)

别说谁变了你拦得住时间么 提交于 2020-03-01 15:49:30
相信小伙伴已经会基本的数据处理了和可视化的问题了。我们现在要进行数据挖掘的学习了。 一、数据的类型: 模型:变量与变量之间的关系。 数据分析:根据变量类型和以顶的假设,来确定变量与变量之间的关系。 所有的模型都是错的,但有些是有用的。 二、数据分析和数据挖掘的关系: 1.数据的用途:记录、解释(理解)、预测、控制 2.数据分析:统计、相关、回归;已知模型下的参数估计 3.数据挖掘:发现知识;分类、聚类、回归 4.数据-信息-知识 三、概率 相信盼盼都会一些基础了,不会的话我可以再补充些更基础了。 1.条件概率:P(A|B)=P(AB)/P(B),从而可以知道若P(A)和P(B)都大于0则P(AB)=P(B)P(A|B)=P(A)P(B|A)。 2.全概率公式:设A1,A2…An是一个独立同分布的事件组,并且全部概率大于0,则对于B有,P(B)=P(A1)P(B|A1)+P(A2)P(B|A2)…+P(An)P(B|An),这个为全概率公式。 3.贝叶斯公式:设A1,A2…An是一个独立同分布的事件组,并且全部概率大于0,则对于B有,P(Am|B)=P(AmB)/P(B)=(P(Am)P(B|Am))/(P(A1)P(B|A1)+P(A2)P(B|A2)…+P(Ai)P(B|Ai)) 注意i是导致事件B发生的因素。 例子:一个学校的男女(C1,C2)比例是1:1

SLAM中的EKF,UKF,PF原理简介

拥有回忆 提交于 2020-02-27 05:17:01
这是我在知乎上问题写的答案,修改了一下排版,转到博客里。 原问题: 能否简单并且易懂地介绍一下多个基于滤波方法的SLAM算法原理? 目前SLAM后端都开始用优化的方法来做,题主想要了解一下之前基于滤波的方法,希望有大神能够总结一下各个原理(EKF,UKF,PF,FastSLAM),感激不尽。 作者:半闲居士 链接:https://www.zhihu.com/question/46916554/answer/103411007 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。   我怎么会写得那么长……如果您有兴趣可以和我一块把公式过一遍。   要讲清这个问题,得从状态估计理论来说。先摆上一句名言: 状态估计乃传感器之本质。(To understand the need for state estimation is to understand the nature of sensors.)   任何传感器,激光也好,视觉也好,整个SLAM系统也好,要解决的问题只有一个: 如何通过数据来估计自身状态。 每种传感器的测量模型不一样,它们的精度也不一样。换句话说,状态估计问题,也就是“ 如何最好地使用传感器数据 ”。可以说,SLAM是状态估计的一个特例。 1. 离散时间系统的状态估计   记机器人在各时刻的状态为 ,其中 是离散时间下标。在SLAM中

学习matlab(四)——概率与数理统计

风格不统一 提交于 2020-02-10 20:21:36
概率和数理统计是大学数学的重要内容,无论是在科学研究还是在工程实际中都有着非常广泛的应用。在MATLAB中,提供了专门的统计工具箱Staticstics,该工具箱有几百个专用于求解概率和数理统计问题的函数。本章将详细的介绍随机数的产生,随机变量的概率密度函数和数字特征,以及假设检验、方差分析和统计绘图等。 0.随机数 随机数的产生是概率统计的基础,概率论和数理统计就是对各种样本数据进行分析。在MATLAB中,各种样本数据可以用一些经典的随机分布数来表示。下面对常用的二项分布、均匀分布、指数分布、正态分布等随机数据进行详细的介绍。 <1>二项分布随机分布 在MATLAB中,使用函数binornd()产生二项分布的随机数据。该函数的的调用方式如下:R=binornd(N,P):在该函数中N和P为二项分布的两个参数,返回服从参数为N和P的二项分布随机数。R=binornd(N,P,M):在该函数中参数M指定随机数的个数,与返回结果R同维数。 <2>泊松分布 在MATLAB中,使用函数poissrnd()产生泊松分布的随机数据。该函数的调用方式如下:R=poissrnd(LAMBDA):在该函数中LAMBDA为泊松分布的参数,返回服从参数为LAMBDA的泊松分布随机数,其中R与LAMBDA维数相同。R=poissrnd(LAMBDA,M,N):在该函数中LAMBDA为泊松分布的参数