正态分布 | 易学教程

行人检测论文笔记：Pedestrian Detection - An Evaluation of the State of the Art

阅读更多关于行人检测论文笔记：Pedestrian Detection - An Evaluation of the State of the Art

知识点对数正态分布（lognormally distributed）：对数为正态分布的任意随机变量的概率分布。如果 X 是正态分布的随机变量，则 exp(X)为对数正态分布. 如果 Y 是对数正态分布，则 ln(Y) 为正态分布。如果一个变量可以看作是许多很小独立因子的乘积，则这个变量可以看作是对数正态分布。对数正态分布的概率密度函数为：对数平均：对数平均与几何平均相等，并且比算数平均，对于对数正态分布数据的典型值更具代表性二个数字的对数平均小于其算术平均，大于几何平均，若二个数字相等，对数平均会等于算数平均及几何平均。 Histogram of Oriented Gradients for Objection Detection.(HOG)步骤： Sampling positive images Sampling negative images Training a Linear SVM Performing hard-negative mining Re-training your Linear SVM using the hard-negative samples Evaluating your classifier on your test dataset, utilizing non-maximum suppression to ignore

第九章-EM算法

阅读更多关于第九章-EM算法

从第九章开始，学习总结的东西有所不同了，第2-8章是分类问题，都属于监督学习，第9章EM算法是非监督学习。本文主要是总结EM算法的应用以及处理问题的过程和原理推导。 EM算法 EM算法(期望极大算法 expectation maximization algorithm) 是一种迭代算法。当我们面对概率模型的时候，既有观测变量，又含有隐变量或者潜在变量。如果概率模型的变量都是观测变量，那么给定数据，可以直接使用极大似然估计法或者贝叶斯估计模型估计参数，但是，当模型含有隐变量的时候，就不能简单地这样估计，此时，在1977年，Dempster等人总结提出EM算法： E步：求期望(expectation);M步：求极大值(maximization) 。 \[ 输入：观测变量数据Y，隐变量数据Z，联合分布P(Y,Z|\theta)，条件分布P(Z|Y,\theta)。\\ 输出：模型参数\theta。\\ (1)选择参数的初值\theta^{(0)}，开始迭代。\\ (2)**E步：**记\theta^{(i)}为第i次迭代参数\theta的估计值，在第i+1次迭代的E步，\\计算\begin{aligned} Q(\theta,\theta^{(i)}) =& E_Z\big[\ln P(Y,Z|\theta) | Y, \theta^{(i)}\big] \

19 误差分布曲线的建立 - 高斯导出误差正态分布

阅读更多关于 19 误差分布曲线的建立 - 高斯导出误差正态分布

事实上，棣莫弗早在1730年~1733年间便已从二项分布逼近的途径得到了正态密度函数的形式，到了1780年后，拉普拉斯也推出了中心极限定理的一般形式，但无论是棣莫弗，还是拉普拉斯，此时他们这些研究成果都还只是一个数学表达式而非概率分布，也就是压根就还没往误差概率分布的角度上去思索，而只有到了1809年，高斯提出“正太误差”的理论之后，它正太理论才得以“概率分布“的身份进入科学殿堂，从而引起人们的重视。追本溯源，正态分布理论这条大河的源头归根结底是测量误差理论。那高斯到底在正态分布的确立做了哪些贡献呢？请看下文。 1801年1月，天文学家Giuseppe Piazzi发现了一颗从未见过的光度8等的星在移动，这颗现在被称作谷神星（Ceres）的小行星在夜空中出现6个星期，扫过八度角后在就在太阳的光芒下没了踪影，无法观测。而留下的观测数据有限，难以计算出他的轨道，天文学家也因此无法确定这颗新星是彗星还是行星，这个问题很快成了学术界关注的焦点。高斯当时已经是很有名望的年轻数学家了，这个问题也引起了他的兴趣。高斯一个小时之内就计算出了行星的轨道，并预言了它在夜空中出现的时间和位置。1801年12月31日夜，德国天文爱好者奥伯斯(Heinrich Olbers)在高斯预言的时间里，用望远镜对准了这片天空。果然不出所料，谷神星出现了！高斯为此名声大震

几个贝叶斯估计的例题

阅读更多关于几个贝叶斯估计的例题

几个贝叶斯估计的例题　　以下例题来自《机器学习导论》，书中证明不是很全也没有推导过程，所以我补全了解答。贝叶斯估计 Dirichlet分布已知方差的正态分布正态分布　　　　此时不再是共轭后验先验分布了，会得到一个t分布，由于涉及的特殊函数积分和自由度计算的数学技巧比较高，所以我没能补全证明。数学好的同学可以尝试一下，虽然我联系概率统计的知识看看结论觉得很显然可以理解，但是我自己没有动手算过。来源： CSDN 作者： pku_zzy 链接： https://blog.csdn.net/PKU_ZZY/article/details/74295673

数据分析实战(二)

阅读更多关于数据分析实战(二)

数据集地址提取码: us2a Age: 年龄，指登船者的年龄 Fare: 价格，指船票价格 Embark: 登船的港口 Q1: 按照港口分类，使用python求出各类数据年龄、票价格的统计量(均值、方差、标准差、变异系数等) import pandas as pd data = pd.read_excel("D:\data\data.xlsx") data = data.set_index("ID") portS = data[data["Embarked"]=="S"] portC = data[data["Embarked"]=="C"] portQ = data[data["Embarked"]=="Q"] portS_age = portS["Age"] portS_fare = portS["Fare"] portC_age = portC["Age"] portC_fare = portC["Fare"] portQ_age = portQ["Age"] portQ_fare = portQ["Fare"] port_details = pd.DataFrame({"均值":[portS_age.mean(),portC_age.mean(),portQ_age.mean(),portS_fare.mean(),portC_fare.mean(),portQ_fare

异常检测(2)——基于概率统计的异常检测（1）

阅读更多关于异常检测(2)——基于概率统计的异常检测（1）

　　某个工厂生产了一批手机屏幕，为了评判手机屏幕的质量是否达到标准，质检员需要收集每个样本的若干项指标，比如大小、质量、光泽度等，根据这些指标进行打分，最后判断是否合格。现在为了提高效率，工厂决定使用智能检测进行第一步筛选，质检员只需要重点检测被系统判定为“不合格”的样本。　　智能检测程序需要根据大量样本训练一个函数模型，也许我们的第一个想法是像监督学习那样，为样本打上“正常”和“异常”的标签，然后通过分类算法训练模型。假设x test 是数据样本，predict(x test )来判断x test 是否是合格样本。某个偷懒的家伙写下了这样的代码： def predict(xtest): return 1 　　由于工厂的质量管理过硬，仅有极少数不合格样本，因此这段荒唐的预测居然展现出极高的准确率！这是由于严重的数据偏斜导致的，或许我们可以通过查准率（Precision）和召回率（Recall）两个指标识别出这段不负责任的代码，但是当你再次试图使用某个监督学习算法时，仍然会面对同样的问题——仅有极少数不合格样本，以至于监督学习无法学到足够的知识。能否从极度偏斜的数据中学习出一个有效的检测模型呢？当然能，这就是基于统计的异常检测。这类方法通常会假设给定的数据集服从一个随机分布模型，将与模型不一致的样本视为异常样本。其中最常用的两种分布模型是一元正态分布模型和多元正态分布模型。

【深度学习】深入理解Batch Normalization批标准化

阅读更多关于【深度学习】深入理解Batch Normalization批标准化

这几天面试经常被问到BN层的原理，虽然回答上来了，但还是感觉答得不是很好，今天仔细研究了一下Batch Normalization的原理，以下为参考网上几篇文章总结得出。　　Batch Normalization作为最近一年来DL的重要成果，已经广泛被证明其有效性和重要性。虽然有些细节处理还解释不清其理论原因，但是实践证明好用才是真的好，别忘了DL从Hinton对深层网络做Pre-Train开始就是一个经验领先于理论分析的偏经验的一门学问。本文是对论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》的导读。　　机器学习领域有个很重要的假设： IID独立同分布假设，就是假设训练数据和测试数据是满足相同分布的，这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。那BatchNorm的作用是什么呢？ BatchNorm就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的。　　接下来一步一步的理解什么是BN。　　为什么深度神经网络随着网络深度加深，训练起来越困难，收敛越来越慢？这是个在DL领域很接近本质的好问题。很多论文都是解决这个问题的，比如ReLU激活函数，再比如Residual Network

几大分布函数

阅读更多关于几大分布函数

目录 1、0-1分布（两点分布、伯努利分布） 2、几何分布 3、二项分布 4、高斯分布（正态分布） 5、卡方分布（chi-square distribution） 6、t分布单个二值型离散随机变量的分布，概率分布函数： 2、几何分布离散型概率分布，定义为：n次伯努利试验中，试验k次才能得到一次成功的机率。即前k-1次皆失败，第k次成功的概率。概率分布函数： 3、二项分布 n次伯努利试验，各次试验之间相互独立，每次试验只有两种可能（抛硬币），相互对立。设事件发生的概率是P，不发生的概率是1-P，n次重复独立试验中发生K次的概率： 4、高斯分布（正态分布）随机变量X服从数学期望为μ，方差为σ2的正态分布，记为N(μ，σ2)。 μ决定正态分布的位置。标准差决定正态分布的幅度。性质：标准正态分布：μ=0，σ=1。性质： Φ(x)=1-Φ(-x) 5、卡方分布（chi-square distribution）若n个相互独立的随机变量ξ₁，ξ₂，...,ξn ，均服从标准正态分布 N(0,1) （也称独立同分布于标准正态分布），则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量，其分布规律称为卡方分布（chi-square distribution）。随机变量：记为：其中参数称为自由度，自由度不同就是另一个分布。

概率论与数理统计总结

阅读更多关于概率论与数理统计总结

前置知识： \(1.\) 高中数学相关知识。 \(2.\) 高等数学（微分，定积分，不定积分，泰勒展开，极限等）定积分常用计算方式：牛顿—莱布尼兹公式：（ \(F()\) 为 \(f()\) 的原函数，即 \(F^{'}()=f()\) ） \[ \int_a^b{f(x)dx}=F(b)-F(a) \] 泰勒中值定理 \(1\) ： \(f(x)=f(x_0)+f'(x_0)(x-x_0)+\frac{f''(x_0)}{2!}(x-x_0)^2+...+\frac{f^{(n)}(x_0)}{n!}(x-x_0)^n+R_n(x)\) ，满足 \(f(x)\) 在 \(x_0\) 处有 \(n\) 阶导数， \(x\) 为 \(x_0\) 的一个邻域中的任意值， \(R_n(x)=o((x-x_0))^n\) 称为佩亚诺余项。泰勒中值定理 \(2\) ： \(f(x)=f(x_0)+f'(x_0)(x-x_0)+\frac{f''(x_0)}{2!}(x-x_0)^2+...+\frac{f^{(n)}(x_0)}{n!}(x-x_0)^n+R_n(x)\) ，满足 \(f(x)\) 在 \(x_0\) 的某一邻域中有 \(n+1\) 阶导数， \(x\) 为 \(x_0\) 该邻域中的任意值， \(R_n(x)=\frac{f^{n+1}(\xi)}{(n+1)!}(x

高斯混合模型（GMM）

阅读更多关于高斯混合模型（GMM）

据上次博客已经2周多了，一直没写，惭愧。一、高斯模型简介首先介绍一下单高斯模型(GSM)和高斯混合模型(GMM)的大概思想。 1.单高斯模型如题，就是单个高斯分布模型or正态分布模型。想必大家都知道正态分布，这一分布反映了自然界普遍存在的有关变量的一种统计规律，例如身高，考试成绩等；而且有很好的数学性质，具有各阶导数，变量频数分布由 μ、σ 完全决定等等，在许多领域得到广泛应用。在这里简单介绍下高斯分布的概率密度分布函数: 其中 θ= ( μ,σ 2 ); 2.高斯混合模型注：在介绍GMM的时候，注意跟K-means的相似点 K个GSM混合成一个GMM，每个GSM称为GMM的一个component，也就是分为K个类，与K-means一样，K的取值需要事先确定，具体的形式化定义如下：其中，是样本集合中k类被选中的概率：，其中z=k指的是样本属于k类，那么可以表示为 ,很显然，y是观测数据。这里如果我们事先知道每个样本的分类情况，那么求解GMM的参数非常直观，如下表示：假设有K个类，样本数量分别为 N 1 ,N 2 ,…,N k 且 N 1 +N 2 +…+N k =N，即有观测数据，第k个分类的样本集合表示为S(k)，那么公式（2）中的三个参数可以表示为：这样是理想情况，例如给你一堆人类的身高的数据，以及对应的性别，那么这个就是估计两个分量的高斯混合模型

订阅正态分布