二元变量(伯努利分布、二项式分布以及Beta分布)

跟風遠走 提交于 2020-01-17 22:48:28

概率分布(一)

参数分布

取这个名字是因为少量的参数可以控制整个概率分布。如高斯分布,我们只需要控制其期望和方差就可以得到一个特定的概率分布。

频率学家的观点:通过最优化某些准则(如似然函数)来确定参数的具体值。

贝叶斯观点:给定观察数据,先引入参数的先验分布,然后用贝叶斯定理计算对应的后验概率分布。共轭先验(conjugate prior)使后验概率的分布函数形式与先验概率相同,极大的简化了贝叶斯分析。

参数方法与非参数方法

参数方法是假定分布为某一个具体的函数形式,然后估计其参数。非参数方法则依赖数据集的规模。非参数方法中的模型也有参数,但不是用来控制模型的参数,而是用于控制模型的复杂度。

二元变量

伯努利分布(Bernoulli distribution)

考虑一个不均匀硬币,抛掷硬币时其正面朝上的概率由参数\(\mu \in [0,1]\)决定,则\(p(x=1|\mu)=\mu\)

伯努利分布可以表示为:
\[ Bern(x|\mu)=\mu^x(1-\mu)^{1-x} \]
其期望和方差为:
\[ E(x)=\mu \\ Var(x)=\mu(1-\mu) \]
对数似然函数为(\(D\)为数据集):
\[ \ln p(D|\mu)=\sum_{n=1}^N(x_n\ln\mu+(1-x_n)\ln(1-\mu))\\ \mu_{MLE}=\frac{m}{N} \]
\(m\)\(N\)次实验中硬币正面向上的次数。

二项分布(Binomial distribution)

由伯努利分布延伸,我们考虑抛掷\(N\)次硬币时正面向上的次数\(x\)的分布:
\[ Bin(x|N,\mu)=\dbinom{N}{x}\mu^x(1-\mu)^{N-x} \]
其中:
\[ \dbinom{N}{x} = \frac{N!}{(N-x)!x!} \]
表示从完全相同的\(N\)个物体中选出\(x\)个物体的方案数量。

由于多次实验之间相互独立,所以其期望和方差为伯努利分布期望和方差值的和:
\[ E(x)=N\mu \\ Var(x) =N\mu(1-\mu) \]

Beta分布

Beta分布是二项式分布的共轭先验分布。

在伯努利分布中给出的\(\mu\)的最大似然解对小规模的数据集会产生严重的过拟合结果。所以我们用贝叶斯观点,引入一个关于\(\mu\)的先验概率分布来解决这个问题。(就是说用下面的公式,通过似然函数与先验分布的乘积得到我们需要的结果,现在的问题就是如何找到合适的先验分布)

接下来介绍的基础知识可以去Gamma分布与共轭先验查找。

对于后验概率分布:
\[ p(\theta|x)=c_xL(\theta,x)p(\theta) \]
\(c_x\)\(x\)分布的导数,这里与\(\theta\)无关可以视为常数;\(L(\theta,x)\)为其最大似然函数;\(p(\theta)\)为先验概率分布。可以看出后验概率分布正比于似然函数和先验概率分布的乘积。

再观察伯努利分布的似然函数包含了\(\mu^x(1-\mu)^{1-x}\),所以我们要找到一个有这种形式的先验概率分布,那么得到的后验概率分布形式与先验相同,也叫共轭分布。

这时我们就找到了Beta分布(\(a\)\(b\)为超参数),可以简单记作\(a+b\)次实验得到了\(a\)次正例
\[ Beta(\mu|a,b)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1} \]
我们用第一项保证了Beta分布的归一化(再无其他作用),即:
\[ \int_0^1Beta(\mu|a,b)\,d\mu=1 \]
Beta分布的期望和方差为:
\[ E(\mu)=\frac{a}{a+b}\\ Var(\mu)=\frac{ab}{(a+b)^2(a+b+1)} \]
由此我们可以得到后验概率分布:
\[ p(\mu|x,N-x,a,b) \propto\mu^{x+a-1}(1-\mu)^{N-x+b-1} \]
为了归一化(使其积分为1),加入因子:
\[ p(\mu|x,N-x,a,b) =\frac{\Gamma(N+a+b)}{\Gamma(x+a)\Gamma(N-x+b)}\mu^{x+a-1}(1-\mu)^{N-x+b-1} \]
可以看到此时的期望为:\(\frac{x+a}{N+a+b}\),可以理解成在已经做了\(a+b\)次实验得到\(a\)次正面朝上的基础上,又做了\(N\)次实验,得到了\(x\)次正面朝上,这不过这里\(a,b\)不一定为整数。

延伸一下,在实时学习中,可以把现在的后验概率分布当作下一次观测的先验概率,在此基础上求出新的后验概率分布。

在平均情况下,后验的方差小于先验。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!