极大似然小结
在机器学习中,我们经常要利用极大似然法近似数据整体的分布,本篇文章通过介绍极大似然法及其一些性质,旨在深入浅出地解释清楚极大似然法。 0. 贝叶斯概率 首先看一下经典的贝叶斯公式: $$ p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)} $$ 其中,$p(Y)$称为先验概率($prior$),即根据先验知识得出的关于变量$Y$的分布,$p(X|Y)$称为似然函数($likelihood$),$p(X)$为变量$X$的概率,$p(Y|X)$称之为条件概率(给定变量$X$的情况下$Y$的概率,$posterior$,后验概率)。 1. 似然函数 似然,即可能性;顾名思义,则似然函数就是关于可能性的函数了。在统计学中,它表示了模型参数的似然性,即作为统计模型中参数的函数。一般形式如下: $$ L(\omega)=p(D | \omega) = p(x_1, x_2, \cdots ,x_n| \omega) $$ 其中,$D$表示样本集${x_1,x_2,\cdots, x_n}$, $\omega$表示参数向量。 似然函数表示了在不同的参数向量$\omega$下,观测数据出现的可能性的大小,它是参数向量$\omega$的函数。在某种意义上,我们可以认为其是条件概率的逆反$^{[1]}$。 在这里利用Wikipedia$^{[1]}$中的例子简要说明一下似然函数