参数估计

数据挖掘经典算法概述以及详解链接

不想你离开。 提交于 2019-11-26 21:47:42
po主最近在学习数据挖掘方面相关算法,今天就在这里总结一下数据挖掘领域的经典算法,同时提供每个算法的详解链接,就当做在这里温习吧。对于熟悉的算法我会有较多的描述,不熟悉的算法可能描述较少,以免误导,但是会贴出学习的链接。由于本人也是资历尚浅,必然有错误的地方,也希望大家能够指出来,我也会改正的,谢谢大家。 数据挖掘方面的算法,主要可以用作 分类,聚类,关联规则,信息检索,决策树,回归分析 等。他们的界限并不是特别的明显,常常有交叉,如聚类算法在一定程度上也是一种分类算法。分类算法比较成熟,并且分支也较多。 这里先介绍两个概念: 监督学习 与 非监督学习 。通俗一点说,如果我们提前设置一些标签,然后对于每个待分类项根据一定规则分类到某些标签,这就是 监督学习 。如果我们提前不知道标签,而是通过一定的统计手段将一定量的数据,分成一个个类别,这就是 非监督学习 ,通常用作“聚类”(不绝对)。当然监督学习常用作分类学习,也可用作回归分析等。 1.K-Means算法 K-Means算法是一种常用的 非监督学习 聚类算法,也常用在图像检索领域,如K-Means+BoF算法。它的作用就是我们可以在不知道有哪些类别的情况下,将数据以K个 类心 ,聚成K个 聚类 。 通常我们会先确定一个相异度度量方法,常用的相异度有, 欧氏距离,曼哈顿距离,马氏距离,余弦距离 等。根据两个数据之间的“距离

详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解(转)

99封情书 提交于 2019-11-26 15:16:42
声明:本文为原创文章,发表于nebulaf91的csdn博客。欢迎转载,但请务必保留本信息,注明文章出处。 本文作者: nebulaf91 本文原始地址:http://blog.csdn.net/u011508640/article/details/72815981 频率学派与贝叶斯派 在说极大似然估计(Maximum Likelihood Estimate)与最大后验概率估计(Maximum A Posteriori estimation)之前,不得不说对于概率看法不同的两大派别频率学派与贝叶斯派。他们看待世界的视角不同,导致他们对于产生数据的模型参数的理解也不同。 ① 频率学派 他们认为世界是确定的。他们直接为事件本身建模,也就是说事件在多次重复实验中趋于一个稳定的值p,那么这个值就是该事件的概率。 他们认为模型参数是个定值,希望通过类似解方程组的方式从数据中求得该未知数。这就是频率学派使用的参数估计方法-极大似然估计(MLE),这种方法往往在大数据量的情况下可以很好的还原模型的真实情况。 ② 贝叶斯派 他们认为世界是不确定的,因获取的信息不同而异。假设对世界先有一个预先的估计,然后通过获取的信息来不断调整之前的预估计。 他们不试图对事件本身进行建模,而是从旁观者的角度来说。因此对于同一个事件,不同的人掌握的先验不同的话,那么他们所认为的事件状态也会不同。

变分贝叶斯(Variational Bayes)

安稳与你 提交于 2019-11-26 15:01:20
此文公式图片不全。详见博客: http://www.blog.huajh7.com/variational-bayes/ 【关键字】平均场理论,变分法,贝叶斯推断,EM算法,KL散度,变分估计,变分消息传递 引言 · 从贝叶斯推断说起 Question : 如果我们有一组观测数据D,如何推断产生这些数据的模型m? 模型由1)模型的类别ξ(如高斯分布,伽马分布,多项式分布等)与2)模型的参数Θ共同决定,即 . 模型的选择 假设M为所有可能的模型集合(包括不同类别),那么选择 如何计算p(m | D)? 通常情况很难直接计算p(m | D),根据贝叶斯公式有 ,p(m)表示模型的先验,p(D | m)表示证据; 先验:贝叶斯规则倾向于选择能解释数据的最简单模型:Occam剃刀原理。因为简单模型只在有限范围内做预测,复杂模型(如有更多自由参数)能对更宽范围做预测。 那么如何计算证据(evidence) ? 参数θ的后验概率为 证据p(D | m)通常会在最可能的参数 附近有一个很强的峰。 以一维参数为例:利用Laplace方法近似,即用被积函数 乘以其宽度 。即 。 此处不在深究Occam因子。 从模型的选择可以看出参数的估计非常重要。 考虑同一个类别的模型。由于任何模型(函数)都可以由统一的数学形式给出,比如拉格朗日展开,傅里叶极数,高斯混合模型(GMM)等

EM 算法

蹲街弑〆低调 提交于 2019-11-26 11:37:18
这个暂时还不太明白,先写一点明白的。 EM:最大期望算法,属于基于模型的聚类算法。是对似然函数的进一步应用。 我们知道,当我们想要估计某个分布的未知值,可以使用样本结果来进行似然估计,进而求最大似然估计就可以估计出要求的参数。 但是有时候还会有未知参数,这样就不能使用极大似然估计。当然这个参数与我们要估计的参数是有关联的。 比如说调查 男生 女生身高的问题。身高肯定是服从高斯分布。以往我们可以通过对男生抽样进而求出高斯分布的参数,女生也是,但是如果我们只能知道某个人的高度,却不能知道他是男生或者女生(隐含变量),这时候就无法使用似然函数估计了。这个时候就可以使用EM方法。 分为E和M两步: 在E步的时候首先通过随机赋值一个我们要求的参数,然后求出另外一个隐含参数的后验概。 在M步的时候用求出来的隐含参数的后验概率进行对传统的似然函数估计,对要求参数进行修正。迭代直到前后两次要求的参数一样为止。 转载于:https://www.cnblogs.com/GuoJiaSheng/p/3892467.html 来源: https://blog.csdn.net/weixin_30680385/article/details/98825778

MLE MAP EM

泄露秘密 提交于 2019-11-26 11:35:58
1.最大似然估计 (MLE): 什么是最大似然估计? 问题:给定一组观察数据还有一个参数待定的模型,如何来估计这个未知参数呢? 观察数据(x 1, y 1 )......(x n, y n ) 待定模型参数为θ,模型为f(x;θ)。这时候可以借助观察数据来估计这个θ。 这就是最大似然函数估计。 举个例子: 假设我们有一个袋子,里面装着白球和黑球,但是我们不知道他们分别有多少个,这时候需要我们估计每次取出一个球是白球的概率是多少?如何估计呢? 可以通过连续有放回的从袋子里面取一百次,看看是白球还是黑球。假设取100次里面 白球占70次,黑球30次。设抽取是白球的概率为P。 那么一百次抽取的总概率为 p(x;p) p(x;p)=p(x 1, x 2....... x 100;θ )=p(x 1 ; θ )* p(x 2 ; θ )........ p(x 100 ; θ ) =p 70 *(1-p) 30 那么这时候我们希望可以使这个概率最大。 求导: logp(x;p)=log p 70 *(1-p) 30 另导数为0则可以求出p=0.7(同理可以用到连续变量里面,这时候就是概率密度函数的乘积so easy) 是不是很简单,对!就是这么简单!其实最大似然估计就是在 给定一组数据和一个待定参数模型,如何确定这个模型未知参数,使得这个确定后的参数模型产生的已知数据概率最大

MLE MAP EM

喜欢而已 提交于 2019-11-26 11:35:51
1.最大似然估计 (MLE): 什么是最大似然估计? 问题:给定一组观察数据还有一个参数待定的模型,如何来估计这个未知参数呢? 观察数据(x 1, y 1 )......(x n, y n ) 待定模型参数为θ,模型为f(x;θ)。这时候可以借助观察数据来估计这个θ。 这就是最大似然函数估计。 举个例子: 假设我们有一个袋子,里面装着白球和黑球,但是我们不知道他们分别有多少个,这时候需要我们估计每次取出一个球是白球的概率是多少?如何估计呢? 可以通过连续有放回的从袋子里面取一百次,看看是白球还是黑球。假设取100次里面 白球占70次,黑球30次。设抽取是白球的概率为P。 那么一百次抽取的总概率为 p(x;p) p(x;p)=p(x 1, x 2....... x 100;θ )=p(x 1 ; θ )* p(x 2 ; θ )........ p(x 100 ; θ ) =p 70 *(1-p) 30 那么这时候我们希望可以使这个概率最大。 求导: logp(x;p)=log p 70 *(1-p) 30 另导数为0则可以求出p=0.7(同理可以用到连续变量里面,这时候就是概率密度函数的乘积so easy) 是不是很简单,对!就是这么简单!其实最大似然估计就是在 给定一组数据和一个待定参数模型,如何确定这个模型未知参数,使得这个确定后的参数模型产生的已知数据概率最大