最大似然估计

最大似然估计与最大后验估计

只谈情不闲聊 提交于 2020-04-05 15:57:33
本文首发自公众号: RAIS ,公式显示错误请到: 这里 查看。 前言 本系列文章为 《Deep Learning》 读书笔记,可以参看原书一起阅读,效果更佳。 MLE VS MAP 最大似然函数(MLE)和最大后验概率估计(MAP)是两种完全不同的估计方法,最大似然函数属于频率派统计(认为存在唯一真值 θ),最大后验估计属于贝叶斯统计(认为 θ 是一个随机变量,符合一定的概率分布),这是两种认识方法的差异。模型不变,概率是参数推数据,统计是数据推参数。 最大似然估计 似然函数是一种关于模型中参数的函数,是根据模型的观测值,估计模型中参数的值。给定输出 x ,关于 θ 的似然函数 L(θ|x) 数值上等于给定参数 θ 后变量 X 的概率。其数学定义为: $$ L(θ|x)=f_θ(x)=P_θ(X=x) $$ 最大似然估计是其中的一种好的估计,在样本趋近于无穷时,最大似然是收敛率最好的渐进估计,且由于它的一致性和统计效率,在机器学习中也是首选的估计方法。在独立同分布情况下: $$ \hatθ_{MLE}=argmaxP(X;θ)=argmaxP(x_1;θ)P(x_2;θ)...P(x_n;θ) =argmax\log\prod_{i=1}^nP(x_i;θ)\\=argmax\sum_{i=1}^n\log P(x_i;θ) =argmin-\sum_{i=1}^n\log P

最大似然估计与最大后验估计

主宰稳场 提交于 2020-04-04 09:20:33
本文首发自公众号: RAIS ,公式显示错误请到: 这里 查看。 前言 本系列文章为 《Deep Learning》 读书笔记,可以参看原书一起阅读,效果更佳。 MLE VS MAP 最大似然函数(MLE)和最大后验概率估计(MAP)是两种完全不同的估计方法,最大似然函数属于频率派统计(认为存在唯一真值 θ),最大后验估计属于贝叶斯统计(认为 θ 是一个随机变量,符合一定的概率分布),这是两种认识方法的差异。模型不变,概率是参数推数据,统计是数据推参数。 最大似然估计 似然函数是一种关于模型中参数的函数,是根据模型的观测值,估计模型中参数的值。给定输出 x ,关于 θ 的似然函数 L(θ|x) 数值上等于给定参数 θ 后变量 X 的概率。其数学定义为: \[L(θ|x)=f_θ(x)=P_θ(X=x) \] 最大似然估计是其中的一种好的估计,在样本趋近于无穷时,最大似然是收敛率最好的渐进估计,且由于它的一致性和统计效率,在机器学习中也是首选的估计方法。在独立同分布情况下: \[\hatθ_{MLE}=argmaxP(X;θ)=argmaxP(x_1;θ)P(x_2;θ)...P(x_n;θ) =argmax\log\prod_{i=1}^nP(x_i;θ)\\\\=argmax\sum_{i=1}^n\log P(x_i;θ) =argmin-\sum_{i=1}^n\log P

线性回归:梯度下降

心不动则不痛 提交于 2020-01-19 05:51:29
目录: 1、什么是线性回归   1.1 理论模型   1.2 数据和估计 2、线性回归参数求解方法   2.1 直接求取参数   2.2 梯度下降法   2.3 随机梯度下降法 3、为什么选择最小二乘为评判标准   3.1 似然函数   3.2 求解极大似然函数   3.3 结论 1、什么是线性回归   线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。 1.1 理论模型   给一个随机样本 ,一个线性回归模型假设回归子 和回归量 之间的关系是除了X的影响以外,还有其他的变量存在。我们加入一个误差项 (也是一个随机变量)来捕获除了 之外任何对 的影响。所以一个多变量线性回归模型表示为以下的形式: 其他的模型可能被认定成非线性模型。一个线性回归模型不需要是自变量的线性函数。线性在这里表示 的条件均值在参数 里是线性的。例如:模型 在 和 里是线性的,但在 里是非线性的,它是 的非线性函数。 1.2 数据和估计   用矩阵表示多变量线性回归模型为下式:   其中 Y 是一个包括了观测值 的列向量, 包括了未观测的随机成份 以及回归量的观测值矩阵: 2、线性回归参数求解方法   

概率、统计、最大似然估计、最大后验估计、贝叶斯定理、朴素贝叶斯、贝叶斯网络

匆匆过客 提交于 2020-01-18 02:17:58
这里写自定义目录标题 概率和统计是一个东西吗? 概率函数与似然函数 最大似然估计(MLE) 最大后验概率估计 最大后验估计的例子 贝叶斯派观点 VS 频率派观点 贝叶斯定理 朴素贝叶斯分类器 朴素贝叶斯分类器实例 贝叶斯网络 贝叶斯网络的结构形式 因子图 从贝叶斯网络来观察朴素贝叶斯 概率和统计是一个东西吗? 概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反。 概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等)。 举个例子,我想研究怎么养猪(模型是猪),我选好了想养的品种、喂养方式、猪棚的设计等等(选择参数),我想知道我养出来的猪大概能有多肥,肉质怎么样(预测结果)。 统计是,有一堆数据,要利用这堆数据去预测模型和参数。 仍以猪为例。现在我买到了一堆肉,通过观察和判断,我确定这是猪肉(这就确定了模型。在实际研究中,也是通过观察数据推测模型是/像高斯分布的、指数分布的、拉普拉斯分布的等等),然后,可以进一步研究,判定这猪的品种、这是圈养猪还是跑山猪还是网易猪,等等(推测模型参数)。 一句话总结: 概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。 显然, 本文解释的MLE(最大似然估计)和MAP(最大后验估计)都是统计领域的问题。它们都是用来推测参数的方法(不是推测模型

参数估计:最大似然、贝叶斯与最大后验

房东的猫 提交于 2019-12-30 20:46:34
转:https://guangchun.wordpress.com/2011/10/13/ml-bayes-map/ 中国有句话叫“ 马后炮 ”, 大体上用在中国象棋和讽刺人两个地方,第一个很厉害,使对方将帅不得动弹,但这个跟我们今天说的基本没关系;第二个用途源于第一个,说事情都发生了再采取 措施,太迟了。但不可否认,我们的认知就是从错误中不断进步,虽然已经做错的不可能变得正确,但“来者尤可追”,我们可以根据既往的经验(数据),来判断 以后应该采取什么样的措施。这其实就是有监督机器学习的过程。其中涉及的一个问题就是模型中参数的估计。 为什么会有参数估计呢?这要源于我们对所研究问题的简化和假设。我们在看待一个问题的时候,经常会使用一些我们所熟知的经典的模型去简化问题,就像 我们看一个房子,我们想到是不是可以把它看成是方形一样。如果我们已经知道这个房子是三间平房,那么大体上我们就可以用长方体去描述它的轮廓。这个画房子 的问题就从无数的可能性中,基于方圆多少里大家都住平房的 经验 ,我们可以 假设 它是长方体,剩下的问题就是确定长宽高这三个 参数 了,问题被简化了。再如学生考试的成绩,根据既往的经验,我们可以假设学生的成绩是正态分布的,那么剩下的问题就是确定分布的期望和方差。所以, 之所以要估计参数,是因为我们希望用较少的参数去描述数据的总体分布

线性回归——最大似然函数

こ雲淡風輕ζ 提交于 2019-12-30 20:46:04
似然函数    似然函数 与概率非常类似但又有根本的区别,概率为在某种条件(参数)下预测某事件发生的可能性;而似然函数与之相反为已知该事件的情况下 推测出该事件发生时的条件(参数) ;所以似然估计也称为参数估计,为参数估计中的一种算法; 下面先求抛硬币的似然函数,然后再使用似然函数算出线性回归的参数;   假如有一枚硬币我们现在不知道它是否为正常硬币(正反面出现概率各位50%),所以想通过抛10次然后通过硬币正反面出现的概率分布判断该硬币是否正常;当抛完10次时出现5次正面向上、5次反面向上,正反面出现的概率符合正常硬币的预期,这时我们可以判断该硬币是正常的;   抛硬币符合二项分布所以下面计算出概率分布情况:      如图:          上图中x轴为正面出现的次数,y轴为上述函数的结果   上面式子中w为正反面出现的比例,y为正面出现的次数; 使用最大似然法求硬币问题   似然函数为知道了结果求条件,概率问题为知道了条件求概率,在这个问题中就是知道了硬币是正常的,求正反面出现的比例w为何值时该结果最靠谱;所以似然函数等于:        函数左边的值并非条件概率中的条件而是该函数的依赖值,似然函数L为在给定结果y的情况下参数w的取值情况,概率函数L为知道了参数w求得y的取值;有了抛硬币情况的概率分布这里就可以给出 似然函数 :     

最大似然估计、最大后验概率估计、贝叶斯公式的理解

别来无恙 提交于 2019-12-23 03:13:04
概率和统计是同一个东西吗? 概率:已知模型和参数,求数据 统计:已知数据,求模型和参数 贝叶斯公式在说什么? 公式里括号后面一项才是 条件概率: 贝叶斯公式: 贝叶斯公式: 理解:有多重情况可能导致事件B发生,现在事件B已经发生了,要求出由于事件A导致事件B发生的可能性大小。 似然函数 概率:在参数theta时 变量x发生的概率有多大 似然:变量x已经发生了,参数等于theta时的似然是多少 一个是关于x的函数、一个是关于theta的函数 常说的概率是指给定参数后,预测即将发生的事件的可能性。 而似然概率正好与这个过程相反,我们关注的量不再是事件的发生概率,而是已知发生了某些事件,我们希望知道参数应该是多少。 最大似然估计,就是在已知观测的数据的前提下,找到使得似然概率最大的参数值。 先验概率后验概率 1)先验:统计历史上的经验而知当下发生的概率; 2)后验:当下条件由因及果的概率; 例子: 1)先验——根据若干年的统计(经验)或者气候(常识),某地方下雨的概率; 2)似然——下雨(果)的时候有乌云(因/证据/观察的数据)的概率,即已经有了果,对证据发生的可能性描述; 3)后验——根据天上有乌云(原因或者证据/观察数据),下雨(结果)的概率; 最大似然估计与最大后验概率估计 最大似然估计:最大化关于theta的函数 最大后验概率估计: 参考:

最大似然估计和信息论简介

拟墨画扇 提交于 2019-12-23 01:10:45
文章目录 1.数理统计 数理统计基本知识 最大似然估计 最大似然估计(离散) 最大似然估计(连续) 最大似然估计举例 最大似然估计-多元 0-1分布 最大似然 2.线性回归与逻辑回归 再看线性回归 逻辑回归 特别说明 3.贝叶斯的观点 再看贝叶斯公式 二项分布 Beta分布 贝叶斯估计举例 4.信息论概述 量化信息 离散 连续 KL散度(相对熵) 1.数理统计 数理统计基本知识 最大似然估计 最大似然估计(离散) 最大似然估计(连续) 最大似然估计举例 最大似然估计-多元 0-1分布 最大似然 2.线性回归与逻辑回归 再看线性回归 逻辑回归 特别说明 3.贝叶斯的观点 再看贝叶斯公式 二项分布 Beta分布 贝叶斯估计举例 4.信息论概述 量化信息 离散 连续 KL散度(相对熵) 来源: CSDN 作者: LotusQ 链接: https://blog.csdn.net/qq_30057549/article/details/103655398

贝叶斯估计,最大似然函数,最小二乘概念

六眼飞鱼酱① 提交于 2019-12-14 20:37:40
在英语语境里,likelihood 和 probability 的日常使用是可以互换的,都表示对机会 (chance) 的同义替代。但在数学中,probability 这一指代是有严格的定义的,即符合柯尔莫果洛夫公理 (Kolmogorov axioms) 的一种数学对象(换句话说,不是所有的可以用0到1之间的数所表示的对象都能称为概率)。而 likelihood (function) 这一概念是由Fisher提出,他采用这个词,也是为了凸显他所要表述的数学对象既和 probability 有千丝万缕的联系,但又不完全一样的这一感觉。 中文把它们一个翻译为概率(probability),一个翻译为似然(likelihood)也是独具匠心。 似然函数的定义: 上式中,小 x 指的是联合样本随机变量 X 取到的值,即 X = x ;这里的 θ 是指未知参数,它属于参数空间;而 是一个密度函数,特别地,它表示(给定) θ 下关于联合样本值 x 的联合密度函数。 从定义上,似然函数和密度函数是完全不同的两个数学对象:前者是关于 θ 的函数,后者是关于 x 的函数。所以这里的等号= 理解为函数值形式的相等,而不是两个函数本身是同一函数(根据函数相等的定义,函数相等当且仅当定义域相等并且对应关系相等)。 两者的联系: 如果X是离散随机变量,那么其概率密度函数 可改写为: 即代表了在参数为 θ

详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解

南楼画角 提交于 2019-12-03 05:15:31
最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率估计(Maximum a posteriori estimation, 简称MAP)是很常用的两种参数估计方法,如果不理解这两种方法的思路,很容易弄混它们。下文将详细说明MLE和MAP的思路与区别。 但别急,我们先从概率和统计的区别讲起。 概率和统计是一个东西吗? 概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反。 概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等)。 举个例子,我想研究怎么养猪(模型是猪),我选好了想养的品种、喂养方式、猪棚的设计等等(选择参数),我想知道我养出来的猪大概能有多肥,肉质怎么样(预测结果)。 统计研究的问题则相反。统计是,有一堆数据,要利用这堆数据去预测模型和参数。仍以猪为例。现在我买到了一堆肉,通过观察和判断,我确定这是猪肉(这就确定了模型。在实际研究中,也是通过观察数据推测模型是/像高斯分布的、指数分布的、拉普拉斯分布的等等),然后,可以进一步研究,判定这猪的品种、这是圈养猪还是跑山猪还是网易猪,等等(推测模型参数)。 一句话总结: 概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。 显然,本文解释的MLE和MAP都是统计领域的问题