似然函数

最大似然估计与最大后验估计

只谈情不闲聊 提交于 2020-04-05 15:57:33
本文首发自公众号: RAIS ,公式显示错误请到: 这里 查看。 前言 本系列文章为 《Deep Learning》 读书笔记,可以参看原书一起阅读,效果更佳。 MLE VS MAP 最大似然函数(MLE)和最大后验概率估计(MAP)是两种完全不同的估计方法,最大似然函数属于频率派统计(认为存在唯一真值 θ),最大后验估计属于贝叶斯统计(认为 θ 是一个随机变量,符合一定的概率分布),这是两种认识方法的差异。模型不变,概率是参数推数据,统计是数据推参数。 最大似然估计 似然函数是一种关于模型中参数的函数,是根据模型的观测值,估计模型中参数的值。给定输出 x ,关于 θ 的似然函数 L(θ|x) 数值上等于给定参数 θ 后变量 X 的概率。其数学定义为: $$ L(θ|x)=f_θ(x)=P_θ(X=x) $$ 最大似然估计是其中的一种好的估计,在样本趋近于无穷时,最大似然是收敛率最好的渐进估计,且由于它的一致性和统计效率,在机器学习中也是首选的估计方法。在独立同分布情况下: $$ \hatθ_{MLE}=argmaxP(X;θ)=argmaxP(x_1;θ)P(x_2;θ)...P(x_n;θ) =argmax\log\prod_{i=1}^nP(x_i;θ)\\=argmax\sum_{i=1}^n\log P(x_i;θ) =argmin-\sum_{i=1}^n\log P

最大似然估计与最大后验估计

主宰稳场 提交于 2020-04-04 09:20:33
本文首发自公众号: RAIS ,公式显示错误请到: 这里 查看。 前言 本系列文章为 《Deep Learning》 读书笔记,可以参看原书一起阅读,效果更佳。 MLE VS MAP 最大似然函数(MLE)和最大后验概率估计(MAP)是两种完全不同的估计方法,最大似然函数属于频率派统计(认为存在唯一真值 θ),最大后验估计属于贝叶斯统计(认为 θ 是一个随机变量,符合一定的概率分布),这是两种认识方法的差异。模型不变,概率是参数推数据,统计是数据推参数。 最大似然估计 似然函数是一种关于模型中参数的函数,是根据模型的观测值,估计模型中参数的值。给定输出 x ,关于 θ 的似然函数 L(θ|x) 数值上等于给定参数 θ 后变量 X 的概率。其数学定义为: \[L(θ|x)=f_θ(x)=P_θ(X=x) \] 最大似然估计是其中的一种好的估计,在样本趋近于无穷时,最大似然是收敛率最好的渐进估计,且由于它的一致性和统计效率,在机器学习中也是首选的估计方法。在独立同分布情况下: \[\hatθ_{MLE}=argmaxP(X;θ)=argmaxP(x_1;θ)P(x_2;θ)...P(x_n;θ) =argmax\log\prod_{i=1}^nP(x_i;θ)\\\\=argmax\sum_{i=1}^n\log P(x_i;θ) =argmin-\sum_{i=1}^n\log P

极大似然估计详解

前提是你 提交于 2020-03-11 10:49:00
转自: https://blog.csdn.net/qq_39355550/article/details/81809467 原理: 极大似然估计是建立在极大似然原理的基础上的一个统计方法,提供了一种给定观察数据来 评估模型参数的方法 ,即: “模型已定,参数未知” 。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大。 总结: 极大似然估计 利用已知的样本结果 ,反推最有可能(最大概率)导致这样结果的参数值。即MLE的目标是找出一组参数(模型中的参数),使得模型产出观察数据的概率最大。 记已知的样本集为: 似然函数(linkehood function):联合概率密度函数 称为相对于 的θ的似然函数。 如果 是参数空间中能使似然函数 最大的θ值,则 应该是“最可能”的参数值,那么 就是 θ的极大似然估计量 。它是样本集的函数: 极大似然估计量求解: 实际中为了便于分析,定义了对数似然函数: 1. 未知参数只有一个(θ为标量) 在似然函数满足连续、可微的正则条件下,极大似然估计量是下面微分方程的解: 2.未知参数有多个(θ为向量) 则θ可表示为具有S个分量的未知向量: 记梯度算子: 若似然函数满足连续可导的条件,则最大似然估计量就是如下方程的解。 方程的解只是一个估计值,只有在样本数趋于无限多的时候,它才会接近于真实值。 极大似然估计的例子 例1

极大似然估计

左心房为你撑大大i 提交于 2020-03-09 12:02:02
要了解极大似然估计,首先需要了解什么是似然函数。 比如说似然函数: 其中,x表示一个具体的数据,θ表示模型参数。 如果θ是确定的,x是变量。则这个函数是概率函数,它描述对于不同样本点x,其出现的概率是多少。 如果x是已知的,θ是变量。这个函数叫做似然函数,它描述对于不同的模型参数,出现x这个样本点的概率是多少。 最大似然估计(MIE) 假设有一个造币厂,生产某种硬币,现在我们拿到一枚这样的硬币,如果这枚硬币不是均匀的,那么这枚硬币正反面出现的概率θ各是多少? 于是我们拿这枚硬币抛了10次,得到的数据 是:反正正正正反正正正反。我们想求的正面概率 θ 是模型参数,而抛硬币模型我们可以假设是二项分布。 这时我们的实验结果是什么呢? 注意,这是个只关于 θ θ 的函数。而最大似然估计,顾名思义,就是要最大化这个函数。我们可以画出 f ( θ ) f(θ) 的图像: 可以看出,在 θ = 0.7 ,似然函数取得最大值。 且慢,一些人可能会说,硬币一般都是均匀的啊! 就算你做实验发现结果是“反正正正正反正正正反”,我也不信 θ=0.7 。 极大似然估计提供了一种给定观察数据来评估模型参数的方法,即“模型已定,参数未知” 例子二、 假如有一个罐子,里面有黑白两种颜色的球,数目多少不知,两种颜色的比例也不知。我 们想知道罐中白球和黑球的比例,但我们不能把罐中的球全部拿出来数

极大似然估计(MLE)学习总结

泄露秘密 提交于 2020-03-06 10:26:28
原文链接: 极大似然估计(MLE)学习总结 《每天解决一个知识点系列》 估计能翻到这一页博文的盆友都是行走在机器学习/数据挖掘的路上吧,自学之路真的苦不堪言,于是下定决心把自己学到的知识点记下来,和初入机器学习之坑的基友们一起显摆显摆。话不多说,我将从一个小白的角度解读一下我对极大似然估计的理解(我比较喜欢这样叫,但为了学习方便,我采取官方说法),各位看官请往下看。 -------------------------------我是羞羞的分割线------------------------------------- 我是比较喜欢概率论的东西,对于最大似然估计的概念大家可以通俗理解为用观察去猜测真实概率。比如给定一组观察得到的样本数据X,我们无法知晓这个随机变量(其实是某个事件发生的属性值,它有多重取值可能)真实的概率分布函数是怎样的。这时候我们希望通过收集到的样本数据去猜哪个参数会影响分布函数使得最终呈现出我们观察到的这些样本。 不过,我们聪明的统计学家已经为我们观察到了复杂世界存在的各种概率分布情况及其对应的计算公式,如“正态分布”、“二项分布”、“泊松分布”等。但细心的同学们一定会发现这些所谓的分布发生的概率是有规律的,有各自的计算公式,如假设随机事件X服从均值为 µ ,方差为 σ 2 的正态分布函数,那么事件X发生的概率如下: 式1-1 但我们是不知道如何参数 µ和

后验概率和极大似然估计

谁说我不能喝 提交于 2020-02-24 14:22:23
后验概率 后验概率是指在得到“结果”的信息后重新修正的概率。是“执果寻因”问题中的“果”,后验概率的计算要以先验概率为基础。 例如,后验概率 p ( y = 1 ∣ x ) p(y=1|x) p ( y = 1 ∣ x ) 的意思是:拿到 x x x 后, y = 1 y=1 y = 1 的概率( x x x 分类为类别 1 1 1 的概率) 极大似然估计 极大似然估计是求估计的一种方法。 求解步骤: 写出似然函数 对似然函数取对数,并整理 求导数 解似然方程 来源: CSDN 作者: 刘阳不吃饭 链接: https://blog.csdn.net/iiiliuyang/article/details/104444443

矩阵求导(包含极大似然估计)

房东的猫 提交于 2020-02-11 22:40:50
from https://zhuanlan.zhihu.com/p/24709748 极大似然 https://blog.csdn.net/zengxiantao1994/article/details/72787849 https://zhuanlan.zhihu.com/p/26614750 矩阵求导 注1: 注2: 例子2 极大似然估计 知识: https://blog.csdn.net/zengxiantao1994/article/details/72787849 https://zhuanlan.zhihu.com/p/26614750 贝叶斯公式 随机变量θ表示模型的参数 如果 是已知确定的, 是变量,这个函数叫做概率函数(probability function),它描述对于不同的样本点 ,其出现概率是多少。 如果 是已知确定的, 是变量,这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数,出现 这个样本点的概率是多少。 未完.... 来源: https://www.cnblogs.com/shish/p/12296538.html

机器学习之线性回归

99封情书 提交于 2020-02-07 01:01:04
1.什么是线性回归 线性回归,首先要介绍一下机器学习中的两个常见的问题:回归任务和分类任务。那什么是回归任务和分类任务呢?简单的来说,在监督学习中(也就是有标签的数据中),标签值为连续值时是回归任务,标志值是离散值时是分类任务。 线性回归模型就是处理回归任务的最基础的模型。 线性回归模型试图学得一个线性模型以尽可能准确地预测实值X的输出标记Y。在这个模型中,因变量Y是连续的,自变量X可以是连续或离散的。 首先来了解一些字母的含义:m-训练集样本的数量;x-输入变量/特征;y-输出变量/要预测的目标变量;(x,y)-表示一个训练样本;( x ( i ) x^{(i)} x ( i ) , y ( i ) y^{(i)} y ( i ) )中i上标:表示第i个训练样本,即表示表格中的第i行; x 1 x_{1} x 1 ​ 、 x 2 x_{2} x 2 ​ 、… x n x_{n} x n ​ 表示特征向量,n表示特征向量的个数; h θ h_{\theta} h θ ​ (x)称为假设函数,h是一个引导从x得到y的函数; 举个简单的例子: 输入数据:工资( x 1 x_{1} x 1 ​ )和房屋面积( x 2 x_{2} x 2 ​ )(两个特征) 输出目标:预测银行会贷款多少钱(标签) 姓名 工资 房屋面积 可贷款金额 张三 6000 58 33433 李四 9000 77

极大似然估计、最大后验估计、贝叶斯估计的异同

偶尔善良 提交于 2020-02-04 06:28:14
本文主要是为了区分极大似然估计、最大后验估计、贝叶斯估计的异同。对三种方法的详细步骤不做阐述。 贝叶斯公式:分母的全概率公式是用来求P(B) B为观测变量,A为待求参数。 极大似然估计: 极大似然估计认为A为一个常数,于是P(A)=1. 而且它只需求出最大值所在的点,因此求导为0即可。 解释一下 ‘’‘ 如抛硬币5正4负,设正面概率为p,则 F(p)=a * p^5 * (1-p)^4 式中p的阶数5和 1-p的阶数4均为观测的参数 a为与待求参数无关的部分(对求p的导无影响) 此时对p求导令其为0求取得极值的p即为我们要求的p。 ’‘’ 回到整体 最大后验估计: 认为参数A亦服从一分布,但是其求出来的参数也是为一个数字,只不过P(A)不为1变成了一个概率分布(先验概率)。其还是求最大值,因此还是求导为0即可,因为我们只需要求出导数为0(取得最值)的点,因此与所求参数无关的例如贝叶斯公式的分母P(B),我们完全可以忽略令其为一个常数即可。 贝叶斯估计: 贝叶斯估计也认为参数A服从一先验分布,但是求出的参数A不是一个具体的数字了,而是一个分布,因此此时我们不能用简单粗暴的直接求导求解,贝叶斯公式所有的部分我们均需要求解,因此之前极大似然/后验估计中我们忽略的P(B)就要纳入考虑。之前不考虑是因为我们只需要对参数求导为0。原先的式子变成了一个关于参数的函数例如F(A)。 此时贝叶斯公式

四种方法结果的比较

自古美人都是妖i 提交于 2020-01-28 02:13:25
以下是关于整个模拟程序的解释与程序: 加载所需要的包,生成所需要的数据:目标分布服从威布尔分布,截断分布服从指数分布。 install . packages ( "rootSolve" ) install . packages ( "Rsolnp" ) library ( Rsolnp ) library ( rootSolve ) ################################################################# ##### define a new log function log_n ### log_n < - function ( z , n ) { an = n ^ 2 ind = ( z < 1 / an ) y1 = log ( 1 / an ) - 1.5 + 2 * an * z - ( an * z ) ^ 2 / 2 y1 [ ! ind ] = 0 z [ ind ] = 1 y2 = log ( z ) y = y1 + y2 return ( y ) } ################################################################################ #### Function used to calculate log ( gamma ( N