统计模式识别学习笔记（二）

从极大似然和后验的角度谈基本决策

在阅读这部分知识前，假设各位已经学习过概率论与数理统计，并能够较好的应用这部分知识。

设 C C C个类 ϖ 1 , . . . , ϖ C \varpi_1,...,\varpi_C ϖ1,...,ϖC分别具有先验概率 p ( ϖ 1 ) , . . . , p ( ϖ C ) p(\varpi_1),...,p(\varpi_C) p(ϖ1),...,p(ϖC)。如果除了这些已知的类概率分布外，其他信息不得而知，则使分类错误率最小的决策规则是，若对象的： p ( ϖ j ) > p ( ϖ k ) , k = 1 , . . . , C ; k ≠ j p(\varpi_j)>p(\varpi_k),k=1,...,C;k\ne j p(ϖj)>p(ϖk),k=1,...,C;k=j 则将该对象归属于 ϖ j \varpi_j ϖj 类。

这种分类决策按照最大先验概率把所有对象进行分类，而对于那些具有等同类先验概率的样本，随机地归入这些类中的任何一个。那对于观测向量或测量向量 x x x，我们希望将其归入C类中的某一类。 那应该如何分类？

如果向量 x x x关于 ϖ j \varpi_j ϖj类的概率，即 p ( ϖ j ∣ x ) p(\varpi_j|x) p(ϖj∣x) 比关于其他所有类 p ( ϖ 1 ) , . . . , p ( ϖ C ) p(\varpi_1),...,p(\varpi_C) p(ϖ1),...,p(ϖC) 的概率都大，则基于概率的决策规则将 x x x 归于 ϖ j \varpi_j ϖj 类。

这种决策规则将测量空间划分成 C C C 个区域 Ω 1 , . . . , Ω C \Omega_1,...,\Omega_C Ω1,...,ΩC （区域 Ω j \Omega_j Ωj 有可能是不联通的），如果 x ∈ Ω j x\in\Omega_j x∈Ωj ，则 x x x 属于 ϖ j \varpi_j ϖj 类。

利用贝叶斯定理，可以通过使用先验概率 p ( ϖ i ) p(\varpi_i) p(ϖi) 和类条件概率密度函数 p ( x ∣ ϖ i ) p(x|\varpi_i) p(x∣ϖi) 来表示后验概率 p ( ϖ i ∣ x ) p(\varpi_i|x) p(ϖi∣x) :

p ( ϖ i ∣ x ) = p ( x ∣ ϖ i ) p ( ϖ i ) p ( x ) p(\varpi_i|x)=\frac{p(x|\varpi_i)p(\varpi_i)}{p(x)} p(ϖi∣x)=p(x)p(x∣ϖi)p(ϖi)

讲过了基础知识，那接下来，让我们来谈一谈今天的重点内容：先验、后验还有极大似然。

1. 状态估计问题

前面讲过了模式 x x x 实际上是一个观测向量。那现在考虑这样的一个实际问题，当一个机器人在场景中工作时，如何根据摄像头或者是其他的传感器，来判断出它此刻的位姿？因为作者本人是做视觉SLAM时突发奇想才有了这个系列的博客，所以就拿视觉SLAM举例了。

我们如何通过观测数据 x x x 来估计机器人此刻的状态？

简而言之，我们希望通过观测数据 x x x 来推断出状态（以及它们的概率分布）。所以，我们说对机器人状态的估计，就是已知观测数据 x x x 的条件下，计算状态的条件概率分布：

p ( ϖ i ∣ x ) p(\varpi_i|x) p(ϖi∣x)

为了和前文有较好的衔接，表达式中用的是 ϖ i \varpi_i ϖi 和 x x x 。而上式也被称为后验概率。利用贝叶斯公式，后验概率也可以表示为：

p ( ϖ i ∣ x ) = p ( x ∣ ϖ i ) p ( ϖ i ) p ( x ) p(\varpi_i|x)=\frac{p(x|\varpi_i)p(\varpi_i)}{p(x)} p(ϖi∣x)=p(x)p(x∣ϖi)p(ϖi)

p ( x ∣ ϖ i ) p(x|\varpi_i) p(x∣ϖi) 称为似然， p ( ϖ i ) p(\varpi_i) p(ϖi) 称为先验。求解最大后验概率相当于最大化似然和先验的乘积。

直观讲，似然是指“在现在的位姿下，可能产生怎样的观测数据”。由于我们知道观测数据，所以最大似然估计可以理解成：“在什么样的状态下，最可能产生现在观测到的数据”。这就是最大似然估计的直观意义。

2. 最小贝叶斯决策规则和最小风险贝叶斯决策规则

上面，我们非常粗略的讲了一下状态估计的问题。什么是状态估计，怎么来估计状态。接下来我们来看一看如何运用它以完成分类这一任务。

首先，我们来改写一下上面的决策规则：若

p ( x ∣ ϖ j ) p ( ϖ j ) > p ( x ∣ ϖ k ) p ( ϖ k ) , k = 1 , . . . , C ; k ≠ j p(x|\varpi_j)p(\varpi_j)>p(x|\varpi_k)p(\varpi_k),k=1,...,C;k\ne j p(x∣ϖj)p(ϖj)>p(x∣ϖk)p(ϖk),k=1,...,C;k=j

则将 x x x 归入 ϖ j \varpi_j ϖj 类。这就是最小错误贝叶斯决策规则。

拒绝分类 —— 然而，在分类时，结果往往并不总是那么精确。当分类器把本属于某一类的样本分到另一个类时，就会导致错误。因此，拒绝对某样本做出决策可以降低错误率。被拒绝的样本有可能被抛弃，也有可能被搁置在一边，直至获得更多的信息，再对其进行分类决策。尽管拒绝分类能使原来较高的误识率得到减小或消除，但却有可能使某些被正确分类的样本也遭到拒绝。即，比较难分类的样本，容易发生错误。

最小错误贝叶斯决策规则是将 x x x 归入后验概率取得最大值的类，这时错分概率最小。下面介绍另一种决策规则，即期望损失或期望风险最小的规则——最小风险贝叶斯决策规则。

在许多应用中，错分损失不仅取决于样本所属的类，而且取决于样本被错分到的类。假设一个人得了重病，医生告诉他病状较轻并提出了医治手段常常比告诉他身体正常要好。这就需要我们为错分到类的代价赋值。

实际上，对代价赋值是非常困难的，有时候其代价可以用货币单位来计量。但大多数情况下，代价是以不同单位（金钱、时间、生活质量）衡量的多种因素的混合。因而它可能需要专家进行主观判断。

将样本 x x x 归入 ϖ i \varpi_i ϖi 类的条件风险定义为：

l i ( x ) = ∑ j = 1 C λ j i p ( ϖ j ∣ x ) l^i(x)=\sum_{j=1}^C \lambda_{ji}p(\varpi_j|x) li(x)=j=1∑Cλjip(ϖj∣x)

其中， λ j i \lambda_{ji} λji 是将属于 ϖ j \varpi_j ϖj 的 x x x 归入 ϖ i \varpi_i ϖi 的代价。

区域 Ω i \Omega_i Ωi 上的平均风险为

r i = ∫ Ω i l i ( x ) p ( x ) r^i=\int_{\Omega_i}l^i(x)p(x) ri=∫Ωili(x)p(x)

总的期望代价或风险为：

∑ i = 1 C r i \sum_{i=1}^Cr^i i=1∑Cri

选择区域 Ω i \Omega_i Ωi ，如果 r i r^i ri 最小，则表示风险最小，这就是最小风险贝叶斯决策规则。

最小风险贝叶斯决策的特例是等代价的损失。将其带入，可发现这就是最小错误贝叶斯决策规则。

已是傍晚，今天就到这里了。如果有文章存在学术问题还望在评论区里留言。感谢大家的观看，你们的支持是对我最大的鼓励。

来源：oschina

链接：https://my.oschina.net/u/4267236/blog/4484547

标签

贝叶斯

omega