贝叶斯估计 | 易学教程

PRML学习笔记第一章

阅读更多关于 PRML学习笔记第一章

【转】模式识别的目标自动从数据中发现潜在规律，以利用这些规律做后续操作，如数据分类等。模型选择和参数调节类似的一族规律通常可以以一种模型的形式为表达，选择合适模型的过程称为模型选择（Model Selection）。模型选择的目的只是选择模型的形式，而模型的参数是未定的。从数据中获得具体规律的过程称为训练或学习，训练的过程就是根据数据来对选定的模型进行参数调节（Parameter Estimation）的过程，此过程中使用的数据为训练数据集（Training Set）。对于相同数据源的数据来讲，规律应该是一般的（泛化Generalization），因此评估一个学习结果的有效性可以通过使用测试数据集（Testing Set）来进行的。预处理对于大多数现实中的数据集来讲，使用其进行学习之前，通常需要进行预处理，以提高学习精度及降低学习的开销。以图像识别为例，若以像素做为一个特征，往往一幅图像的特征就能达到几万的数量级，而很多特征（如背景色）都是对于图像辨识起不到太大作用的，因此对于图像数据集，预处理过程通常包括维数约减（特征变换，特征选择），仅保留具有区分度的特征。文本数据分类任务中，对训练文本也有类似的处理方式，只不过此时扮演特征的是单词，而不是像素值。监督学习和非监督学习输入向量（input vector）：，响应向量（target vector）：

多元高斯分布的MLE、贝叶斯条件概率和线性判别分析LDA的生成方法总结

阅读更多关于多元高斯分布的MLE、贝叶斯条件概率和线性判别分析LDA的生成方法总结

Gaussian model 给出 d d 维随机向量(pattern) x x ，即随机变量 { x 1 , x 2 , . . . , x n } { x 1 , x 2 , . . . , x n } 其高斯分布表示： q ( x ; μ , ∑ ) = 1 ( 2 π ) d 2 det ( ∑ ) 1 2 exp ( 1 2 ( x μ ) T ∑ 1 ( x μ ) ) (1) (1) q ( x ; μ , ∑ ) = 1 ( 2 π ) d 2 det ( ∑ ) 1 2 exp ( 1 2 ( x μ ) T ∑ 1 ( x μ ) ) 其中 μ μ 是 d d 维度的列向量代表期望(expectation)， ∑ ∑ 是 d × d d × d 的协方差矩阵(variance-covariance matrix),即： μ = E [ x ] = ∫ x q ( x ; μ , ∑ ) d x (2) (2) μ = E [ x ] = ∫ x q ( x ; μ , ∑ ) d x ∑ = V [ x ] = ∫ ( x μ ) ( x μ ) T q ( x ; μ , ∑ ) d x (3) (3) ∑ = V [ x ] = ∫ ( x μ ) ( x μ ) T q ( x ; μ , ∑ ) d x 假设 n n 个样本之间 i . i . d .

贝叶斯的三个参数估计

阅读更多关于贝叶斯的三个参数估计

概率与统计概率：在给定数据生成过程下观测研究数据的性质；模型和参数->数据；推理统计：根据观测的数据，反向思考其数据的生成过程；数据->模型和参数：归纳关系：概率论是统计学的数学基础，统计是对概率论的应用描述统计和推断统计描述统计：描绘或总结观察量基本情况（均值，方差，中位数，四分位数等）推断统计：根据得到的部分数据推测总体数据的情况（参数统计，非参数统计，估计量，真实分布，经验分布） “似然”与“概率”：在英语中：似然（likelihood）和概率（probability）都指事件发生的可能性在统计中：概率是已知参数，对结果可能性的预测，似然是已知结果，对参数是某一个值的可能性预测。对于函数 $P(x|\theta)$ 如果 $\theta$ 已知且保持不变， $x$ 是变量，则函数 $P(x|\theta)$ 称为概率函数，表示不同 $x$ 出现的概率如果 $x$ 已知且保持不变， $\theta$ 是变量，则函数 $P(x|\theta)$ 称为似然函数，表示不同 $\theta$ 下， $x$ 出现的概率，也记做 $L(\theta|x)$ 或 $L(X;\theta)$ 或 $f(x;\theta)$ 频率学派与贝叶斯学派频率学派与贝叶斯学派只是解决问题的角度不同频率学派从「自然」角度出发

朴素贝叶斯

阅读更多关于朴素贝叶斯

条件概率乘法公式全概率公式根据小偷们的资料，计算村子今晚失窃概率的问题：P(Ai)表示小偷 i 作案的概率，P(B|Ai)表示小偷 i 作案成功的概率，那么P(B)就是村子失窃的概率贝叶斯公式（又称逆概公式） P(Ai)>0，则对任一事件B，只要P(B)>0，有若村子今晚失窃，计算哪个小偷嫌疑最大的问题（嫌疑最大就是后验概率最大）假设小偷1和小偷2在某村庄的作案数量比为3:2，前者偷窃成功的概率为0.02，后者为0.01，现村庄失窃，求这次失窃是小偷1作案的概率。【分析】A1={小偷1作案}，A2={小偷2作案}，B={村庄失窃} 总结: 先验概率P(A)：在不考虑任何情况下，A事件发生的概率条件概率P(B|A)：A事件发生的情况下，B事件发生的概率后验概率P(A|B)：在B事件发生之后，对A事件发生的概率的重新评估全概率：如果A和A'构成样本空间的一个划分，那么事件B的概率为：A和A'的概率分别乘以B对这两个事件的概率之和。朴素贝叶斯的直观理解案例：有一个训练集包含100个人，其中有60个非洲人（黑卷 47,黑直 1,黄卷 11,黄直 1），有40个亚洲人（黑卷 1,黄卷 4,黄直*35），请训练朴素贝叶斯模型。肤色x1={黑，黄}，发型x2={卷，直}；地区label={亚，非} 先计算先验概率：亚洲人的比例m，非洲人的比例模型构建

掘金笔记：朴素贝叶斯模型

阅读更多关于掘金笔记：朴素贝叶斯模型

# 朴素贝叶斯模型 ## 1 - 基础定理与定义 - 条件概率公式： $$ P(A|B)=\dfrac{P(AB)}{P(B)} $$ - 全概率公式： $$ P(A)=\sum_{j=1}^N P(AB_i)=\sum_{j=1}^N P(B_i)P(A|B_i) $$ - 贝叶斯公式： $$ P(B_i|A)=\dfrac{P(AB_i)}{P(A)}=\dfrac{P(B_i)P(A|B_i)}{\sum_{j=1}^N P(B_i)P(A|B_i)} $$ - 概率加和规则： $$ P\left(X=x_i\right)=\sum_{j=1}^N P\left(X=x_i,Y=y_j\right) $$ $$ P\left(X\right)=\sum_Y P\left(X,Y\right) $$ - 概率乘积规则： $$ P\left(X=x_i,Y=y_j\right)=P\left(Y=y_j|X=x_i\right)P\left(X=x_i\right) $$ $$ P\left(X,Y\right)=P\left(Y|X\right)P\left(X\right) $$ - 生成学习方法：利用训练数据学习$P(X|Y)$和$P(Y)$的估计，得到联合概率分布： $$ P(X,Y)=P(Y)P(X|Y) $$ 然后求得后验概率分布$P(Y|X)$.

朴素贝叶斯分类算法

阅读更多关于朴素贝叶斯分类算法

贝叶斯定理是关于随机事件A和B的条件概率的一则定理（比如常见的：P(A|B)是在B发生的情况下A发生的可能性）。朴素的含义是各特征相互独立，且同等重要。某些分类算法均以贝叶斯定理为基础。由此产生了朴素贝叶斯分类算法。朴素贝叶斯分类算法的思想基础是：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。分类算法的主要任务是构造分类器。评价分类器的质量可以从这个视角考虑下：首先要定义，分类器的正确率指分类器正确分类的项目占所有被分类项目的比率。通常使用回归测试来评估分类器的准确率，最简单的方法是用构造完成的分类器对训练数据进行分类，然后根据结果给出正确率评估。但这不是一个好方法，因为使用训练数据作为检测数据有可能因为过分拟合而导致结果过于乐观，所以一种更好的方法是在构造初期将训练数据一分为二，用一部分构造分类器，然后用另一部分检测分类器的准确率。拉普拉斯平滑对于改善朴素贝叶斯分类器的分类效果有着积极的作用。拉普拉斯平滑：为了解决零概率的问题，法国数学家拉普拉斯最早提出用加1的方法估计没有出现过的现象的概率，所以加法平滑也叫做拉普拉斯平滑。假定训练样本很大时，每个分量x的计数加1造成的估计概率变化可以忽略不计，但可以方便有效的避免零概率问题。示例1 计算先验概率和类条件概率计算后验概率因为P(是|X)>P(否

朴素贝叶斯模型1

阅读更多关于朴素贝叶斯模型1

是什么考虑如下文本分类问题：训练集为n条文本特征 1 ，文本类别对， $\{(\mathbf{t}^i,c^i)\}_{i=1}^n$ 2 现给定文本特征 $\mathbf{t}$ ，要求判定它的类别。朴素贝叶斯做法就是算使得 $p(\mathbf{t},c)$ 最大的 $c^*$ 作为 $\mathbf{t}$ 的类别： \[ c^*=\arg \max p(\mathbf{t},c) \] 其中， \[ p(\mathbf{t},c)=p(c)\prod_{j=1}^{m} p(t_j|c) \] 而右边的 $p(c)$ , $p(t_j|c)$ 则是由训练数据估计值代替，则估计值为： \[ p(c)=\frac{\#\{c^i=c\}}{n} \] \[ p(t_j|c^i=c)=\frac{\#\{c^i=c\quad\text{and}\quad t^i_j=t_j\} }{\#\{c^i=c \}} \] 考虑如下文本分类问题：训练集为n条文本特征 3 ，文本类别对， $\{(\mathbf{t}^i,c^i)\}_{i=1}^n$ 4 现给定文本特征 $\mathbf{t}$ ，要求判定它的类别。朴素贝叶斯做法就是算使得 $p(\mathbf{t},c)$ 最大的 $c^*$ 作为 $\mathbf{t}$ 的类别

几个常用算法的适应场景及其优缺点！

阅读更多关于几个常用算法的适应场景及其优缺点！

机器学习算法太多了，分类、回归、聚类、推荐、图像识别领域等等，要想找到一个合适算法真的不容易，所以在实际应用中，我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法，诸如SVM，GBDT，Adaboost，现在深度学习很火热，神经网络也是一个不错的选择。假如你在乎精度（accuracy）的话，最好的方法就是通过交叉验证（cross-valida ti on）对各个算法一个个地进行测试，进行比较，然后调整参数确保每个算法达到最优解，最后选择最好的一个。但是如果你只是在寻找一个“足够好”的算法来解决你的问题，或者这里有些技巧可以参考，下面来分析下各个算法的优缺点，基于算法的优缺点，更易于我们去选择它。 1.天下没有免费的午餐在机器学习领域，一个基本的定理就是“没有免费的午餐”。换言之，就是没有算法能完美地解决所有问题，尤其是对监督学习而言（例如预测建模）。举例来说，你不能去说神经网络任何情况下都能比决策树更有优势，反之亦然。它们要受很多因素的影响，比如你的数据集的规模或结构。其结果是，在用给定的测试集来评估性能并挑选算法时，你应当根据具体的问题来采用不同的算法。当然，所选的算法必须要适用于你自己的问题，这就要求选择正确的机器学习任务。作为类比，如果你需要打扫房子，你可能会用到吸尘器、扫帚或是拖把，但你绝对不该掏出铲子来挖地。 2. 偏差

几个贝叶斯估计的例题

阅读更多关于几个贝叶斯估计的例题

几个贝叶斯估计的例题　　以下例题来自《机器学习导论》，书中证明不是很全也没有推导过程，所以我补全了解答。贝叶斯估计 Dirichlet分布已知方差的正态分布正态分布　　　　此时不再是共轭后验先验分布了，会得到一个t分布，由于涉及的特殊函数积分和自由度计算的数学技巧比较高，所以我没能补全证明。数学好的同学可以尝试一下，虽然我联系概率统计的知识看看结论觉得很显然可以理解，但是我自己没有动手算过。来源： CSDN 作者： pku_zzy 链接： https://blog.csdn.net/PKU_ZZY/article/details/74295673

笔记 - 基于贝叶斯网络的不确定估计（从一篇车载视角的行人框预测论文出发）

阅读更多关于笔记 - 基于贝叶斯网络的不确定估计（从一篇车载视角的行人框预测论文出发）

本文的出发点是一篇期刊论文，但集中探讨的是这篇文章中不确定度估计的原理与过程，行文将与之前的文献报告不同。原文 Bhattacharyya A , Fritz M , Schiele B . Long-Term On-Board Prediction of People in Traffic Scenes under Uncertainty[J]. 2017. 原文的一篇重要引用文献 Kendall A , Gal Y . What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision?[J]. 2017. 关键词与基础概念：车载视角、行人框预测、认知不确定性、偶然不确定性、采样、伯努利分布与dropout变分推断、蒙特卡洛积分、贝叶斯定理与贝叶斯推断、贝叶斯网络近日在阅读“Long-Term On-Board Prediction of People in Traffic Scenes Under Uncertainty”，文章所提出的模型功能是基于车载移动视角对行人框位置做出预测，并能够同时评估两类不确定度（模型不确定度，数据不确定度）。对神经网络的不确定度估计涉及较多概率论的知识，而且从理论到应用的转化也涉及到使用近似量估计的问题，因此初次接触这部分知识该我带来了不小的挑战

订阅贝叶斯估计