贝叶斯估计

机器学习(十三)朴素贝叶斯

爷,独闯天下 提交于 2019-12-16 06:02:59
机器学习(十三) 朴素贝叶斯 贝叶斯公式: 例一: 现分别有 A、B 两个容器,在容器 A 里分别有 7 个红球和 3 个白球,在容器 B 里有 1 个红球和 9 个白球,现已知从这两个容器里任意抽出了一个球,且是红球,问这个红球是来自容器 A 的概率是多少? 假设已经抽出红球为事件 B,选中容器 A 为事件 A,则有:P(B) = 8/20,P(A) = 1/2,P(B|A) = 7/10,按照公式,则有:P(A|B) = (7/10)*(1/2) / (8/20) = 0.875 例二: 一座别墅在过去的 20 年里一共发生过 2 次被盗,别墅的主人有一条狗,狗平均每周晚上叫 3 次,在盗贼入侵时狗叫的概率被估计为 0.9,问题是:在狗叫的时候发生入侵的概率是多少? 我们假设 A 事件为狗在晚上叫,B 为盗贼入侵,则以天为单位统计,P(A) = 3/7,P(B) = 2/(20 365) = 2/7300,P(A|B) = 0.9,按照公式很容易得出结果:P(B|A) = 0.9 (2/7300) / (3/7) = 0.00058 一般公式: 朴素贝叶斯原理 例: 大学的时候,某男生经常去007自习室上晚自习,发现他喜欢的那个女生也常去那个自习室,心中窃喜,于是每天买点好吃点在那个自习室蹲点等她来,可是人家女生不一定每天都来,眼看天气渐渐炎热,自习室又不开空调

贝叶斯估计,最大似然函数,最小二乘概念

六眼飞鱼酱① 提交于 2019-12-14 20:37:40
在英语语境里,likelihood 和 probability 的日常使用是可以互换的,都表示对机会 (chance) 的同义替代。但在数学中,probability 这一指代是有严格的定义的,即符合柯尔莫果洛夫公理 (Kolmogorov axioms) 的一种数学对象(换句话说,不是所有的可以用0到1之间的数所表示的对象都能称为概率)。而 likelihood (function) 这一概念是由Fisher提出,他采用这个词,也是为了凸显他所要表述的数学对象既和 probability 有千丝万缕的联系,但又不完全一样的这一感觉。 中文把它们一个翻译为概率(probability),一个翻译为似然(likelihood)也是独具匠心。 似然函数的定义: 上式中,小 x 指的是联合样本随机变量 X 取到的值,即 X = x ;这里的 θ 是指未知参数,它属于参数空间;而 是一个密度函数,特别地,它表示(给定) θ 下关于联合样本值 x 的联合密度函数。 从定义上,似然函数和密度函数是完全不同的两个数学对象:前者是关于 θ 的函数,后者是关于 x 的函数。所以这里的等号= 理解为函数值形式的相等,而不是两个函数本身是同一函数(根据函数相等的定义,函数相等当且仅当定义域相等并且对应关系相等)。 两者的联系: 如果X是离散随机变量,那么其概率密度函数 可改写为: 即代表了在参数为 θ

04 朴素贝叶斯法——读书笔记

久未见 提交于 2019-12-14 01:02:03
一、相关概念: 先验概率: 是指事件发生前的预判概念,也可以说是“因”发生的概率,即表示为 P(X)。 条件概率: 是指事件发生后求得反向条件概率,也可以说是在“因”的条件下,“果”发生的概率,即表示为 P(Y|X)。 后验概率: 一个事件发生后导致另一个事件发生的概率,也可以说是在“果”出现的情况下,是什么“因”导致的概率,即表示为P(X|Y)。 似然概率: 类似于条件概率,即“因”的条件下,“果”发生的概率,即表示为 P(Y|X)。 贝叶斯定理:(又称条件概率定理) P ( Y ∣ X ) = P ( X ∣ Y ) ∗ P ( Y ) P ( X ) P(Y|X)=\frac{P(X|Y)*P(Y)}{P(X)} P ( Y ∣ X ) = P ( X ) P ( X ∣ Y ) ∗ P ( Y ) ​ 二、朴素贝叶斯法概述: 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入输出的联合概率分布;然后基于该模型,对于给定的输入 x x x ,利用贝叶斯定理求出后验概率最大的输出 y y y . 先验概率分布、条件概率分布、联合概率分布: 已知输入空间 χ ⫅ R n \chi \subseteqq R^{n} χ ⫅ R n 为 n n n 维向量的集合,输出空间为类标记集合 γ = { c 1 , c 2 , .

分类算法之朴素贝叶斯分类

早过忘川 提交于 2019-12-12 16:47:12
贝叶斯分类是一类分类 算法 的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。这篇文章我尽可能用直白的话语总结一下我们学习会上讲到的朴素贝叶斯分类算法,希望有利于他人理解。 1 分类问题综述 对于分类问题,其实谁都不会陌生,日常生活中我们每天都进行着分类过程。例如,当你看到一个人,你的脑子下意识判断他是学生还是社会上的人;你可能经常会走在路上对身旁的朋友说“这个人一看就很有钱”之类的话,其实这就是一种分类操作。 既然是贝叶斯分类算法,那么分类的数学描述又是什么呢? 从数学角度来说,分类问题可做如下定义:已知集合 和 ,确定映射规则y = f(x),使得任意 有且仅有一个 ,使得 成立。 其中C叫做类别集合,其中每一个元素是一个类别,而I叫做项集合(特征集合),其中每一个元素是一个待分类项,f叫做分类器。分类算法的任务就是构造分类器f。 分类算法的内容是要求给定特征,让我们得出类别,这也是所有分类问题的关键。那么如何由指定特征,得到我们最终的类别,也是我们下面要讲的,每一个不同的分类算法,对应着不同的核心思想。 本篇文章,我会用一个具体实例,对朴素贝叶斯算法几乎所有的重要知识点进行讲解。 2 朴素贝叶斯分类 那么既然是朴素贝叶斯分类算法,它的核心算法又是什么呢? 是下面这个贝叶斯公式: 换个表达形式就会明朗很多

朴素贝叶斯法

心不动则不痛 提交于 2019-12-07 18:58:31
朴素贝叶斯法 朴素贝叶斯(naive bayes) 法是基于贝叶斯定理和特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入输出的联合概率分布,然后基于此分布,对给定的输入 \(x\) 利用贝叶斯定理求其后验概率最大的输出。 一、朴素贝叶斯法的学习 1.1 基本方法 设输入空间 \(\chi \subseteq R^n\) 为n维向量的集合,输出空间维类标记集合 \(Y = \{c_1,c_2,...,c_k\}\) 。输入特征向量 \(x \in \chi\) ,输出为类标记 \(y \in Y\) 。 \(p(x,y)\) 是 \(x,y\) 的联合概率分布。训练的数据集: \[ T = \{(x_1,y_1),(x_2,y_2),...,(x_N,y_n\} \] 由 \(p(x,y)\) 独立同分布产生。 要得到训练数据集的联合概率分布,先得学习以下先验概率和条件概率: \[ \begin{align} p(Y=c_k) ,k=1,2,...,K \notag \\ p(X=x|Y=c_k) = p(x^{(1)},x^{(2)},...,x^{(n)}|c_k) \tag{1} \end{align} \] 其中(1)的条件概率分布,不太好算,假设每个 \(x^{(l)}\) 由 \(a\) 个数值可供选择,那么计算(1)式就需要考虑 \(a

朴素贝叶斯

Deadly 提交于 2019-12-06 14:42:58
朴素贝叶斯 (一)引言 朴素贝叶斯是一种基于贝叶斯定理和特征条件独立性假设的常见的机器学习分类算法。假设给定一个训练数据集,首先根据特征条件独立性假设来学习输入/输出 的联合概率分布(学习得到一个模型)。然后根据该模型,对于给定的新的样本数据(即不在训练数据集中),利用贝叶斯定理求出后验概率最大的输出y(类别标签)。 目标 :给定样本数据 , 我们要求的是 。其中 代表类别,共有k个类(Mnist数据集k为10)。为了求 ,我们要用到贝叶斯定理来求后验概率。下面先介绍一下贝叶斯定理(先验概率、后验概率)。 (二)理解贝叶斯公式 此部分参考博客( https://www.cnblogs.com/yemanxiaozu/p/7680761.html )。 (1) 先验概率: 根据客观事实和统计频率得出的概率。 (2) 后验概率: 某件事情已经发生了,在这个事实下,判断导致这件事情发生的不同原因的概率。后验概率要用先验概率来求解(贝叶斯公式)。 (3) 不正经例子(这个例子造着玩的,觉得有问题请看下个例子或直接转参考的博客): 有一个班级只有小倪、小杨和班花小柳三人。重磅消息:小柳和班里的某个人交往了。已知小倪(高富帅)各方面都优于小杨且小柳只能被追,问小柳的交往对象是小倪的概率是多少?(假设你回答是80%,那么你已经进行了一次后验概率的猜测。)下面用贝叶斯公式来求解一下:

朴素贝叶斯

岁酱吖の 提交于 2019-12-05 11:23:49
基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对于给定的输入,利用贝叶斯定理求出后验概率最大的输出 \(y\) 。 朴素贝叶斯法通过训练数据集学习联合概率分布 \(P(X,Y)\) 。具体地,学习以下先验概率分布及条件概率分布。先验概率分布: \[P(Y=c_k),\quad k=1,2,\cdots,K\] 条件概率分布: \[P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)},\cdots,X^{(n)}=x^{(n)}|Y=c_k),\quad k=1,2,\cdots, K\] 于是基于上面两个概率就学到了联合概率分布。但条件概率分布有指数级数量的参数,其估计实际上是不可行。 朴素贝叶斯法对条件概率分布做了条件独立性假设: \[\begin{aligned} P(X=x|Y=c_k) & =P(X^{(1)}=x^{(1)},\cdots,X^{(n)}=x^{(n)}|Y=c_k) \\ & = \prod \limits_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k) \end{aligned}\] 朴素贝叶斯法实际上学习到生成数据的机制,属于生成模型。条件独立假设等于说用于分类的特征在类确定的条件下都是条件独立的。这一假设使朴素贝叶斯法变得简单

从贝叶斯角度理解正则化

試著忘記壹切 提交于 2019-12-05 00:27:42
Table of Contents 前言1.贝叶斯法则2.正则化项3.贝叶斯正则化第$I$层贝叶斯框架第$\text{II}$层贝叶斯框架贝叶斯正则化算法步骤参考资料 前言 上一篇: 正则化 下一篇:贝叶斯正则化与提前终止法关系 1.贝叶斯法则 贝叶斯法则: P(A|B) = \frac{P(B|A)P(A)}{P(B)} P(A)称为先验概率(反映在已知B之前对事件A的认知);P(A|B)称为后验概率(反映在已知B之后对事件A的认知);P(B|A)是在事件A发生的条件下,事件B发生的条件概率;P(B)是事件的边缘概率(被用作归一化因子) 贝叶斯法则在于先验概率,如果它很大,那么后验概率也将显著增大 2.正则化项 一个包括网络输入及其对应目标输出的训练样本集: \left{ p_{1},t_{1} \right},\left{ p_{2},t_{2} \right},\cdots,\left{ p_{n},t_{n} \right} 假设目标输出通过如下方式生成: t_{q} = g(p_{q}) + \varepsilon_{q} (13.2) 其中,g()为某未知函数,\varepsilon_{q}为一个随机独立分布的零均值噪声源。我们的训练目标是产生一个能够逼近函数g()并且忽略噪声影响的神经网络。 神经网络训练的标准性能指标是该网络在训练集上的误差平方和: F(x) = E

贝叶斯笔记

回眸只為那壹抹淺笑 提交于 2019-12-04 21:26:32
绪论 贝叶斯学派的最基本的观点是: 任一个未知量 \(\theta\) 都可看作一个随机变量,应该用一个概率分布去描述对 \(\theta\) 的未知状况。 这个概率分布是在抽样前就有的关于 \(\theta\) 的先验信息的概率称述。 似然函数 属于联合密度函数,综合了总体信息和样本信息 \[ L(\theta^\prime)=p(X|\theta^\prime)=\prod_{i=1}^n p(x_i|\theta^\prime) \] 贝叶斯公式的密度函数形式与离散形式,其中 \(\theta\) 的条件分布称为 \(\theta\) 的后验分布,集中了总体、样本和先验等三种信息中有关 \(\theta\) 的一切信息,排除了与之无关的信息。一般先验分布 \(\pi(\theta)\) 反映人们抽样前的认识,通过抽样信息(总体信息和样本信息)对先验进行调整形成后验分布。 \[ \pi(\theta|\pmb{x})=\frac{p(\pmb{x}|\theta)\pi(\theta)}{h(\pmb{x},\theta)}=\frac{p(\pmb{x}|\theta)\pi(\theta)}{\int_{\Theta} {p(\pmb{x}|\theta)\pi(\theta)}\rm d\theta} \] \[ \pi(\theta_i|x)=\frac{p(x|

算法 - 朴素贝叶斯分类算法

泄露秘密 提交于 2019-12-04 04:52:52
带你搞懂朴素贝叶斯分类算法 带你搞懂朴素贝叶斯分类算 贝叶斯分类是一类分类 算法 的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。这篇文章我尽可能用直白的话语总结一下我们学习会上讲到的朴素贝叶斯分类算法,希望有利于他人理解。 1 分类问题综述 对于分类问题,其实谁都不会陌生,日常生活中我们每天都进行着分类过程。例如,当你看到一个人,你的脑子下意识判断他是学生还是社会上的人;你可能经常会走在路上对身旁的朋友说“这个人一看就很有钱”之类的话,其实这就是一种分类操作。 既然是贝叶斯分类算法,那么分类的数学描述又是什么呢? 从数学角度来说,分类问题可做如下定义:已知集合 和 ,确定映射规则y = f(x),使得任意 有且仅有一个 ,使得 成立。 其中C叫做类别集合,其中每一个元素是一个类别,而I叫做项集合(特征集合),其中每一个元素是一个待分类项,f叫做分类器。分类算法的任务就是构造分类器f。 分类算法的内容是要求给定特征,让我们得出类别,这也是所有分类问题的关键。那么如何由指定特征,得到我们最终的类别,也是我们下面要讲的,每一个不同的分类算法,对应着不同的核心思想。 本篇文章,我会用一个具体实例,对朴素贝叶斯算法几乎所有的重要知识点进行讲解。 2 朴素贝叶斯分类 那么既然是朴素贝叶斯分类算法