贝叶斯

贝叶斯估计,最大似然函数,最小二乘概念

六眼飞鱼酱① 提交于 2019-12-14 20:37:40
在英语语境里,likelihood 和 probability 的日常使用是可以互换的,都表示对机会 (chance) 的同义替代。但在数学中,probability 这一指代是有严格的定义的,即符合柯尔莫果洛夫公理 (Kolmogorov axioms) 的一种数学对象(换句话说,不是所有的可以用0到1之间的数所表示的对象都能称为概率)。而 likelihood (function) 这一概念是由Fisher提出,他采用这个词,也是为了凸显他所要表述的数学对象既和 probability 有千丝万缕的联系,但又不完全一样的这一感觉。 中文把它们一个翻译为概率(probability),一个翻译为似然(likelihood)也是独具匠心。 似然函数的定义: 上式中,小 x 指的是联合样本随机变量 X 取到的值,即 X = x ;这里的 θ 是指未知参数,它属于参数空间;而 是一个密度函数,特别地,它表示(给定) θ 下关于联合样本值 x 的联合密度函数。 从定义上,似然函数和密度函数是完全不同的两个数学对象:前者是关于 θ 的函数,后者是关于 x 的函数。所以这里的等号= 理解为函数值形式的相等,而不是两个函数本身是同一函数(根据函数相等的定义,函数相等当且仅当定义域相等并且对应关系相等)。 两者的联系: 如果X是离散随机变量,那么其概率密度函数 可改写为: 即代表了在参数为 θ

04 朴素贝叶斯法——读书笔记

久未见 提交于 2019-12-14 01:02:03
一、相关概念: 先验概率: 是指事件发生前的预判概念,也可以说是“因”发生的概率,即表示为 P(X)。 条件概率: 是指事件发生后求得反向条件概率,也可以说是在“因”的条件下,“果”发生的概率,即表示为 P(Y|X)。 后验概率: 一个事件发生后导致另一个事件发生的概率,也可以说是在“果”出现的情况下,是什么“因”导致的概率,即表示为P(X|Y)。 似然概率: 类似于条件概率,即“因”的条件下,“果”发生的概率,即表示为 P(Y|X)。 贝叶斯定理:(又称条件概率定理) P ( Y ∣ X ) = P ( X ∣ Y ) ∗ P ( Y ) P ( X ) P(Y|X)=\frac{P(X|Y)*P(Y)}{P(X)} P ( Y ∣ X ) = P ( X ) P ( X ∣ Y ) ∗ P ( Y ) ​ 二、朴素贝叶斯法概述: 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入输出的联合概率分布;然后基于该模型,对于给定的输入 x x x ,利用贝叶斯定理求出后验概率最大的输出 y y y . 先验概率分布、条件概率分布、联合概率分布: 已知输入空间 χ ⫅ R n \chi \subseteqq R^{n} χ ⫅ R n 为 n n n 维向量的集合,输出空间为类标记集合 γ = { c 1 , c 2 , .

分类算法之朴素贝叶斯分类

早过忘川 提交于 2019-12-12 16:47:12
贝叶斯分类是一类分类 算法 的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。这篇文章我尽可能用直白的话语总结一下我们学习会上讲到的朴素贝叶斯分类算法,希望有利于他人理解。 1 分类问题综述 对于分类问题,其实谁都不会陌生,日常生活中我们每天都进行着分类过程。例如,当你看到一个人,你的脑子下意识判断他是学生还是社会上的人;你可能经常会走在路上对身旁的朋友说“这个人一看就很有钱”之类的话,其实这就是一种分类操作。 既然是贝叶斯分类算法,那么分类的数学描述又是什么呢? 从数学角度来说,分类问题可做如下定义:已知集合 和 ,确定映射规则y = f(x),使得任意 有且仅有一个 ,使得 成立。 其中C叫做类别集合,其中每一个元素是一个类别,而I叫做项集合(特征集合),其中每一个元素是一个待分类项,f叫做分类器。分类算法的任务就是构造分类器f。 分类算法的内容是要求给定特征,让我们得出类别,这也是所有分类问题的关键。那么如何由指定特征,得到我们最终的类别,也是我们下面要讲的,每一个不同的分类算法,对应着不同的核心思想。 本篇文章,我会用一个具体实例,对朴素贝叶斯算法几乎所有的重要知识点进行讲解。 2 朴素贝叶斯分类 那么既然是朴素贝叶斯分类算法,它的核心算法又是什么呢? 是下面这个贝叶斯公式: 换个表达形式就会明朗很多

朴素贝叶斯法

心不动则不痛 提交于 2019-12-07 18:58:31
朴素贝叶斯法 朴素贝叶斯(naive bayes) 法是基于贝叶斯定理和特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入输出的联合概率分布,然后基于此分布,对给定的输入 \(x\) 利用贝叶斯定理求其后验概率最大的输出。 一、朴素贝叶斯法的学习 1.1 基本方法 设输入空间 \(\chi \subseteq R^n\) 为n维向量的集合,输出空间维类标记集合 \(Y = \{c_1,c_2,...,c_k\}\) 。输入特征向量 \(x \in \chi\) ,输出为类标记 \(y \in Y\) 。 \(p(x,y)\) 是 \(x,y\) 的联合概率分布。训练的数据集: \[ T = \{(x_1,y_1),(x_2,y_2),...,(x_N,y_n\} \] 由 \(p(x,y)\) 独立同分布产生。 要得到训练数据集的联合概率分布,先得学习以下先验概率和条件概率: \[ \begin{align} p(Y=c_k) ,k=1,2,...,K \notag \\ p(X=x|Y=c_k) = p(x^{(1)},x^{(2)},...,x^{(n)}|c_k) \tag{1} \end{align} \] 其中(1)的条件概率分布,不太好算,假设每个 \(x^{(l)}\) 由 \(a\) 个数值可供选择,那么计算(1)式就需要考虑 \(a

整理的机器学习资源大全

假如想象 提交于 2019-12-07 14:48:16
本文汇编了一些机器学习领域的框架、库以及软件(按编程语言排序)。 伯乐在线已在 GitHub 上发起「机器学习资源大全中文版」的整理。欢迎扩散、欢迎加入。 https://github.com/jobbole/awesome-machine-learning-cn C++ 计算机视觉 CCV —基于C语言/提供缓存/核心的机器视觉库,新颖的机器视觉库 OpenCV —它提供C++, C, Python, Java 以及 MATLAB接口,并支持Windows, Linux, Android and Mac OS操作系统。 通用机器学习 MLPack DLib ecogg shark Closure 通用机器学习 Closure Toolbox —Clojure语言库与工具的分类目录 Go 自然语言处理 go-porterstemmer —一个Porter词干提取算法的原生Go语言净室实现 paicehusk —Paice/Husk词干提取算法的Go语言实现 snowball —Go语言版的Snowball词干提取器 通用机器学习 Go Learn — Go语言机器学习库 go-pr —Go语言机器学习包. bayesian —Go语言朴素贝叶斯分类库。 go-galib —Go语言遗传算法库。 数据分析/数据可视化 go-graph —Go语言图形库。 SVGo

监督学习最常见的四种算法

北战南征 提交于 2019-12-06 16:37:53
在 机器学习 中,无监督学习(Unsupervised learning)就是聚类,事先不知道样本的类别,通过某种办法,把相似的样本放在一起归位一类;而监督型学习(Supervised learning)就是有训练样本,带有属性标签,也可以理解成样本有输入有输出。 所有的回归 算法 和分类算法都属于监督学习。回归(Regression)和分类(Classification)的算法区别在于输出变量的类型,定量输出称为回归,或者说是连续变量预测;定性输出称为分类,或者说是离散变量预测。 以下是一些常用的监督型学习方法。 一. K-近邻算法(k-Nearest Neighbors,KNN) K-近邻是一种分类算法,其思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。K通常是不大于20的整数。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 如上图,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类。 算法的步骤为: (1)计算 测试 数据与各个训练数据之间的距离; (2

朴素贝叶斯

Deadly 提交于 2019-12-06 14:42:58
朴素贝叶斯 (一)引言 朴素贝叶斯是一种基于贝叶斯定理和特征条件独立性假设的常见的机器学习分类算法。假设给定一个训练数据集,首先根据特征条件独立性假设来学习输入/输出 的联合概率分布(学习得到一个模型)。然后根据该模型,对于给定的新的样本数据(即不在训练数据集中),利用贝叶斯定理求出后验概率最大的输出y(类别标签)。 目标 :给定样本数据 , 我们要求的是 。其中 代表类别,共有k个类(Mnist数据集k为10)。为了求 ,我们要用到贝叶斯定理来求后验概率。下面先介绍一下贝叶斯定理(先验概率、后验概率)。 (二)理解贝叶斯公式 此部分参考博客( https://www.cnblogs.com/yemanxiaozu/p/7680761.html )。 (1) 先验概率: 根据客观事实和统计频率得出的概率。 (2) 后验概率: 某件事情已经发生了,在这个事实下,判断导致这件事情发生的不同原因的概率。后验概率要用先验概率来求解(贝叶斯公式)。 (3) 不正经例子(这个例子造着玩的,觉得有问题请看下个例子或直接转参考的博客): 有一个班级只有小倪、小杨和班花小柳三人。重磅消息:小柳和班里的某个人交往了。已知小倪(高富帅)各方面都优于小杨且小柳只能被追,问小柳的交往对象是小倪的概率是多少?(假设你回答是80%,那么你已经进行了一次后验概率的猜测。)下面用贝叶斯公式来求解一下:

N-gram模型

淺唱寂寞╮ 提交于 2019-12-06 14:42:39
N-gram模型 (一)引言 N-gram是自然语言处理中常见一种基于统计的语言模型 。 它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。每一个字节片段称为gram,在所给语句中对所有的gram出现的频数进行统计。再根据整体语料库中每个gram出现的频数进行比对可以得到所给语句中每个gram出现的概率。N-gram在判断句子合理性、句子相似度比较、分词等方面有突出的表现。 (二)朴素贝叶斯(Naive Bayes) 首先我们复习一下一个非常基本的模型,朴素贝叶斯(Naive Bayes)。朴素贝叶斯的关键组成是贝叶斯公式与条件独立性假设。可以参考( https://www.yuque.com/dadahuang/tvnnrr/gksobm )。为了方便说明,我们举一个垃圾短信分类的例子: 假如你的邮箱受到了一个垃圾邮件,里面的内容包含: “性感荷官在线发牌...” 根据朴素贝叶斯的目的是计算这句话属于垃圾短信敏感句子的概率。根据前面朴素贝叶斯的介绍,由 可得: P(垃圾短信|“性感荷官在线发牌”) 正相关于 P(垃圾邮件)P(“性感荷官在线发牌”|垃圾短信) 由条件独立性假设可得: P(“****性感荷官在线发牌****”|垃圾短信) = ****P("性","感","荷","官","在","线","发","牌"****|垃圾短信)

BAT机器学习面试1000题系列

本小妞迷上赌 提交于 2019-12-06 14:35:20
几点声明: 1、本文的内容全部来源于七月在线发布的BAT机器学习面试1000题系列; 2、文章中带斜体的文字代表是本人自己增加的内容,如有错误还请批评指正; 3、原文中有部分链接已经失效,故而本人重新加上了新的链接,如有不当,还请指正。(也已用斜体标出) 4、部分答案由于完全是摘抄自其它的博客,所以本人就只贴出答案链接,这样既可以节省版面,也可以使排版更加美观。点击对应的问题即可跳转。 最后,此博文的排版已经经过本人整理,公式已用latex语法表示,方便读者阅读。同时链接形式也做了优化,可直接跳转至相应页面,希望能够帮助读者提高阅读体验,文中如果因为本人的整理出现纰漏,还请指出,大家共同进步! 1.请简要介绍下SVM。 SVM,全称是support vector machine,中文名叫支持向量机。SVM是一个面向数据的分类算法,它的目标是为确定一个分类超平面,从而将不同的数据分隔开。 扩展: 支持向量机学习方法包括构建由简至繁的模型:线性可分支持向量机、线性支持向量机及非线性支持向量机。当训练数据线性可分时,通过硬间隔最大化,学习一个线性的分类器,即线性可分支持向量机,又称为硬间隔支持向量机;当训练数据近似线性可分时,通过软间隔最大化,也学习一个线性的分类器,即线性支持向量机,又称为软间隔支持向量机;当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性支持向量机。

机器学习中的隐马尔科夫模型(HMM)详解

﹥>﹥吖頭↗ 提交于 2019-12-06 14:30:48
前导性推荐阅读资料: 从朴素贝叶斯分类器到贝叶斯网络(上) 从朴素贝叶斯分类器到贝叶斯网络(下) 欢迎关注白马负金羁的博客 http://blog.csdn.net/baimafujinji ,为保证公式、图表得以正确显示,强烈建议你从该地址上查看原版博文。本博客主要关注方向包括:数字图像处理、算法设计与分析、数据结构、机器学习、数据挖掘、统计分析方法、自然语言处理。 引言 在之前介绍贝叶斯网络的博文中,我们已经讨论过概率图模型(PGM)的概念了。Russell等在文献【1】中指出:“在统计学中,图模型这个术语指包含贝叶斯网络在内的比较宽泛的一类数据结构。” 维基百科中更准确地给出了PGM的定义:“A graphical model or probabilistic graphical model is a probabilistic model for which a graph expresses the conditional dependence structure between random variables. ” 如果你已经掌握了贝叶斯网络,那么你一定不会对PGM的概念感到陌生。本文将要向你介绍另外一种类型的PGM,即隐马尔可夫模型(HMM,Hidden Markov Model)。更准确地说,HMM是一种特殊的贝叶斯网络。 一些必备的数学知识 随机过程