贝叶斯

半朴素贝叶斯

≡放荡痞女 提交于 2019-12-06 10:29:47
基于朴素贝叶斯分类的原理如下: \[ \begin{align} P(c|x)=\frac{P(c)P(x|c)}{P(x)} = \frac{P(c)}{P(x)}\prod_{i=1}^dP(x_i|c) \end{align} \] 来源: https://www.cnblogs.com/laojifuli/p/11978067.html

朴素贝叶斯算法

最后都变了- 提交于 2019-12-06 03:08:46
简介 机器学习算法中,有种依据概率原则进行分类的朴素贝叶斯算法,正如气象学家预测天气一样,朴素贝叶斯算法就是应用先前事件的有关数据来估计未来事件发生的概率 公式 P(A|B) = P(A)*P(B|A)/P(B) 解释: P(A): A事件发生的概率。 P(B): B事件发生的概率。 P(A | B) 表示在B事件发生的情况下, A事件发生的概率。 P(B | A) 表示在A事件发生的情况下, B事件发生的概率。 P(A ∩ B) 表示事件A与事件B同时发生的概率。 案例 我们知道P(垃圾邮件)和P(Viagra)是相互独立的,则容易计算P(垃圾邮件&Viagra),即这两个事件同时发生的概率。20%*5%=1% 对于该案例来说 P(spam): 是垃圾邮件的概率。 P(Viagra): 邮件中有伟哥单词的概率。 P(spam | Viagra): 已知邮件中有伟哥词汇, 该邮件是垃圾邮件的概率。 P(Viagra | spam): 已知是垃圾邮件, 该邮件中有伟哥单词的概率。 计算贝叶斯定理中每一个组成部分的概率,我们必须构造一个频率表 P(spam|Viagra)=P(Viagra|spam) P(spam)/P(Viagra)=(4/20) (20/100)/(5/100)=0.8 因此,如果电子邮件含有单词Viagra,那么该电子邮件是垃圾邮件的概率为80%。所以

贝叶斯网络

笑着哭i 提交于 2019-12-05 15:35:37
参考链接 贝叶斯网络是什么?       一个模型,该模型描绘各个状态之间是如何通过概率连接起来的。       上图中,天气状态分为:sunny,cloudy,rainy; 洒水车状态分为:喷洒,不喷洒;草坪状态分为:湿润,干燥       如果通过联合概率来表示上述三个事件中,一个事件发生的情况下,另一个事件发生的概率,则需要3*2*2=12种可能,显然不划算。因为它把一些不必要的情况也考虑了。所以,需要用条件概率来表示。     贝叶斯网络的一个重要特点:不可以有圈。下图就不是贝叶斯网络          贝叶斯网络为什么有用? 仅仅存储父子相关的概率,节省存储空间和计算时间 仅仅只用很少的数据开始,就可以。后续数据增加的时候,也较为方便 举例说明为何说贝叶斯网络适应性强: 数据 图标 30% of the US population smokes. Lung cancer can be found in about 70 people per 100,000. TB occurs in about 10 people per 100,000. Bronchitis can be found in about 800 people per 100,000. Dyspnea can be found in about 10% of people, but most of

朴素贝叶斯

岁酱吖の 提交于 2019-12-05 11:23:49
基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对于给定的输入,利用贝叶斯定理求出后验概率最大的输出 \(y\) 。 朴素贝叶斯法通过训练数据集学习联合概率分布 \(P(X,Y)\) 。具体地,学习以下先验概率分布及条件概率分布。先验概率分布: \[P(Y=c_k),\quad k=1,2,\cdots,K\] 条件概率分布: \[P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)},\cdots,X^{(n)}=x^{(n)}|Y=c_k),\quad k=1,2,\cdots, K\] 于是基于上面两个概率就学到了联合概率分布。但条件概率分布有指数级数量的参数,其估计实际上是不可行。 朴素贝叶斯法对条件概率分布做了条件独立性假设: \[\begin{aligned} P(X=x|Y=c_k) & =P(X^{(1)}=x^{(1)},\cdots,X^{(n)}=x^{(n)}|Y=c_k) \\ & = \prod \limits_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k) \end{aligned}\] 朴素贝叶斯法实际上学习到生成数据的机制,属于生成模型。条件独立假设等于说用于分类的特征在类确定的条件下都是条件独立的。这一假设使朴素贝叶斯法变得简单

MNIST | 基于k-means和KNN的0-9数字手写体识别

匆匆过客 提交于 2019-12-05 09:03:48
MNIST | 基于k-means和KNN的0-9数字手写体识别 1 背景说明 2 算法原理 3 代码实现 3.1 文件目录 3.2 核心代码 4 实验与结果分析 5 后记 概要: 本实验是在实验“ kaggle|基于k-means和KNN的语音性别识别 ”、实验“ MNIST|基于朴素贝叶斯分类器的0-9数字手写体识别 ”以及实验“ 算法|k-means聚类 ”的基础上进行的,把k-means聚类和CNN识别应用到数字手写体识别问题中去。有关MINIST数据集和kmeans+KNN的内容可以先看我的上面三篇博文,本实验的代码依然是MATLAB。 关键字: 数字手写体识别; k-means; KNN; MATLAB; 机器学习 1 背景说明    我在我的 上上篇博文 中提到会把kmeans聚类算法用到诸如语音性别识别和0-9数字手写体识别等具体问题中去, 语音性别识别的实验 已经在11月2号完成,现在来填0-9数字手写体识别的坑。由于本篇博客承接了我之前若干篇博客,而MNIST数据集、kmeans以及KNN算法的原理和用法等内容均已在之前提到过,所以这里不再专门说明。 2 算法原理    可以将本次实验思路概括如下:    S1:训练时,将训练集中0-9对应的数据各聚成k类,共计10k个聚类中心;    S2:验证时

李航《统计学习方法》高清带标签可复制PDF学习下载

对着背影说爱祢 提交于 2019-12-05 07:39:42
1 下载链接 百度云盘链接: 李航《统计学习方法》高清带标签可复制PDF下载 2 内容简介 统计学习是计算机及其应用领域的一门重要的学科。《统计学习方法》全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与支持向量机、提升方法、em算法、隐马尔可夫模型和条件随机场等。除第1章概论和最后一章总结外,每章介绍一种方法。叙述从具体问题或实例入手,由浅入深,阐明思路,给出必要的数学推导,便于读者掌握统计学习方法的实质,学会运用。为满足读者进一步学习的需要,书中还介绍了一些相关研究,给出了少量习题,列出了主要参考文献。 《统计学习方法》是统计学习及相关课程的教学参考书,适用于高等院校文本数据挖掘、信息检索及自然语言处理等专业的大学生、研究生,也可供从事计算机应用相关专业的研发人员参考。 3 目录 第1章 统计学习方法概论 1.1 统计学习 1.2 监督学习 1.3 统计学习三要素 1.4 模型评估与模型选择 1.5 i~则化与交叉验证 1.6 泛化能力 1.7 生成模型与判别模型 1.8 分类问题 1.9 标注问题 1.10 回归问题 本章概要 继续阅读 习题 参考文献 第2章 感知机 2.1 感知机模型 2.2 感知机学习策略 2.3 感知机学习算法 本章概要 继续阅读 习题 参考文献 第3章 众近邻法 3.1 k近邻算法 3