贝叶斯

朴素贝叶斯

风格不统一 提交于 2019-11-28 06:16:10
1、贝叶斯定理: 2、朴素贝叶斯分类器 朴素贝叶斯分类的正式定义如下: 1、设 为一个待分类项,而每个a为x的一个特征属性。 2、有类别集合 。 3、计算 。 4、如果 ,则 。 那么现在的关键就是如何计算第3步中的各个条件概率。我们可以这么做: 1、找到一个已知分类的待分类项集合,这个集合叫做训练样本集。 2、统计得到在各类别下各个特征属性的条件概率估计。即 。 3、如果各个特征属性是条件独立的,则根据贝叶斯定理有如下推导: 因为分母对于所有类别为常数,因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的,所以有: 根据上述分析,朴素贝叶斯分类的流程可以由下图表示(暂时不考虑验证): 来源: https://www.cnblogs.com/zf-blog/p/11396836.html

贝叶斯拼写检查器

故事扮演 提交于 2019-11-28 03:24:13
p(h+|D) = p(h) * p(D|h+) / p(D) 表示一个单词输错的概率 = 单词的词频 * 一个输错单词的可能的正确单词的数量 p(h-|D) = p(h) * p(D|h-) / p(D) 第一步:读取词库,通过正则找出每个单词,并统计单词的词频 import collections, re #找出所有的单词,并且变成小写 def word(text): return re.findall('[a-z]+', text.lower()) #晒出内容的词频 def train(feature): model = collections.defaultdict(lambda :1) for f in feature: model[f] += 1 return model NWORDS = train(word(open('big.txt').read())) 第二步 : 模拟一个错误单词的其他拼写可能性 alphabet = 'abcdefghijklmnopqrstuvwxyz' # 编辑出其他拼写的可能性 def edits1(word): n = len(word) return set([word[0:i]+word[i+1:] for i in range(n)] + # deletion [word[0:i]+word[i+1]+word[i]+word

学习贝叶斯定理

Deadly 提交于 2019-11-28 01:44:40
感谢 https://mp.weixin.qq.com/s/YPUHWBPwRiH0N0AFNnIrmw 整理一下,学习笔记 贝叶斯定理是一种 在 已知 其他概率的情况下 求概率的方法: P(A|B) 是在 B 发生的情况下 A 发生的概率; P(A) 是 A 发生的概率; P(B|A) 是在 A 发生的情况下 B 发生的概率; P(B) 是 B 发生的概率。 第一个例子: 50%的雨天的早上是多云的! 但多云的早上其实挺多的(大约40%的日子早上是多云的)! 这个月干旱为主(平均30天里一般只有3天会下雨,10%)! 我们用"雨"来代表今天下雨,"云"来代表早上多云。 当早上多云时,当天会下雨的可能性是 P(雨|云)。 P(雨|云) = P(雨)·P(云|雨) /P(云) P(雨) 是今天下雨的概率 = 10% P(云|雨) 是在下雨天早上有云的概率 = 50% P(云) 早上多云的概率 = 40% P(雨|云) =0.1×0.5/0.4=0.125 今天下雨的概率只有12.5% 重点是 公式怎么记住!!! AB AB AB 来源: https://www.cnblogs.com/duoba/p/11384352.html

【机器学习笔记】朴素贝叶斯_分类评论示例

拜拜、爱过 提交于 2019-11-28 00:10:21
朴素贝叶斯 概念:   英文名Naive Bayesian Model,简称NB,是一种玩条件概率的分类模型。   条件概率公式:   P(A) 指事件A发生的概率;   P(AB) 指事件A与B同时发生的概率;   P(A|B) 指事件A在事件B已经发生的情况下,发生的概率。 示例:   评价分类,好评(标记为0)或差评(标记为1)的数据集 DataSet:   上面的单词模型 VacbModel(词袋模型)就是: [my, problems, cute, dalmation, so, licks, steak, take, food, stupid, I, posting, ate, not, quit, has, maybe, flea, dog, him, please, garbage, buying, to, worthless, love, is, stop, mr, how, park, help] 32项   DataSet[0] 中的 problems 对应到 VacbModel 中的第2项,也即 VacbModel[1]。如果对应到即表示1,没有对应就表示为0,那么DataSet[0]的词集是: [1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,1,1,0,1,0,0,0,0,0,0,0,0,0,0,1] 设A为 “一个句子出现这些词”

4 朴素贝叶斯法

时光毁灭记忆、已成空白 提交于 2019-11-27 21:48:41
朴素贝叶斯法 朴素贝叶斯(naïve Bayes)法是基于贝叶斯定理与特征条件独立假设的分类方法,是一种生成模型。 朴素贝叶斯法的学习与分类 基本方法 朴素贝叶斯法通过训练数据集学习联合概率分布 P(X,Y)。具体地,学习先验概率分布 P(Y=c k )及条件概率分布 P(X=x|Y=c k )。于是得到联合概率分布 P(X=x,Y=y)=P(X=x|Y=y)• P(Y=y) 先验概率:事件发生前的预判概率,一般都是单独事件概率。如 P(Y)或 P(X) 后验概率:事件发生后求的反向条件概率;或者说,基于先验概率求得的反向条件概率。如 P(Y|X) 条件概率:一个事件发生后另一个事件发生的概率。如 P(X|Y) 实例:假设y是文章种类,是一个枚举值;x是向量,表示文章中各个单词的出现次数。 在拥有训练集的情况下,显然除了后验概率P(y|x)中的x来自一篇新文章无法得到,p(x),p(y),p(x|y)都是可以在抽样集合上统计出的。 两者之间的关系:先验概率是获得后验概率的前提。 朴素贝叶斯法对条件概率分布作了条件独立性的假设: 朴素贝叶斯法分类时,对给定的输入x,通过学习到的模型计算后验概率分布P(Y=c k |X=x),将后验概率最大的类作为x的类输出。后验概率计算根据贝叶斯定理进行: 于是,朴素贝叶斯分类器可表示为 : 注意到,在上式中分母对所有C k 都是相同的,所以

机器学习之贝叶斯算法

泪湿孤枕 提交于 2019-11-27 16:43:32
一、贝叶斯简介   贝叶斯(约1701-1761) Thomas Bayes,英国数学家,贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章,生不逢时,死后它的作品才被世人认可。       贝叶斯要解决的问题:   正向概率:假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大?   逆向概率:如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测。   现实世界有很多问题本身就是不确定的(比如上面的逆向概率,不确定球的个数),而人类的观察能力是有局限性的,由于我们日常所观察到的只是事物表面上的结果(比如上面的逆向概率,观察取出来的球的颜色),因此我们需要提供一个猜测来得到袋子里面球的比例。 二、贝叶斯推导过程   首先引入一个栗子,假设在一个学校里面男生的概率和女生的概率分别是60%和40%,男生总是穿长裤,女生则一半穿长裤一半穿裙子。   正向概率:随机选取一个学生,他(她)穿长裤的概率和穿裙子的概率是多大?这个比例的计算就比较简单了。   逆向概率:迎面走来一个穿长裤的学生,你只看得见他(她)穿的是否长裤,而无法确定他(她)的性别,你能够推断出他(她)是女生的概率是多大吗?这就是我们要解决的问题。       假设学校里面人的总数是 U 个

机器学习(朴素贝叶斯)

时光总嘲笑我的痴心妄想 提交于 2019-11-27 15:47:14
参考 http://blog.csdn.net/c406495762 1.了解概率论的相关知识(条件概率、全概率、先验概率,后验概率等) 2.朴素贝叶斯 将实例分到 后验概率最大的类(等价于期望风险最小化,看绿皮书61页),这就是原理 3.后验概率: B事件发生之后,我们对A事件概率的重新评估。P(A|B) 4.在实际的编程中,在做分类的饿时候,我们只是需要比较概率的大小,而两者分母一致,故只需要计算分子的大小。 5.朴素贝叶斯,特征之间是相互独立的。 来源: https://blog.csdn.net/weixin_43384504/article/details/99692660