贝叶斯

朴素贝叶斯介绍

為{幸葍}努か 提交于 2020-01-07 20:52:36
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 1.贝叶斯定理定义 贝叶斯定理是关于随机事件 A 和 B 的条件概率: 其中P(A|B)是在 B 发生的情况下 A 发生的可能性。 在贝叶斯定理中,每个名词都有约定俗成的名称: P(A)是 A 的先验概率,之所以称为“先验”是因为它不考虑任何 B 方面的因素。 P(A|B)是已知 B 发生后 A 的条件概率,也由于得自 B 的取值而被称作 A 的后验概率。 P(B|A)是已知 A 发生后 B 的条件概率,也由于得自 A 的取值而被称作 B 的后验概率。 P(B)是 B 的先验概率,也作标淮化常量(normalizing constant)。 来源: oschina 链接: https://my.oschina.net/pengchanghua/blog/3154594

使用机器学习做文本分类知识点总结

孤街浪徒 提交于 2020-01-01 02:04:02
文本分类主要流程 获取数据集 使用爬虫从网上获取。 下载某些网站整理好的数据集。 公司内部数据资源。 数据预处理 数据预处理是按照需求将数据整理出不同的分类,分类预测的源头是经过预处理的数据,所以数据预处理非常重要,会影响到后期文本分类的好坏。 预处理主要分为以下几个步骤: 将数据集按类别做好不同分类 将分类好的数据集分为训练集和测试集 去除数据集中的空字段或对空字段添加标识 对文本进行分词 1. 加载自己需要的分词词典和停用词(使后期模型更加简单、准确) 2. 去除无用的字符符号 3. 进行分词 特征提取 对于文本分类的特征提取目前主要有Bag of Words(词袋法)、TfIdf、Word2Vec、Doc2Vec。 词袋法介绍 对于每一个训练文本,它只考虑每种词汇在该训练文本中出现的频率。没有考虑到单词的顺序,忽略了单词的语义信息。 TfIdf算法介绍 除了考量某词汇在文本出现的频率,还关注包含这个词汇的所有文本的数量,能够削减高频没有意义的词汇出现带来的影响,挖掘更有意义的特征,相对词袋法来说,文本条目越多,Tfidf的效果会越显著。缺点也是没有考虑到单词的顺序。 Word2Vec算法介绍 Word2Vec的优点就是考虑了一个句子中词与词之间的关系,关于两个词的关系亲疏,word2vec从两个角度去考虑。第一,如果两个词意思比较相近,那么他们的向量夹角或者距离

参数估计:最大似然、贝叶斯与最大后验

房东的猫 提交于 2019-12-30 20:46:34
转:https://guangchun.wordpress.com/2011/10/13/ml-bayes-map/ 中国有句话叫“ 马后炮 ”, 大体上用在中国象棋和讽刺人两个地方,第一个很厉害,使对方将帅不得动弹,但这个跟我们今天说的基本没关系;第二个用途源于第一个,说事情都发生了再采取 措施,太迟了。但不可否认,我们的认知就是从错误中不断进步,虽然已经做错的不可能变得正确,但“来者尤可追”,我们可以根据既往的经验(数据),来判断 以后应该采取什么样的措施。这其实就是有监督机器学习的过程。其中涉及的一个问题就是模型中参数的估计。 为什么会有参数估计呢?这要源于我们对所研究问题的简化和假设。我们在看待一个问题的时候,经常会使用一些我们所熟知的经典的模型去简化问题,就像 我们看一个房子,我们想到是不是可以把它看成是方形一样。如果我们已经知道这个房子是三间平房,那么大体上我们就可以用长方体去描述它的轮廓。这个画房子 的问题就从无数的可能性中,基于方圆多少里大家都住平房的 经验 ,我们可以 假设 它是长方体,剩下的问题就是确定长宽高这三个 参数 了,问题被简化了。再如学生考试的成绩,根据既往的经验,我们可以假设学生的成绩是正态分布的,那么剩下的问题就是确定分布的期望和方差。所以, 之所以要估计参数,是因为我们希望用较少的参数去描述数据的总体分布

从负无穷学习机器学习(三)朴素贝叶斯

别来无恙 提交于 2019-12-28 19:46:20
一、朴素贝叶斯介绍 朴素贝叶斯是一种基于贝叶斯理论的有效监督学习算法,之所以称之为”朴素“,是因为它是基于样本特征之间互相独立的”朴素”假设。 正因如此,不需要考虑样本特征之间的关系,贝叶斯分类器的效率非常高。 朴素贝叶斯有三种方法: 伯努利朴素贝叶斯(Bernoulli Naive Bayes) 高斯贝叶斯(Gaussian Naive Bayes) 多项式贝叶斯(Multinomial Naive Bayes) # 导入numpy import numpy as np # 将X,y赋值为np数组 导入数据 X = np . array ( [ [ 0 , 1 , 0 , 1 ] , [ 1 , 1 , 1 , 0 ] , [ 0 , 1 , 1 , 0 ] , [ 0 , 0 , 0 , 1 ] , [ 0 , 1 , 1 , 0 ] , [ 0 , 1 , 0 , 1 ] , [ 1 , 0 , 0 , 1 ] ] ) y = np . array ( [ 0 , 1 , 1 , 0 , 1 , 0 , 0 ] ) # 对不同分类计算每个特征为1的数量 counts = { } for label in np . unique ( y ) : counts [ label ] = X [ y == label ] . sum ( axis = 0 ) # 打印计数结果

贝叶斯决策理论(1)

蹲街弑〆低调 提交于 2019-12-26 18:11:41
  数据来自于一个不完全清楚的过程。以投掷硬币为例,严格意义上讲,我们无法预测任意一次投硬币的结果是正面还是反面,只能谈论正面或反面出现的概率。在投掷过程中有大量会影响结果的不可观测的变量,比如投掷的姿势、力度、方向,甚至风速和地面的材质都会影响结果。也许这些变量实际上是可以观测的,但我们对这些变量对结果的影响缺乏必要的认知,所以退而求其次,把投掷硬币作为一个随机过程来建模,并用概率理论对其进行分析。      概率有时也被解释为频率或可信度,但是在日常生活中,人们讨论的概率经常包含着主观的因素,并不总是能等同于频率或可信度。比如有人分析中国足球队打进下次世界杯的概率是10%,并不是说出现的频率是10%,因为下次比赛还没有开始。我们实际上是说这个结果出现的可能性,由于是主观的,因此不同的人将给出不同的概率。   在数学上,概率研究的是随机现象背后的客观规律。我们对随机没有兴趣,感兴趣的是通过大量随机试验总结出的数学模型。当某个试验可以在完全相同的条件下不断重复时,对于任意事件E(试验的可能结果的集合,事件是集合,不是动作),结果在出现在E中的次数占比趋近于某个常量,这个常数极限是事件E的概率,用P(E)表示。   我们需要对现实世界建模,将现实世界的动作映射为函数,动作结果映射为数。比如把投硬币看作f(z),z是影响结果的一系列不可观测的变量,x 表示投硬币的结果,x = f(z)

理解贝叶斯公式 P(A|B)P(B)=P(A)P(B|A)

本秂侑毒 提交于 2019-12-25 16:18:26
贝叶斯公式应该画 级联 的图来理解 明确 P(A=0) = 0.5 P(B=0|A=0) = 0.6 P(B=0) = 0.6*0.5 + 0.25*0.6 + 0.25*0.6 = 0.6 则应用贝叶斯公式 P(A=0|B=0) = P(A=0)P(B=0|A=0) / P(B=0) = 0.5*0.6/0.6 = 0.5 明确 P(A=1) = 0.25 P(B=0|A=1) = 0.6 P(B=0) = 0.6*0.5 + 0.25*0.6 + 0.25*0.6 = 0.6 则应用贝叶斯公式 P(A=1|B=0) = P(A=1)P(B=0|A=1) / P(B=0) = 0.25*0.6/0.6 = 0.25 明确 P(A=2) = 0.25 P(B=0|A=2) = 0.6 P(B=0) = 0.6*0.5 + 0.25*0.6 + 0.25*0.6 = 0.6 则应用贝叶斯公式 P(A=2|B=0) = P(A=2)P(B=0|A=2) / P(B=0) = 0.25*0.6/0.6 = 0.25 可以看出B无论是0还是1,不影响A,合理 结论: 贝叶斯公式应该画 级联 的图来理解 来源: CSDN 作者: guotong1988 链接: https://blog.csdn.net/guotong1988/article/details/103698993

处理分类问题常用算法(二)-----算法岗面试题

笑着哭i 提交于 2019-12-25 12:56:51
● 分层抽样的适用范围 参考回答: 分层抽样利用事先掌握的信息,充分考虑了保持样本结构和总体结构的一致性,当总体由差异明显的几部分组成的时候,适合用分层抽样。 ● LR的损失函数 参考回答: M为样本个数, 为模型对样本i的预测结果, 为样本i的真实标签。 ● LR和线性回归的区别 参考回答: 线性回归用来做预测,LR用来做分类。线性回归是来拟合函数,LR是来预测函数。线性回归用最小二乘法来计算参数,LR用最大似然估计来计算参数。线性回归更容易受到异常值的影响,而LR对异常值有较好的稳定性。 ● 生成模型和判别模型基本形式,有哪些? 参考回答: 生成式:朴素贝叶斯、HMM、Gaussians、马尔科夫随机场 判别式:LR,SVM,神经网络,CRF,Boosting 详情:支持向量机 ● 核函数的种类和应用场景。 参考回答: 线性核、多项式核、高斯核。 特征维数高选择线性核 样本数量可观、特征少选择高斯核(非线性核) 样本数量非常多选择线性核(避免造成庞大的计算量) 详情:支持向量机 ● 分类算法列一下有多少种?应用场景。 参考回答: 单一的分类方法主要包括:LR逻辑回归,SVM支持向量机,DT决策树、NB朴素贝叶斯、NN人工神经网络、K-近邻;集成学习算法:基于Bagging和Boosting算法思想,RF随机森林,GBDT,Adaboost,XGboost。 ●

【文智背后的奥秘】系列篇——情感分类

随声附和 提交于 2019-12-22 19:40:28
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 版权声明:本文由文智原创文章,转载请注明出处: 文章原文链接: https://www.qcloud.com/community/article/92 来源:腾云阁 https://www.qcloud.com/community 情感分类是对带有感情色彩的主观性文本进行分析、推理的过程,即分析对说话人的态度,倾向正面,还是反面。它与传统的文本主题分类又不相同,传统主题分类是分析文本讨论的客观内容,而情感分类是要从文本中得到它是否支持某种观点的信息。比如,“日媒:认为歼-31能够抗衡F-35,这种说法颇具恭维的意味。”传统主题分类是要将其归为类别为“军事”主题,而情感分类则要挖掘出日媒对于“歼-31能够抗衡F-35”这个观点,持反面态度。这是一项具有较大实用价值的分类技术,可以在一定程度上解决网络评论信息杂乱的现象,方便用户准确定位所需信息。按照处理文本的粒度不同,情感分析可分为词语级、短语级、句子级、篇章级以及多篇章级等几个研究层次。按照处理文本的类别不同,可分为基于新闻评论的情感分析和基于产品评论的情感分析。 文智系统提供了一套情感分类的流程,可以对句子极别的评论进行分析,判断情感的正负倾向。接入业务的用户只需要将待分析文本按照规定的协议上传,就能实时得到情感分析的反馈。如果持续上传不同时间段的评论

统计学习 贝叶斯分类

倾然丶 夕夏残阳落幕 提交于 2019-12-22 08:58:10
【概率知识】 事件独立 :当事件x与事件y相互独立时,有 p(x,y|z)=p(x|z)*p(y|z) 成立 即事件x的发生与否 与 事件y发生与否 不相关,完全独立 条件概率 :p(x|y)表示当事件y发生时候,事件x发生的概率 全概率公式 :p(x)=p(x|y1)+p(x|y2)..... 一种理解角度是:事件x发生的概率,是出现y1现象时x发生的概率+出现y2现象时x发生的概率..... 而y1,y2,y3....是所有可能出现现象的划分。 联合概率 :p(x,y)=p(x|y)*p(y)=p(y|x)*p(x) 即两个事件同时发生的概率等于相应的条件概率和先验概率乘积 【贝叶斯定理】 案例: p(A)表示一个地区疾病A的发生率 p(B)表示一个人尿检为阳性的概率 p(B|A)表示感染疾病A时尿检为阳性的概率 根据这些求解 当一个人m尿检为阳性时候,患病的概率p(A|B)有多大 ? 根据日常认知,可以发现的现象: 如果该疾病当地发生率很低,那么m患病的概率可能性很小 如果该疾病当地发生率很高,那么m患病的概率可能性很高 如果患病时尿检为阳性概率很大,那么两者相关性较大,所以尿检为阳性时候,患病的概率也应该较大 如果患病时尿检为阳性概率很小,那么两者不太相关,那么尿检为阳性时,患病概率也不大 大量案例显示人员(无论是否患病)经常出现尿检为阳性

贝叶斯概念

这一生的挚爱 提交于 2019-12-20 16:40:09
1. 贝叶斯法则 机器学习的任务:在给定训练数据D时,确定假设空间H中的最佳假设。 最佳假设:一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设。贝叶斯理论提供了一种计算假设概率的方法,基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身。 2. 先验概率和后验概率 用P(h)表示在没有训练数据前假设h拥有的初始概率。P(h)被称为h的先验概率。先验概率反映了关于h是一正确假设的机会的背景知识如果没有这一先验知识,可以简单地将每一候选假设赋予相同的先验概率。类似地,P(D)表示训练数据D的先验概率,P(D|h)表示假设h成立时D的概率。机器学习中,我们关心的是P(h|D),即给定D时h的成立的概率,称为h的后验概率。 3. 贝叶斯公式 贝叶斯公式提供了从先验概率P(h)、P(D)和P(D|h)计算后验概率P(h|D)的方法 p(h|D)=P(D|H)*P(H)/P(D) P(h|D)随着P(h)和P(D|h)的增长而增长,随着P(D)的增长而减少,即如果D独立于h时被观察到的可能性越大,那么D对h的支持度越小。 4. 极大后验假设 学习器在候选假设集合H中寻找给定数据D时可能性最大的假设h,h被称为极大后验假设(MAP)确定MAP的方法是用贝叶斯公式计算每个候选假设的后验概率,计算式如下: h_map=argmax P(h|D)