贝叶斯 | 易学教程

朴素贝叶斯介绍

阅读更多关于朴素贝叶斯介绍

【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 1.贝叶斯定理定义贝叶斯定理是关于随机事件 A 和 B 的条件概率：其中P(A|B)是在 B 发生的情况下 A 发生的可能性。在贝叶斯定理中，每个名词都有约定俗成的名称： P(A)是 A 的先验概率，之所以称为“先验”是因为它不考虑任何 B 方面的因素。 P(A|B)是已知 B 发生后 A 的条件概率，也由于得自 B 的取值而被称作 A 的后验概率。 P(B|A)是已知 A 发生后 B 的条件概率，也由于得自 A 的取值而被称作 B 的后验概率。 P(B)是 B 的先验概率，也作标淮化常量（normalizing constant）。来源： oschina 链接： https://my.oschina.net/pengchanghua/blog/3154594

使用机器学习做文本分类知识点总结

阅读更多关于使用机器学习做文本分类知识点总结

文本分类主要流程获取数据集使用爬虫从网上获取。下载某些网站整理好的数据集。公司内部数据资源。数据预处理数据预处理是按照需求将数据整理出不同的分类，分类预测的源头是经过预处理的数据，所以数据预处理非常重要，会影响到后期文本分类的好坏。预处理主要分为以下几个步骤：将数据集按类别做好不同分类将分类好的数据集分为训练集和测试集去除数据集中的空字段或对空字段添加标识对文本进行分词 1. 加载自己需要的分词词典和停用词（使后期模型更加简单、准确） 2. 去除无用的字符符号 3. 进行分词特征提取对于文本分类的特征提取目前主要有Bag of Words(词袋法)、TfIdf、Word2Vec、Doc2Vec。词袋法介绍对于每一个训练文本，它只考虑每种词汇在该训练文本中出现的频率。没有考虑到单词的顺序，忽略了单词的语义信息。 TfIdf算法介绍除了考量某词汇在文本出现的频率，还关注包含这个词汇的所有文本的数量，能够削减高频没有意义的词汇出现带来的影响，挖掘更有意义的特征，相对词袋法来说，文本条目越多，Tfidf的效果会越显著。缺点也是没有考虑到单词的顺序。 Word2Vec算法介绍 Word2Vec的优点就是考虑了一个句子中词与词之间的关系，关于两个词的关系亲疏，word2vec从两个角度去考虑。第一，如果两个词意思比较相近，那么他们的向量夹角或者距离

参数估计：最大似然、贝叶斯与最大后验

阅读更多关于参数估计：最大似然、贝叶斯与最大后验

转：https://guangchun.wordpress.com/2011/10/13/ml-bayes-map/ 中国有句话叫“ 马后炮 ”，大体上用在中国象棋和讽刺人两个地方，第一个很厉害，使对方将帅不得动弹，但这个跟我们今天说的基本没关系；第二个用途源于第一个，说事情都发生了再采取措施，太迟了。但不可否认，我们的认知就是从错误中不断进步，虽然已经做错的不可能变得正确，但“来者尤可追”，我们可以根据既往的经验（数据），来判断以后应该采取什么样的措施。这其实就是有监督机器学习的过程。其中涉及的一个问题就是模型中参数的估计。为什么会有参数估计呢？这要源于我们对所研究问题的简化和假设。我们在看待一个问题的时候，经常会使用一些我们所熟知的经典的模型去简化问题，就像我们看一个房子，我们想到是不是可以把它看成是方形一样。如果我们已经知道这个房子是三间平房，那么大体上我们就可以用长方体去描述它的轮廓。这个画房子的问题就从无数的可能性中，基于方圆多少里大家都住平房的经验，我们可以假设它是长方体，剩下的问题就是确定长宽高这三个参数了，问题被简化了。再如学生考试的成绩，根据既往的经验，我们可以假设学生的成绩是正态分布的，那么剩下的问题就是确定分布的期望和方差。所以，之所以要估计参数，是因为我们希望用较少的参数去描述数据的总体分布

从负无穷学习机器学习（三）朴素贝叶斯

阅读更多关于从负无穷学习机器学习（三）朴素贝叶斯

一、朴素贝叶斯介绍朴素贝叶斯是一种基于贝叶斯理论的有效监督学习算法，之所以称之为”朴素“，是因为它是基于样本特征之间互相独立的”朴素”假设。正因如此，不需要考虑样本特征之间的关系，贝叶斯分类器的效率非常高。朴素贝叶斯有三种方法：伯努利朴素贝叶斯（Bernoulli Naive Bayes）高斯贝叶斯（Gaussian Naive Bayes）多项式贝叶斯（Multinomial Naive Bayes） # 导入numpy import numpy as np # 将X，y赋值为np数组导入数据 X = np . array ( [ [ 0 , 1 , 0 , 1 ] , [ 1 , 1 , 1 , 0 ] , [ 0 , 1 , 1 , 0 ] , [ 0 , 0 , 0 , 1 ] , [ 0 , 1 , 1 , 0 ] , [ 0 , 1 , 0 , 1 ] , [ 1 , 0 , 0 , 1 ] ] ) y = np . array ( [ 0 , 1 , 1 , 0 , 1 , 0 , 0 ] ) # 对不同分类计算每个特征为1的数量 counts = { } for label in np . unique ( y ) : counts [ label ] = X [ y == label ] . sum ( axis = 0 ) # 打印计数结果

贝叶斯决策理论（1）

阅读更多关于贝叶斯决策理论（1）

　　数据来自于一个不完全清楚的过程。以投掷硬币为例，严格意义上讲，我们无法预测任意一次投硬币的结果是正面还是反面，只能谈论正面或反面出现的概率。在投掷过程中有大量会影响结果的不可观测的变量，比如投掷的姿势、力度、方向，甚至风速和地面的材质都会影响结果。也许这些变量实际上是可以观测的，但我们对这些变量对结果的影响缺乏必要的认知，所以退而求其次，把投掷硬币作为一个随机过程来建模，并用概率理论对其进行分析。　　　　概率有时也被解释为频率或可信度，但是在日常生活中，人们讨论的概率经常包含着主观的因素，并不总是能等同于频率或可信度。比如有人分析中国足球队打进下次世界杯的概率是10%，并不是说出现的频率是10%，因为下次比赛还没有开始。我们实际上是说这个结果出现的可能性，由于是主观的，因此不同的人将给出不同的概率。　　在数学上，概率研究的是随机现象背后的客观规律。我们对随机没有兴趣，感兴趣的是通过大量随机试验总结出的数学模型。当某个试验可以在完全相同的条件下不断重复时，对于任意事件E（试验的可能结果的集合，事件是集合，不是动作），结果在出现在E中的次数占比趋近于某个常量，这个常数极限是事件E的概率，用P(E)表示。　　我们需要对现实世界建模，将现实世界的动作映射为函数，动作结果映射为数。比如把投硬币看作f(z)，z是影响结果的一系列不可观测的变量，x 表示投硬币的结果，x = f(z)

理解贝叶斯公式 P(A|B)P(B)=P(A)P(B|A)

阅读更多关于理解贝叶斯公式 P(A|B)P(B)=P(A)P(B|A)

贝叶斯公式应该画级联的图来理解明确 P(A=0) = 0.5 P(B=0|A=0) = 0.6 P(B=0) = 0.6*0.5 + 0.25*0.6 + 0.25*0.6 = 0.6 则应用贝叶斯公式 P(A=0|B=0) = P(A=0)P(B=0|A=0) / P(B=0) = 0.5*0.6/0.6 = 0.5 明确 P(A=1) = 0.25 P(B=0|A=1) = 0.6 P(B=0) = 0.6*0.5 + 0.25*0.6 + 0.25*0.6 = 0.6 则应用贝叶斯公式 P(A=1|B=0) = P(A=1)P(B=0|A=1) / P(B=0) = 0.25*0.6/0.6 = 0.25 明确 P(A=2) = 0.25 P(B=0|A=2) = 0.6 P(B=0) = 0.6*0.5 + 0.25*0.6 + 0.25*0.6 = 0.6 则应用贝叶斯公式 P(A=2|B=0) = P(A=2)P(B=0|A=2) / P(B=0) = 0.25*0.6/0.6 = 0.25 可以看出B无论是0还是1，不影响A，合理结论：贝叶斯公式应该画级联的图来理解来源： CSDN 作者： guotong1988 链接： https://blog.csdn.net/guotong1988/article/details/103698993

处理分类问题常用算法(二)-----算法岗面试题

阅读更多关于处理分类问题常用算法(二)-----算法岗面试题

● 分层抽样的适用范围参考回答：分层抽样利用事先掌握的信息,充分考虑了保持样本结构和总体结构的一致性,当总体由差异明显的几部分组成的时候,适合用分层抽样。 ● LR的损失函数参考回答： M为样本个数, 为模型对样本i的预测结果, 为样本i的真实标签。 ● LR和线性回归的区别参考回答：线性回归用来做预测,LR用来做分类。线性回归是来拟合函数,LR是来预测函数。线性回归用最小二乘法来计算参数,LR用最大似然估计来计算参数。线性回归更容易受到异常值的影响,而LR对异常值有较好的稳定性。 ● 生成模型和判别模型基本形式，有哪些？参考回答：生成式：朴素贝叶斯、HMM、Gaussians、马尔科夫随机场判别式：LR，SVM，神经网络，CRF，Boosting 详情：支持向量机 ● 核函数的种类和应用场景。参考回答：线性核、多项式核、高斯核。特征维数高选择线性核样本数量可观、特征少选择高斯核（非线性核）样本数量非常多选择线性核（避免造成庞大的计算量）详情：支持向量机 ● 分类算法列一下有多少种？应用场景。参考回答：单一的分类方法主要包括：LR逻辑回归，SVM支持向量机，DT决策树、NB朴素贝叶斯、NN人工神经网络、K-近邻；集成学习算法：基于Bagging和Boosting算法思想，RF随机森林,GBDT，Adaboost,XGboost。 ●

【文智背后的奥秘】系列篇——情感分类

阅读更多关于【文智背后的奥秘】系列篇——情感分类

【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 版权声明：本文由文智原创文章，转载请注明出处: 文章原文链接： https://www.qcloud.com/community/article/92 来源：腾云阁 https://www.qcloud.com/community 情感分类是对带有感情色彩的主观性文本进行分析、推理的过程，即分析对说话人的态度，倾向正面，还是反面。它与传统的文本主题分类又不相同，传统主题分类是分析文本讨论的客观内容，而情感分类是要从文本中得到它是否支持某种观点的信息。比如，“日媒：认为歼-31能够抗衡F-35，这种说法颇具恭维的意味。”传统主题分类是要将其归为类别为“军事”主题，而情感分类则要挖掘出日媒对于“歼-31能够抗衡F-35”这个观点，持反面态度。这是一项具有较大实用价值的分类技术，可以在一定程度上解决网络评论信息杂乱的现象，方便用户准确定位所需信息。按照处理文本的粒度不同,情感分析可分为词语级、短语级、句子级、篇章级以及多篇章级等几个研究层次。按照处理文本的类别不同，可分为基于新闻评论的情感分析和基于产品评论的情感分析。文智系统提供了一套情感分类的流程，可以对句子极别的评论进行分析，判断情感的正负倾向。接入业务的用户只需要将待分析文本按照规定的协议上传，就能实时得到情感分析的反馈。如果持续上传不同时间段的评论

统计学习贝叶斯分类

阅读更多关于统计学习贝叶斯分类

【概率知识】事件独立：当事件x与事件y相互独立时，有 p(x,y|z)=p(x|z)*p(y|z) 成立即事件x的发生与否与事件y发生与否不相关，完全独立条件概率：p(x|y)表示当事件y发生时候，事件x发生的概率全概率公式：p(x)=p(x|y1)+p(x|y2)..... 一种理解角度是：事件x发生的概率，是出现y1现象时x发生的概率+出现y2现象时x发生的概率..... 而y1,y2,y3....是所有可能出现现象的划分。联合概率 :p(x,y)=p(x|y)*p(y)=p(y|x)*p(x) 即两个事件同时发生的概率等于相应的条件概率和先验概率乘积【贝叶斯定理】案例： p(A)表示一个地区疾病A的发生率 p(B)表示一个人尿检为阳性的概率 p(B|A)表示感染疾病A时尿检为阳性的概率根据这些求解当一个人m尿检为阳性时候，患病的概率p(A|B)有多大？根据日常认知，可以发现的现象：如果该疾病当地发生率很低，那么m患病的概率可能性很小如果该疾病当地发生率很高，那么m患病的概率可能性很高如果患病时尿检为阳性概率很大，那么两者相关性较大，所以尿检为阳性时候，患病的概率也应该较大如果患病时尿检为阳性概率很小，那么两者不太相关，那么尿检为阳性时，患病概率也不大大量案例显示人员(无论是否患病)经常出现尿检为阳性

贝叶斯概念

阅读更多关于贝叶斯概念

1. 贝叶斯法则机器学习的任务：在给定训练数据D时，确定假设空间H中的最佳假设。最佳假设：一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设。贝叶斯理论提供了一种计算假设概率的方法，基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身。 2. 先验概率和后验概率用P(h)表示在没有训练数据前假设h拥有的初始概率。P(h)被称为h的先验概率。先验概率反映了关于h是一正确假设的机会的背景知识如果没有这一先验知识，可以简单地将每一候选假设赋予相同的先验概率。类似地，P(D)表示训练数据D的先验概率，P(D|h)表示假设h成立时D的概率。机器学习中，我们关心的是P(h|D)，即给定D时h的成立的概率，称为h的后验概率。 3. 贝叶斯公式贝叶斯公式提供了从先验概率P(h)、P(D)和P(D|h)计算后验概率P(h|D)的方法 p(h|D)=P(D|H)*P(H)/P(D) P(h|D)随着P(h)和P(D|h)的增长而增长，随着P(D)的增长而减少，即如果D独立于h时被观察到的可能性越大，那么D对h的支持度越小。 4. 极大后验假设学习器在候选假设集合H中寻找给定数据D时可能性最大的假设h，h被称为极大后验假设（MAP）确定MAP的方法是用贝叶斯公式计算每个候选假设的后验概率，计算式如下: h_map=argmax P(h|D)

订阅贝叶斯