贝叶斯

朴素贝叶斯

喜欢而已 提交于 2020-02-08 18:00:02
介绍 朴素贝叶斯是监督学习分类算法 分类方法 :比如已知一个数据集由两类数据(类A,类B)组成,对于一个数据x,如果x属于A的概率大于x属于B的概率,那么x属于A类。 如何计算相关概率 :使用条件概率进行分类 条件概率 在事件B发生的条件下事件A发生的概率 \(p(A|B)\) \(p(A|B)=\frac{p(A \cap B)}{p(B)}\) \(p(A \cap B)=p(A|B){p(B)}\) \(p(A \cap B)=p(B|A){p(A)}\) 所以可得 贝叶斯公式 \(P(A | B)=\frac{P(A) P(B | A)}{P(B)}\) 其中先验概率p(A)后验概率p(A|B) 所以通过贝叶斯公式求得 \(p(x|A)\) 与 \(p(a|B)\) 的值进行比较,因为公式中p(x)都是相同的,所以实际只需要分别计算 \(P(A) P(x | A)\) 和 \(P(B) P(x | B)\) 比较即可 朴素的含义 在此算法中,是假定每一个属性是独立的,所以对于 \(p(w_{i}|B)\) 可由 \(p(w_{1}|B)p(w_{2}|B)···p(w_{n}|B)\) 得到 朴素贝叶斯实现方式 一种是贝努利模型(只考虑出不出现),一种是多项式模型(考虑属性出现的次数) 一篇贝叶斯算法的推导文章 https://www.cnblogs.com

机器学习11:贝叶斯分析

我的未来我决定 提交于 2020-02-06 02:21:46
集成学习 贝叶斯分析 原理 数理统计学处理的信息 总体信息:当前总体样本符合某种分布。比如抛硬币,二项分布。学生的某一科的成绩符合正态分布。 样本信息:通过抽样得到的部分样本的某种分布。 抽样信息=总体信息+样本信息 基于抽样信息进行统计推断的理论和方法称为经典统计学。 先验信息:抽样之前,有关推断问题中未知参数的一些信息,通常来自于经验或历史资料。 基于总体信息+样本信息+先验信息进行统计推断的方法和理论,称为贝叶斯统计学。 贝叶斯定理 贝叶斯定理告诉我们如何交换条件概率中的条件与结果,即如 果已知P(X|H),要求P(H|X),那么可以使用下面的计算方法: 朴素贝叶斯(Naive Bayes) 假设:特征X1,X2,X3……之间都是相互独立的 四个模型 高斯模型 有些特征可能是连续型变量,比如说人的身高,物体的长度,这些特征可以转换成离散型的值,比如如果身高在160cm以下,特征值为1;在160cm和170cm之间,特征值为2;在170cm之上,特征值为3。也可以这样转换,将身高转换为3个特征,分别是f1、f2、f3,如果身高是160cm以下,这三个特征的值分别是1、0、0,若身高在170cm之上,这三个特征的值分别是0、0、1。不过这些方式都不够细腻,高斯模型可以解决这个问题。 词袋模型(Bag of Words) TF-IDF 提取词频 (Term Frequency

极大似然估计、最大后验估计、贝叶斯估计的异同

偶尔善良 提交于 2020-02-04 06:28:14
本文主要是为了区分极大似然估计、最大后验估计、贝叶斯估计的异同。对三种方法的详细步骤不做阐述。 贝叶斯公式:分母的全概率公式是用来求P(B) B为观测变量,A为待求参数。 极大似然估计: 极大似然估计认为A为一个常数,于是P(A)=1. 而且它只需求出最大值所在的点,因此求导为0即可。 解释一下 ‘’‘ 如抛硬币5正4负,设正面概率为p,则 F(p)=a * p^5 * (1-p)^4 式中p的阶数5和 1-p的阶数4均为观测的参数 a为与待求参数无关的部分(对求p的导无影响) 此时对p求导令其为0求取得极值的p即为我们要求的p。 ’‘’ 回到整体 最大后验估计: 认为参数A亦服从一分布,但是其求出来的参数也是为一个数字,只不过P(A)不为1变成了一个概率分布(先验概率)。其还是求最大值,因此还是求导为0即可,因为我们只需要求出导数为0(取得最值)的点,因此与所求参数无关的例如贝叶斯公式的分母P(B),我们完全可以忽略令其为一个常数即可。 贝叶斯估计: 贝叶斯估计也认为参数A服从一先验分布,但是求出的参数A不是一个具体的数字了,而是一个分布,因此此时我们不能用简单粗暴的直接求导求解,贝叶斯公式所有的部分我们均需要求解,因此之前极大似然/后验估计中我们忽略的P(B)就要纳入考虑。之前不考虑是因为我们只需要对参数求导为0。原先的式子变成了一个关于参数的函数例如F(A)。 此时贝叶斯公式

朴素贝叶斯分类器Naive Bayes

☆樱花仙子☆ 提交于 2020-02-03 06:51:34
优点Naive Bayes classifiers tend to perform especially well in one of the following situations: When the naive assumptions actually match the data (very rare in practice) For very well-separated categories, when model complexity is less important For very high-dimensional data, when model complexity is less important 来源: https://www.cnblogs.com/focusonoutput/p/12254528.html

朴素贝叶斯分类器(伯努利贝叶斯+高斯贝叶斯+多项式贝叶斯)

送分小仙女□ 提交于 2020-02-03 00:58:58
1 from sklearn.datasets import load_diabetes 2 X,y=load_diabetes().data,load_diabetes().target 3 X_train,X_test,y_train,y_test=train_test_split(X,y,random_state=8) 4 lr=LinearRegression().fit(X_train,y_train) 5 print("the coefficient:{}".format(lr.coef_)) 6 print('the intercept:{}'.format(lr.intercept_)) 7 print("the score of this model:{:.3f}".format(lr.score(X_test,y_test))) 1 import matplotlib.pyplot as plt 2 plt.scatter(X[:,0],X[:,1],c=y,cmap=plt.cm.spring,edgecolors='k') 3 plt.show() 1 #伯努利贝叶斯分类器 2 from sklearn.naive_bayes import BernoulliNB 3 bnb=BernoulliNB() 4 bnb.fit(X_train,y_train)

机器学习实战——朴素贝叶斯法(代码详解)

…衆ロ難τιáo~ 提交于 2020-02-01 19:25:53
机器学习实战——朴素贝叶斯法 朴素贝叶斯就是在假设各个特征相互独立的条件下运用贝叶斯准则通过先验概率计算出后验概率,输出后验概率最大的类别。 先讲讲在下代码时候遇到的问题,代码参考机器学习实战这本书。 问题一: 《机器学习实战》P66中运行程序清单4-5时,总是报错: UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xae in position 199: illegal multib 解决办法: 打开23.txt 文件发现,包含一个?字符。“SciFinance?is”,删除该“?”即可。 问题二: del(trainingSet[randIndex])这段代码报错 出现错误 ‘range’ object doesn’t support item deletion 主要原因:版本不同,书上python2版本,在python3中range返回的是range对象,而不是列表 解决办法:把 trainingSet = range(50) 改为 trainingSet = list(range(50)) 问题三: 在文本解析时 strings = 'Hello python,the best language!' print ( strings ) import re listOfTokens = re.split ( r '\W*'

深度学习在计算机视觉领域(包括图像,视频,3-D点云,深度图)的应用一览

泪湿孤枕 提交于 2020-02-01 02:34:22
深度学习在计算机视觉领域(包括图像,视频,3-D点云,深度图)的应用一览 计算机视觉、以及深度学习在其中的应用闲扯 深度学习无疑是最近人工智能领域最有影响力的方法,在语音识别、计算机视觉、自然语言处理、游戏、机器人和自动驾驶等领域起了非常大的作用,有的可以说是所在领域最成功的一次突破。 计算机视觉从2012年ImageNet获得冠军的AlexNet起,深度学习已经产生了巨大的贡献,从最早的图像分类,到目标检测、识别、分割和跟踪等,都可以看到替代传统视觉方法和战胜以前浅层机器学习的杰出成果。特别是近几年来,我们看到深度学习在计算机视觉的另外两个传统的领域开始发力,一是底层的图像处理和计算摄影学,特别是逼真度极高的一些人脸合成和替换让人感到了深度学习的威力,有得甚至引起了社会道德范畴的反思;另一个是3-D重建,其中包括了2.5D的深度估计和运动估计等,这个本是传统计算机视觉的核心,也是大家觉得确定性(deterministic)计算和估计是必要存在的防守“领地”,现在也在接受深度学习的挑战。另外,在一些计算机视觉外围的领域,比如和图形学结合的图像合成技术,以及和自然语言处理合作的图像加注和问答,还有自动驾驶系统中的多传感器融合技术等,也看到了深度学习的“身影”。 Marr School的贡献就是给出了一个分层的世界描述框架:从首要简约图(primal sketch),到2.5 D

机器学习——朴素贝叶斯

家住魔仙堡 提交于 2020-01-30 21:59:43
参考 : https://cuijiahua.com/blog/2017/11/ml_4_bayes_1.html https://cuijiahua.com/blog/2017/11/ml_5_bayes_2.html https://www.jianshu.com/p/5953923f43f0 一、朴素贝叶斯简介 1.1、朴素贝叶斯算法简介 朴素贝叶斯算法(Naive Bayesian algorithm) ,朴素贝叶斯方法是在贝叶斯算法的基础上进行了相应的简化, 即假定给定目标值时属性之间相互条件独立 。 1.2 贝叶斯定理 贝叶斯决策理论:选择具有高概率的发生情况为最终判断。 根据已知的基础条件概率和部分概率,推断出在某种条件下下的概率。 1.3、条件概率推断 全部事件的概率是 S A 事件的概率是 A B 事件的概率是 B A 的对立事件概率是 A’ A 与 B 共同事件概率是 A∩B 说明:A 与 A‘ 对立且共同构成 S。 我们可以推断出在 B 条件下发生 A 事件的概率,然后一步步把 A∩B 改变成另一个表示 这就是条件概率的计算公式。 如果考虑到下面的全概率公式和上面图片只考虑 A 和 A‘ 条件概率公式可改为: 1.4、全概率推断 若事件 A 1 、 A 2 、……A n 构成一个完备事件组即 且都有正概率,那么对于任意一个事件A,有如下全概率公式: 1.5

机器学习算法集锦:从贝叶斯到深度学习及各自优缺点

前提是你 提交于 2020-01-29 05:16:58
转载自: 机器学习算法集锦:从贝叶斯到深度学习及各自优缺点 在我们日常生活中所用到的推荐系统、智能图片美化应用和聊天机器人等应用中,各种各样的机器学习和数据处理算法正在尽职尽责地发挥自己的功效。本文筛选并简单介绍一些最常见的算法类别,还为每一个类别列出了一些实际算法并简单介绍了它们的优缺点。 相关连接:https://static.coggle.it/diagram/WHeBqDIrJRk-kDDY/t/categories-of-algorithms-non-exhaustive 目录 正则化算法(Regularization Algorithms) 集成算法(Ensemble Algorithms) 决策树算法(Decision Tree Algorithms) 回归(Regression) 人工神经网络(Artificial Neural Network) 深度学习(Deep Learning) 支持向量机(Support Vector Machine) 降维算法(Dimensionality Reduction Algorithms) 聚类算法(Clustering Algorithms) 基于实例的算法(Instance-based Algorithms) 贝叶斯算法(Bayesian Algorithms) 关联规则学习算法(Association Rule

一网打尽!数据科学领域最好的免费电子书汇总

﹥>﹥吖頭↗ 提交于 2020-01-29 04:41:47
全文共 4912 字,预计学习时长 15 分钟 图源:Unsplash 新年到,又到了给自己定制新年目标的时候了。今年,你打算给自己树什么样的flag,不,是目标呢? 多读书多看报,少吃零食多睡觉? 要么读书,要么旅行,身体和灵魂总有一个在路上? 对于每个人来说,书都是必不可少的精神食粮。 读书=充电。 今天,小芯就为大家整理了25本数据科学领域最好的免费电子书。这25本书中的每一本不是由数据科学先驱、导师、指导者推荐给小芯的,就是小芯在做某个特定项目时参考过的。相信会给大家带来很大的帮助! 因为很多小伙伴都在学习Python,为此,这次整理的大多数书籍都是基于Python的编程。 一、数据科学非技术导论 •Roger D.Peng和Elizabeth Matsui的《数据科学艺术》(The Art of Data Science) 简介:这本书描述了分析数据的过程。作者在管理数据分析师和进行自己的数据分析方面都有着丰富经验,这本书以适用于从业人员和管理人员的方式,总结了他们的经验。 •卡尔、麦克斯、亨利和威尔的《数据科学手册》(Data Science Handbook) 简介:《数据科学手册》是对25位杰出的数据科学家进行深入访谈的汇编,他们在本书中分享了自己的见解、故事和建议。 •RogerD.Peng和Hilary Parker《数据科学的对话》(Conversations