贝叶斯

手写朴素贝叶斯分类器及其Adaboost(待更新)

落花浮王杯 提交于 2019-11-27 11:16:45
这个分类器是大三下学期写的,那时在找数据挖掘的暑期实习,朋友向我求助说有个数据挖掘作业他不会写,我就当作做一个项目,把这个作业做一下。 前前后后花了我两个多星期,最后完成的时候十分感动。 来源: https://www.cnblogs.com/earsonlau/p/11361394.html

机器学习之朴树贝叶斯①——(思想及典型例题底层实现)

坚强是说给别人听的谎言 提交于 2019-11-27 07:19:27
文章目录 先验概率、后验概率(条件概率)引例 乘法公式、全概率公式、贝叶斯公式 朴素贝叶斯为何朴素 朴素贝叶斯定义 朴素贝叶斯直观理解 朴素的意义 拉普拉斯平滑 手写代码 先验概率、后验概率(条件概率)引例 想象有 A、B、C 三个不透明的碗倒扣在桌面上,已知其中一个瓷碗下面有鸡蛋。此时请问,鸡蛋在 A 碗下面的概率是多少?答曰 1/3。 现在发生一件事:有人揭开了 C 碗,发现 C 碗下面没有蛋。此时再问:鸡蛋在 A 碗下面的概率是多少?答曰 1/2。注意,由于有“揭开C碗发现鸡蛋不在C碗下面”这个新情况,对于“鸡蛋在 A 碗下面”这件事的主观概率由原来的 1/3 上升到了1/2。这里的 先验概率 就是 1/3, 后验概率(条件概率) 是 1/2。 乘法公式、全概率公式、贝叶斯公式 条件概率 设A,B为任意两个事件,若P(A)>0,我们称在已知事件A发生的条件下,事件B发生的概率为条件概率,记为P(B|A),并定义 乘法公式 如果P(A)>0,则P(AB)=P(A)P(B|A) 如果P(A1…An-1)>0,则P(A1…An)= P(A1) P(A2|A1) P(A3|A1A2)…P(An|A1…An) 全概率公式 全概率公式是用于计算某个“结果” B发生的可能性大小。如果一个结果B的发生总是与某些前提条件Ai 相联系,那么在计算P(B)时,我们就要用Ai 对B作分解

朴素贝叶斯

被刻印的时光 ゝ 提交于 2019-11-27 05:11:56
《概率论》(当年我学习的课程为《概率论与数理统计》,涵盖了概率论与统计学)应该是每个理工科大学生都要学习的课程,不知道有多少同学和我一样,学得一头雾水。悲催的是,考研的时候又学习了一遍,依然不着门路,靠死记硬背过关。好在后面的学习和工作生涯中,再没有和它打过照面,直到最近开始接触机器学习。 《机器学习实战》第4章,开始介绍基于概率论的分类方法。其实《机器学习》这本书对贝叶斯决策论有比较详细的介绍,不过涉及到比较多的数学公式,比较难懂。而本书对程序员比较友好,只涉及很少的数学知识,更多的是通过程序来阐述这一算法。 条件概率 书中举了一个例子来阐述条件概率的概念。7块石头,3块是灰色的,4块是黑色的,放入两个桶A和B,A桶放4块石头(2块灰色,2块黑色),B桶放3块石头(1块灰色,2块灰色)。计算从B桶中取到灰色石头的概率的方法,就是所谓的条件概率。这里的已知条件是石头取自B桶且B桶有3块石头。用公式表示为: P(gray | bucketB) = P(gray and bucketB) / P(bucketB) 1 这个公式看起来不起眼,但却开启了一门新的理论,即通过先验知识和逻辑推理来处理不确定命题。另一种概率解释称为频数概率,它只从数据本身获取结论,并不考虑逻辑推理及先验知识。 另一种有效计算条件概率的方法称为贝叶斯准则。贝叶斯准则告诉我们如何交换条件概率中的条件和结果

贝叶斯拼写检查代码

孤者浪人 提交于 2019-11-27 02:44:23
https://nbviewer.jupyter.org/github/nightsswatch/MLProject/blob/master/%E8%B4%9D%E5%8F%B6%E6%96%AF/bayes.ipynb https://github.com/nightsswatch/MLProject/blob/master/%E8%B4%9D%E5%8F%B6%E6%96%AF/bayes.ipynb 来源: https://blog.csdn.net/Arthur_Holmes/article/details/99293945

数据分析-统计知识(二)

柔情痞子 提交于 2019-11-27 02:34:00
4.切比雪夫不等式、马尔可夫不等式 切比雪夫不等式: 马尔可夫不等式: 5.五数概括法、箱线图 最小值、第一四分位数、中位数、第三四分位数、最大值 6.皮尔逊相关系数 7.贝叶斯定理,计算后验概率 来源: https://www.cnblogs.com/Jacon-hunt/p/11331283.html

数据挖掘经典算法概述以及详解链接

不想你离开。 提交于 2019-11-26 21:47:42
po主最近在学习数据挖掘方面相关算法,今天就在这里总结一下数据挖掘领域的经典算法,同时提供每个算法的详解链接,就当做在这里温习吧。对于熟悉的算法我会有较多的描述,不熟悉的算法可能描述较少,以免误导,但是会贴出学习的链接。由于本人也是资历尚浅,必然有错误的地方,也希望大家能够指出来,我也会改正的,谢谢大家。 数据挖掘方面的算法,主要可以用作 分类,聚类,关联规则,信息检索,决策树,回归分析 等。他们的界限并不是特别的明显,常常有交叉,如聚类算法在一定程度上也是一种分类算法。分类算法比较成熟,并且分支也较多。 这里先介绍两个概念: 监督学习 与 非监督学习 。通俗一点说,如果我们提前设置一些标签,然后对于每个待分类项根据一定规则分类到某些标签,这就是 监督学习 。如果我们提前不知道标签,而是通过一定的统计手段将一定量的数据,分成一个个类别,这就是 非监督学习 ,通常用作“聚类”(不绝对)。当然监督学习常用作分类学习,也可用作回归分析等。 1.K-Means算法 K-Means算法是一种常用的 非监督学习 聚类算法,也常用在图像检索领域,如K-Means+BoF算法。它的作用就是我们可以在不知道有哪些类别的情况下,将数据以K个 类心 ,聚成K个 聚类 。 通常我们会先确定一个相异度度量方法,常用的相异度有, 欧氏距离,曼哈顿距离,马氏距离,余弦距离 等。根据两个数据之间的“距离

通俗易懂的AI算法原理

我是研究僧i 提交于 2019-11-26 21:46:39
https://www.toutiao.com/a6706348363916247559/ 写给产品经理的机器学习算法入门,在文章中会忽略一些细节以及算法本身具体的实现方式。我想尽量用直白的语言、较少的数学知识给各位产品经理讲清楚各个算法的原理是什么。 机器学习的过程 机器学习的过程从本质上来说就是通过一堆的训练数据找到一个与理想函数(f)相接近的函数。在理想情况下,对于任何适合使用机器学习的问题在理论上是存在一个最优的函数让每个参数都有一个最合适的权重值,但在现实应用中不一定能这么准确得找到这个函数,所以我们要去找与这个理想函数相接近的函数,能够满足我们的使用那么我们就认为是一个好的函数。 这个训练数据的过程通常也被解释为在一堆的假设函数(Hypothesis set)中,它是包含了各种各样的假设,其中包括好的和坏的假设,我们需要做的就是从这一堆假设函数中挑选出它认为最好的假设函数(g),这个假设函数是与理想函数(f)最接近的。 机器学习过程 机器学习这个过程就好比在数学上,我们知道了有一个方程和一些点的坐标,用这些点来求这个方程的未知项从而得到完整的方程是什么。但在机器学习上我们往往很难解出来这个完整的方程是什么,所以我们只能通过各种手段求最接近理想情况下的未知项取值,使得这个结果最接近原本的方程。 什么问题适合用机器学习解决 机器学习不是万能的,并不能解决所有的问题

详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解(转)

99封情书 提交于 2019-11-26 15:16:42
声明:本文为原创文章,发表于nebulaf91的csdn博客。欢迎转载,但请务必保留本信息,注明文章出处。 本文作者: nebulaf91 本文原始地址:http://blog.csdn.net/u011508640/article/details/72815981 频率学派与贝叶斯派 在说极大似然估计(Maximum Likelihood Estimate)与最大后验概率估计(Maximum A Posteriori estimation)之前,不得不说对于概率看法不同的两大派别频率学派与贝叶斯派。他们看待世界的视角不同,导致他们对于产生数据的模型参数的理解也不同。 ① 频率学派 他们认为世界是确定的。他们直接为事件本身建模,也就是说事件在多次重复实验中趋于一个稳定的值p,那么这个值就是该事件的概率。 他们认为模型参数是个定值,希望通过类似解方程组的方式从数据中求得该未知数。这就是频率学派使用的参数估计方法-极大似然估计(MLE),这种方法往往在大数据量的情况下可以很好的还原模型的真实情况。 ② 贝叶斯派 他们认为世界是不确定的,因获取的信息不同而异。假设对世界先有一个预先的估计,然后通过获取的信息来不断调整之前的预估计。 他们不试图对事件本身进行建模,而是从旁观者的角度来说。因此对于同一个事件,不同的人掌握的先验不同的话,那么他们所认为的事件状态也会不同。

变分贝叶斯(Variational Bayes)

安稳与你 提交于 2019-11-26 15:01:20
此文公式图片不全。详见博客: http://www.blog.huajh7.com/variational-bayes/ 【关键字】平均场理论,变分法,贝叶斯推断,EM算法,KL散度,变分估计,变分消息传递 引言 · 从贝叶斯推断说起 Question : 如果我们有一组观测数据D,如何推断产生这些数据的模型m? 模型由1)模型的类别ξ(如高斯分布,伽马分布,多项式分布等)与2)模型的参数Θ共同决定,即 . 模型的选择 假设M为所有可能的模型集合(包括不同类别),那么选择 如何计算p(m | D)? 通常情况很难直接计算p(m | D),根据贝叶斯公式有 ,p(m)表示模型的先验,p(D | m)表示证据; 先验:贝叶斯规则倾向于选择能解释数据的最简单模型:Occam剃刀原理。因为简单模型只在有限范围内做预测,复杂模型(如有更多自由参数)能对更宽范围做预测。 那么如何计算证据(evidence) ? 参数θ的后验概率为 证据p(D | m)通常会在最可能的参数 附近有一个很强的峰。 以一维参数为例:利用Laplace方法近似,即用被积函数 乘以其宽度 。即 。 此处不在深究Occam因子。 从模型的选择可以看出参数的估计非常重要。 考虑同一个类别的模型。由于任何模型(函数)都可以由统一的数学形式给出,比如拉格朗日展开,傅里叶极数,高斯混合模型(GMM)等