贝叶斯算法 | 易学教程

贝叶斯算法在概率论中有详细说明，这算是概率统计的基础知识。

公式解释，当你想求B条件下A发生的概率时候，可以转化为A条件下B发生的概率和A，B概率的关系。

使用场景：

1、拼写纠正

当最大似然无法做出决策时候，先验概率可以帮助来选择最高的概率。

最大似然：最符合观测数据的最有优势。

奥卡姆剃刀：较大的模型有较大的优势。越高阶的多项式越不常见。

2、垃圾邮件过滤实例

给你一封邮件，看是否为垃圾邮件还是正常邮件，D表示收到邮件中的n个单词组成，用h+和h-分别表示垃圾和正常邮件，比如，收到了1w封邮件，有1000封邮件是垃圾的邮件，那先验概率就是10%和 90%，分别是垃圾邮件和正常邮件。

D中的词d1，d2，d3。。。但是不可能正好垃圾邮件都是D中的词，所以修改为：

这里就用到朴素贝叶斯了，这里假设特征之间是独立了，所以可以化简为：

所以只要统计di这个单词在垃圾邮件中出现的频率就可以了。

比如：1000个邮件，有10w个词，频率进行排序，然后就是计算新的邮件中出现这个词的，进行计算。

总结下来：

1、由下面式子，要出来P(h+)和P（h-），还有p（D|h+）,p（D|h-）。

2、P(h+)和P（h-）可以由数据得到。p（D|h+）,p（D|h-）可以扩展为求下面：

转载请标明出处:贝叶斯算法

标签