贝叶斯算法
贝叶斯算法在概率论中有详细说明,这算是概率统计的基础知识。 公式解释,当你想求B条件下A发生的概率时候,可以转化为A条件下B发生的概率和A,B概率的关系。 使用场景: 1、拼写纠正 当一个人经常输入the,tht,thc,当又一次输入了tha时候,那纠正他输入的是the,tht,thc是哪个?概率分别是多少,哪个概率最高,就会纠正为哪个。怎么判断,就需要了贝叶斯算法,当输入为tha时候,求的是P(the|tha),P(tht|tha),P(thc|tha),转化为求P(tha|the),P(tha|tht),P(tha|thc),P(A),P(B),其中P(B)可以忽略,只求P(A)*P(tha|the),P(tha|tht),P(tha|thc),转化为观察数据,也就是猜测生成我们观察到的数据的可能性大小,先验概率P(A)。 当最大似然无法做出决策时候,先验概率可以帮助来选择最高的概率。 最大似然:最符合观测数据的 最有优势。 奥卡姆剃刀: 较大的模型有较大的优势。越高阶的多项式越不常见。 2、垃圾邮件过滤实例 给你一封邮件,看是否为垃圾邮件还是正常邮件,D表示收到邮件中的n个单词组成,用h+和h-分别表示垃圾和正常邮件,比如,收到了1w封邮件,有1000封邮件是垃圾的邮件,那先验概率就是10%和 90%,分别是垃圾邮件和正常邮件。 D中的词d1,d2,d3。。