07 朴素叶贝斯算法 概率基础 概率: 一件事情发生的可能性 联合概率: 包含多个条件,且所有条件同时成立的概率。P(A,B) P(A, B) = P(A)P(B) 条件概率:事件A在另外一个事件B已经发生条件下发生的概率。 P(A|B) P(A1,A2 | B) = P(A1 | B) * P(A2 | B) 注意: 此条件概率的成立,是由于A1, A2相互独立的结果 朴素贝叶斯 朴素: 特征独立,常用文档分类 在给定词比例的基础上,求各类型文档的比例 贝叶斯公式: (多个条件下一个结果) 公式分为3个部分: P(C): 每个文档类别的概率 (某类文档数/总文档数) P(W | C):给定类别下特征(被预测文档中出现的词)的概率:计算方法:P(F1|C) = Ni/N Ni : F1词在C类别文档所有文档出现的次数 N: 所属C类别下的文档所有词出现的次数和 P(F1,F2,F3) : 预测文档中每个词的概率 文档分类: 给定一个文档的条件下,求文档所属于科技、娱乐等类别的概率。哪个类别的概率大,则归为某个类别。 文档:词1, 词2 , 词3 (词出现的数量的情况下,判断类别) P(科技|词1,词2,词3) = P(f1,f2,f3 | 科技)*P(科技)/P(W) P(娱乐|词1,词2,词3) = P(f1,f2,f3 | 娱乐)*P(娱乐)/P(W) 由于是概率大小,则P(W