sklearn:朴素贝叶斯(naïve beyes)
朴素贝叶斯的原理: 基于朴素贝叶斯公式,比较出后验概率的最大值来进行分类,后验概率的计算是由先验概率与类条件概率的乘积得出,先验概率和类条件概率要通过训练数据集得出,即为朴素贝叶斯分类模型,将其保存为中间结果,测试文档进行分类时调用这个中间结果得出后验概率。 一、基本定义 分类是把一个事物分到某个类别中。一个事物具有很多属性,把它的众多属性看作一个向量,即x=(x1,x2,x3,…,xn),用x这个向量来代表这个事物,x的集合记为X,称为属性集。类别也有很多种,用集合C={c1,c2,…cm}表示。一般X和C的关系是不确定的,可以将X和C看作是随机变量, P(C|X)称为C的后验概率,与之相对的,P(C)称为C的先验概率 。 根据贝叶斯公式,后验概率 P(C|X)=P(X|C)P(C)/P(X) ,但在比较不同C值的后验概率时,分母P(X)总是常数,忽略掉,后验概率 P(C|X)=P(X|C)P(C) ,先验概率P(C)可以通过计算训练集中属于每一个类的训练样本所占的比例,对类条件概率P(X|C)的估计,我们只谈论朴素贝叶斯分类器方法,因为朴素贝叶斯假设事物属性之间相互条件独立, P(X|C)=∏P(xi|ci) 。 二、模型原理与训练 朴素贝叶斯分类器是一种有监督学习, 常见有两种模型,多项式模型(multinomial model)即为词频型和伯努利模型(Bernoulli