sklearn中的朴素贝叶斯分类器
sklearn中的朴素贝叶斯分类器 之前 理解朴素贝叶斯 中的结尾对sklearn中的朴素贝叶斯进行了简单的介绍. 此处对sklearn中的则对sklearn中的朴素贝叶斯算法进行比较详细介绍.不过手下还是对朴素贝叶斯本身进行一些补充. 朴素贝叶斯算法 朴素贝叶斯算法的数学基础都是围绕贝叶斯定理展开的,因此这一类算法都被称为朴素贝叶斯算法. 朴素贝叶斯的分类原理是通过对象的先验概率,利用贝叶斯公式计算出后验概率.即对象属于某一类的概率. 选择具有后验概率最大的类作为该对象所属的类.同时朴素–’特征为独同分布’, 同时因为先验概率需要我们先假设一个事件分布的概率分布方式(三种),因此也就有了我们在sklearn中对应的三种朴素贝叶斯算法 - 高斯朴素贝叶斯分类器(默认条件概率分布概率符合高斯分布) - 多项式朴素贝叶斯分类器(条件概率符合多项式分布) - 伯努利朴素贝叶斯分类器(条件概率符合二项分布) 尽管其假设过于简单,但是在很多实际情况下,朴素贝叶斯工作得很好,特别是文档分类和垃圾邮件过滤。 这些工作都要求一个小的训练集来估计必需参数。 同时相比于其他更复杂的方法,朴素贝叶斯学习器和分类器非常快。 分类条件分布的解耦意味着可以独立单独地把每个特征视为一维分布来估计。 这样反过来有助于缓解维度灾难带来的问题。 * 最后总结其特点有以下几个 * - 属性可以离散可以连续 -