朴素贝叶斯学习笔记
本文为学习《统计学习方法》、《机器学习实战》朴素贝叶斯相关的笔记。 朴素贝叶斯,是基于 贝叶斯定理 和 特征条件独立假设 的分类方法。 特征条件独立假设是指:给定一个实例的类标签,实例中的每个属性的出现都独立于实例中其他属性的出现。这也是算法被称为朴素贝叶斯的原因。 公式推导 我们有数据集 ,其中输入为特征向量 ,输出为类标记 。朴素贝叶斯要通过数据集学习先验概率和条件概率。 先验概率: 这里代表数据集中的每个类别的概率 条件概率: 这里代表在类别为 时,输入的特征向量中的每一个特征值为对应的 的概率。 对条件概率分布作条件独立性的假设,即特征之间不相关,可以得出 在分类时,对于给定的 ,通过学习到的模型计算得到后验概率 ,将后验概率最大的类作为 的类输出。后验概率计算根据贝叶斯定理进行 : 将 上上式代入上式,可得 ,代表在后验概率最大时对应的 值。 一个例子 这个例子来自于《机器学习实战》,是根据词条中词汇的出现判断其是否是侮辱性词条。 我们构造以下数据: def loadDataSet(): postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'], ['my',