教你学Python28-朴素贝叶斯简介
一、引子 最近几天一直没来得及看《机器学习实战》这本书,感觉停滞了很久,因为需要对 AIMI-CN 的规划进行考虑,想了很久做了一些皮毛的东西,决定还是慢慢来按部就班,东西做出来才能说话,当然之后我做这个文章的时候,也尽量再多点自己的东西把,其他人写的多数当参考把,这样才会有更多自己原创的东西,大家才会看,才会认同把~ 二、朴素贝叶斯理论 朴素贝叶斯是贝叶斯决策理论的一部分,所以在讲述朴素贝叶斯之前有必要快速了解一下贝叶斯决策理论。 1、贝叶斯决策理论 假设现在我们有一个数据集,他由两类数据组成,数据分布如下图所示: 我们现在用 p1(x,y) 表示数据点 (x,y) 属于类别 1(图中用圆点表示的类别)的概率,用 p2(x,y) 表示数据点 (x,y) 属于类别 2(图中三角形表示的类别)的概率,那么对于一个新数据点 (x,y),可以用下面的规则来判断它的类别: 如果 p1(x,y) > p2(x,y) ,那么类别为1 如果 p2(x,y) > p1(x,y) ,那么类别为2 也就是说,我们会选择高概率对应的类别。这就是贝叶斯决策理论的核心思想,即选择具有 最高概率 的决策。 2、条件概率 有一个装了 7 块石头的罐子,其中 3 块是白色的,4 块是黑色的。如果从罐子中随机取出一块石头,那么是白色石头的可能性是多少?由于取石头有 7 种可能,其中 3 种为白色