机器学习可以分为三大类:监督学习、非监督学习、强化学习。 今天学习监督学习模型,根据输出是连续的还是离散的,又分为 回归问题 和 分类问题。 监督学习的训练数据,都是带‘答案’的,通过输入和答案之间的对应关系,获取其中的规则。 1,朴素贝叶斯分类器 Naive Bayes Classifier 假设样本的特征(被观察现象的一个可以测量的属性)在给定分类的条件下是相互独立的。 选择重要的特性对于传统的机器学习方法至关重要。 简单来讲这就是个概率计算 假设输入 X = (x1,x2,...,xn) 在给定 x的条件下 分类Ck的概率: P(Ck|X) = ∏P(xi|Ck)P(Ck) / P(X) 解释:给定X, P(X) 是一个固定的归一化的常量,因此可以忽略;P(xi|Ck) 和 P(Ck) 是通过训练数据集获取计算来的; 这样就可以计算给定条件X下的各个分类的概率,取概率最大的作为分类结果。 需要注意个细节: 如果 Xi 过多,相乘可能出现下溢(0),可以把乘法转为取对数相加;对于训练集中未出现的值的概率,可以忽略。 2,逻辑回归 Logistic Regression 线性回归模型: y = w T x + b 这个输出范围是 负无穷 到 正无穷 要转换为分类问题,需要使用 Sigmoid 函数 σ(x) = 1 / (1 + e -x ) 范围 (0,1) 逻辑回归模型:f