机器学习基石10-Logistic Regression
注: 文章中所有的图片均来自台湾大学林轩田《机器学习基石》课程。 笔记原作者:红色石头 微信公众号:AI有道 上一节课介绍了Linear Regression线性回归,用均方误差来寻找最佳的权重向量 \(w\) ,获得最好的线性预测。本节课将介绍Logistic Regression逻辑回归问题。 一、Logistic Regression Problem 一个心脏病预测的问题:根据患者的年龄、血压、体重等信息,来预测患者是否会有心脏病。很明显这是一个二分类问题,其输出 \(y\) 只有 \({0,1}\) 两种情况。 二元分类,一般情况下,理想的目标函数 \(f(x)>0.5\) ,则判断为正类 \(1\) ;若 \(f(x)<0.5\) ,则判断为负类 \(-1\) 。 但是,如果我们想知道的不是患者有没有心脏病,而是到底患者有多大的几率是心脏病。这表示,我们更关心的是目标函数的值(分布在0,1之间),表示是正类的概率(正类表示是心脏病)。这跟我们原来讨论的二分类问题不太一样,我们把这个问题称为软性二分类问题('soft' binary classification)。这个值越接近 \(1\) ,表示正类的可能性越大;越接近 \(0\) ,表示负类的可能性越大。 对于软性二分类问题,理想的数据是分布在 \([0,1]\) 之间的具体值,但是实际中的数据只可能是 \(0\) 或者