为什么说逻辑回归实质是最大似然估计,而线性回归实质是最小二乘法?
根据已知特征值X和标签结果Y,我们利用线性回归模型(为了简化,作者以一元线性回归为例说明)可以得出 y i ^=wx i +b。 损失函数:loss=Σ(y i -y i ^) 2 ,为了得到更加准确的拟合模型,我们的目标就转化为使损失函数loss最小,即: argmin loss=argmin Σ(y i -y i ^) 2 =argmin Σ(y i -wx i -b) 2 这里就是大家比较熟悉的最小二乘法(即最小化误差平方和)。 因此线性回归其实质就是利用最小二乘法去计算各种参数(w,b)。 但是对于逻辑回归,为什么不能用最小二乘法了呢? 我们知道逻辑回归,同线性回归一样,可以计算预测值: y i ^=wx i +b 但是对于逻辑回归的标签结果是0或者1,如何使二者能够发生关联呢,有一种神奇的激活函数就是Sigmoid函数,可以将变量转化为0或者1, sigmoid函数表示: f(z)=1/(1+e -z ),因此,可以转化为 f(x)=1/(1+e -(wx+b) ) 。这时也许你想, 同样loss=Σ(y i -f(x i )) 2 这样我们就可以像线性回归那样,利用最小二乘法去计算参数值了。 可是好事多磨啊,要想得到一个最小二乘的最优解,这个函数最好是凸函数 (为什么说最好是呢,其实不是凸函数,也能求得部分解,但不能保证是最优解,可能是一些鞍点) (什么是凸函数