线性回归 | 推导 | 笔记

左心房为你撑大大i 提交于 2020-02-03 17:36:18

博客部分公式有格式问题,请前往语雀: https://www.yuque.com/leesamoyed/bvsayi/hrobcr

一、最小二乘法(矩阵表达;几何意义):

1.线性拟合是用线去拟合样本点:

假设:


其中:

 ,

 ,


有:


事实上要拟合的曲线:


其中:

(在这里

所以我们更倾向于把它写入

2.最小二乘估计:

最小二乘法定义:


其中: 


得到:


得到:


得到:


所以:


注意:

称为伪逆记为


第一个几何解释:距离和。
另一个几何解释:对于要拟合的直线我们从另一个角度看:

,把

想象为

维度的一个系数:

,横着看就是

样本点,竖着看就是一个

维,由

可以形成一个

维空间(一般

),

形成的向量一般不在

维空间(存在噪声之类的),最小二乘法就是在

维空间中找到一条线,让

距离线(平面最近),那么很显然就是投影。
既然是投影就会垂直于

维空间,就会垂直于每一个向量,就有




显而易见的是,结果和我们之前推导的结果是一样的,所以从这个角度就很好推证。 
这个就是把误差看成每个维度。

二、最小二乘法-概率角度:

概率视角:
假设:


其中:

 ,

 ,


有:


:样本    

:值
最小二乘估计:



 
假设存在噪声:







和最小二乘估计的

一样

(noise is Gaussian Dist)

三、正则化-岭回归-频率角度:

Loss Function:

    


个样本,

(一般

),如果样本纬度高,样本量少容易造成过拟合
过拟合

①加数据;②特征选择/特征提取;③正则化;
正则化是对对目标函数的约束
正则化框架:

(loss+惩罚)
L1(一范式)Lasso,


L2(二范式):Ridge(岭回归),

(岭回归全称:权值衰减)
L2对应的函数:




四、正则化-岭回归-贝叶斯角度:

频率角度:


贝叶斯角度:
先验:

(此时

不再是常数)
后验:


    




这里

是我设置的,本质上是超参数,但是这里可以看做常数


这里省略了

完全写出来如下:


一样 


Regularized

(noise为Gaussian Dist)(prior也是GD)

线性回归:
①线性    ②全局性    ③数据未加工

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!