面试——正则化
文章目录 什么是正则化?简述一下范数的意义是? L1,L2正则化的原理和区别?为什么L1正则化会产生稀疏解而L2正则化会产生平滑解? L1和L2除了正则化防止过拟合还有什么作用 L1正则不是连续可导的(L1正则怎么处理0点不可导的情形?)那么还能用梯度下降么,如果不能的话如何优化求解 Ridge和Lasso的实现,他们的区别是什么?分别是如何求解的? 什么是正则化?简述一下范数的意义是? 正则化就是结构风险最小化策略的实现,是在经验风险最小化的情况下加入一个正则化项或者罚项。 范数是一种用来度量某个向量空间(或矩阵)中的每个向量的长度或大小的手段。 L1,L2正则化的原理和区别?为什么L1正则化会产生稀疏解而L2正则化会产生平滑解? 正则化是结构风险最小化策略的实现,L1和L2正则化属于正则化手段中的两种实现方式,L1正则化是在损失函数中加入 参数向量中各个元素的绝对值之和作为损失函数的惩罚项的,L2正则化是在损失函数中加入 参数向量中各个元素的平方,求和,然后再求平方根作为损失函数的惩罚项的。这就是二者的原理与区别。 L1正则化代表的约束条件的多维空间是超立方体和坐标轴存在很多“角”交点,目标函数大部分时候会在“角”的地方和约束条件相交,所以L1正则化容易产生稀疏的参数向量,而L2正则化是一个超球体,因为没有“角”交点