从头学pytorch(六):权重衰减
深度学习中常常会存在过拟合现象,比如当训练数据过少时,训练得到的模型很可能在训练集上表现非常好,但是在测试集上表现不好. 应对过拟合,可以通过数据增强,增大训练集数量.我们这里先不介绍数据增强,先从模型训练的角度介绍常用的应对过拟合的方法. 权重衰减 权重衰减等价于 \(L_2\) 范数正则化(regularization)。正则化通过为模型损失函数添加惩罚项使学出的模型参数值较小,是应对过拟合的常用手段。我们先描述 \(L_2\) 范数正则化,再解释它为何又称权重衰减。 \(L_2\) 范数正则化在模型原损失函数基础上添加 \(L_2\) 范数惩罚项,从而得到训练所需要最小化的函数。 \(L_2\) 范数惩罚项指的是模型权重参数每个元素的平方和与一个正的常数的乘积。 线性回归一文 中的线性回归损失函数 \[ \ell(w_1, w_2, b) = \frac{1}{n} \sum_{i=1}^n \frac{1}{2}\left(x_1^{(i)} w_1 + x_2^{(i)} w_2 + b - y^{(i)}\right)^2 \] 为例,其中 \(w_1, w_2\) 是权重参数, \(b\) 是偏差参数,样本 \(i\) 的输入为 \(x_1^{(i)}, x_2^{(i)}\) ,标签为 \(y^{(i)}\) ,样本数为 \(n\) 。将权重参数用向量 \(