机器学习 --超参数调优

机器学习中，绝大部分模型没有解析解，需要采用梯度下降法求解最有参数，各种各样的梯度下降法都会遇到一个问题，就是如何设置学习率，是一个技术活，更是一个运气活。

一学习率参数调优的原理

超参数调优，经常会遇到两个问题：
1、模型发散，参数随着迭代数值绝对值越来越大，甚至发散到无穷，从损失函数来看，误差也会越来越大。
2、震荡，从损失函数来看，误差出现震荡，模型在局部最优解附近徘徊。

1.1 模型参数发散的原因

假定损失函数为 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ ，通常梯度下降法可表示为

β^{n e w} = β^{o l d} - λ \nabla Q (β) |_{β = β^{o l d}}

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
当

Q (β)

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 满足条件：

‖ \nabla Q (β) ‖ \geq s ‖ β ‖; \forall ‖ β ‖ > M > 0 a n d s > 0

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$

几乎所有损失函数都满足这一条件，比如最简单的 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ ,有 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 。

有：

\begin{array}{l} ‖ β - λ \nabla Q (β) ‖^{2} & = ‖ β ‖^{2} - 2 c o s (θ) λ ‖ \nabla Q (β) ‖ ‖ β ‖ + λ^{2} ‖ \nabla Q (β) ‖ \\ = ‖ β ‖^{2} + λ ‖ \nabla Q (β) ‖ (‖ \nabla Q (β) ‖ - 2 c o s (θ) ‖ β ‖) \\ \geq ‖ β ‖^{2} + λ ‖ \nabla Q (β) ‖ (λ c - 2 c o s (θ) ‖ β ‖ \end{array}

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
当

λ c > 2

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 时必有：

\begin{array}{l} ‖ β - λ \nabla Q (β) ‖^{2} & \geq ‖ β ‖^{2} + λ ‖ \nabla Q (β) ‖ (λ c - 2 c o s (θ) ‖ β ‖ \\ > λ c ϵ ‖ β ‖^{2} + ‖ β ‖^{2} \\ = (1 + λ t ϵ) ‖ β ‖^{2} \end{array}

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
即

‖ β^{k} ‖ > (1 + λ c ϵ)^{k / 2} ‖ β^{0} ‖

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ ,此时迭代将使得参数指数增长，参数必发散且必有损失函数趋于无穷大。

改变损失函数本身性质，必须改变损失函数，即便这样做也很难保证不出现参数爆炸的情况。剩下的就是改变超参数 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ .
任何时候，当你设定的学习率导致参数发散的时候，简单的办法就是降低学习率 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ ，破坏条件 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 从而避免参数发散。

1.2 震荡的原因

不同于参数发散，损失函数值震荡，主要是因为在局部最优解附近学习率过大，导致迭代无法收敛到局部最优值。
假定 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 是局部最优值，在局部最优值附近有 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ ,简单起见，不防设 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ ,即恰好 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 是损失函数在局部最优解附近的海塞矩阵的特征方向。
则得到过程可以表示为

\begin{array}{l} λ \nabla Q (β) & \approx t λ \nabla^{2} Q (β^{*}) α = t λ ϕ α \\ ⇓ \\ β^{(0)} & \approx t α + β^{*} \\ β^{(1)} & \approx β^{(0)} - t λ ϕ α = β^{*} + t (1 - λ ϕ) α \\ β^{(2)} & \approx β^{(1)} - t (1 - λ ϕ) λ ϕ α = β^{*} + t (1 - λ ϕ)^{2} α \\ β^{(k)} & \approx β^{*} + t (1 - λ ϕ)^{k} α \end{array}

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
可以看到：
1. 若

0 < (1 - λ ϕ) < 1

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 则迭代逐步趋向于

β^{*}

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ ;
2. 若

0 > (1 - λ ϕ) > - 1

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 则迭代也会逐步趋向于

β^{*}

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ ，但每一步会跳过局部最优值;
3. 若

(1 - λ ϕ) > 1

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 则迭代会逐步离开

β^{*}

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ ，有可能离开该局部最优值，也可能既无法离开也无法收敛，与损失函数更大范围的性质有关系，损失曲线一般表现出不规则震动;
4. 若

(1 - λ ϕ) = - 1

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 则迭代表现出在两个值之间周期性跳转，损失曲线上可能看不到变化，也可能表现为震动。
因此若要保证收敛，还是需要缩小学习率

λ

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ .

1.3 其他情况

复杂模型，还会遇到梯度爆炸和梯度消失的问题，梯度消失则表明模型已经训练到达一个局部最优解。而梯度爆炸的问题是训练过程中更为麻烦的问题，它会迫使搜索脱离当前区域。
样本数量改变经常导致损失函数变化，因此在小样本上训练收敛的参数，在大样本下可能仍然不收敛，这导致工程应用中有麻烦，没法设定固定的学习率。

二实战研究

下面以简单回归模型为例，说明学习率参数对机器学习收敛的影响。一般而言学习率由大到小，先导致发散，缩小学习率后误差震荡，继续缩小则训练过程收敛。 跟混沌理论差不多，导致震荡学习率有一个临界区间。同时学习率并不是越小越好，缩小学习率需要更多的迭代次数才能。
给定模型 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ ,产生随机样本：

Num=1000
set.seed(1000)
x1 = runif(n = Num,min = -10,max = 3)
x2 = runif(n = Num,min = -5,max = 5)
x3 = runif(n = Num,min = -5,max = 10)
X=cbind(x1,x2,x3)
y=5*x1+6*x2+5*6*x3
sd(y)
# 添加随机误差
y=y+rnorm(Num,mean = 0,sd = 1)

模型的损失函数为： $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ ，

梯度为:

\begin{array}{l} \frac{\partial Q (a)}{\partial a} & = - \sum_{i = 1}^{n} (y_{i} - a x_{i 1} - b x_{i 2} - a b x_{i 3}) (x_{i 1} + b x_{i 3}) \\ = - \sum_{i = 1}^{n} (y_{i} x_{i 1} - a x_{i 1}^{2} - b x_{i 1} x_{i 2} - a b x_{i 1} x_{i 3} + b (y_{i} x_{i 3} - a x_{i 1} x_{i 3} - b x_{i 2} x_{i 3} - a b x_{i 3}^{2})) \\ \frac{\partial Q (a)}{\partial b} & = - \sum_{i = 1}^{n} (y_{i} - a x_{i 1} - b x_{2} - a b x_{i 3}) (x_{i 2} + a x_{i 3}) \\ = - \sum_{i = 1}^{n} (y_{i} x_{i 2} - a x_{i 1} x_{i 1} x_{i 2} - b x_{i 2}^{2} - a b x_{i 2} x_{i 3} + a (y_{i} x_{i 3} - a x_{i 1} x_{i 3} - b x_{i 2} x_{i 3} - a b x_{i 3}^{2})) \end{array}

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
梯度下降迭代公式为：

a^{(k + 1)} = a^{(k)} + λ \sum_{i = 1}^{n} (y_{i} - a x_{i 1} - b x_{i 2} - a b x_{i 3}) (x_{i 1} + b x_{i 3}) b^{(k + 1)} = b^{(k)} + λ \sum_{i = 1}^{n} (y_{i} - a x_{i 1} - b x_{2} - a b x_{i 3}) (x_{i 2} + a x_{i 3})

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
R语言实现迭代过程：

olm<-function(y,x,lambda=0.02,iter=100,beta=runif(n = 2,min = 0.01,max = 0.2)){
  stopifnot(length(y)==dim(x)[1])
   stopifnot(3==dim(x)[2])
  xy=c(t(y)%*%x)
  xx=t(x)%*%x
  #为了观察内部过程，需要将每一步迭代后的参数保留下来
  betas=data.frame(a=rep(0,iter+1),b=rep(0,iter+1))
  betas[1,]=beta
  for(i in 1:iter){
    b0=c(beta,beta[1]*beta[2])
    b1=matrix(data=c(1,0,0,1,beta[2:1]),nrow = 2)
    #browser()
    beta=beta +lambda*b1%*%(xy-xx %*%b0)
    betas[i+1,]=beta
  }
  betas
}
#betas=olm(y,X,lambda = 0.00056,iter = 1000)

计算每一步迭代后个损失函数值：

betas=olm(y,X,lambda =0.0000028,iter = 500)
beta2=betas
beta2[,3]=beta2[,1]*beta2[,2]
err=0.5*colSums((y-X%*%t(beta2))^2)/Num
plot(err,type = "l")

plot(betas,type="b")

从上图可以看出，此参数使得训练在若干步后发散，损失值突然发散到无穷大，训练模型参数由于最后太大，导致之前的模型参数被压缩在一个极小的区域，从而在图上显示为一个点。

重新调整初始化参数，缩小学习率参数,同时加大迭代次数,可以从下图中看到，这一次明显有误差震荡。

betas1=olm(y,X,lambda = 0.000002,iter = 1000)
beta2=betas1
beta2[,3]=beta2[,1]*beta2[,2]
err1=0.5*colSums((y-X%*%t(beta2))^2)/Num
plot(err1,type = "l")

plot(betas1,type="b")

上面的参数，使得参数在最优值附近跳转，在损失函数值上看来，表现为震荡。迭代参数基本在一条直线上，这并不是偶然的，这条直线会逐步逼近损失函数在改局部最小值的Hassan矩阵的特征方向，一般而言是有最大特征值的特征方向。来看最后50次迭代情况。

plot(betas1[950:1000,],type="b")

继续缩小学习率。

betas1=olm(y,X,lambda =0.0000014,iter = 1000)
beta2=betas1
beta2[,3]=beta2[,1]*beta2[,2]
err1=0.5*colSums((y-X%*%t(beta2))^2)/Num
plot(err1[-c(1:2)],type = "l")

plot(betas1,type="b")

plot(betas1[950:1000,],type="o")

这时，训练误差迅速逼近最小值，从模型参数迭代过程来看，参数迅速靠近（5,6）附近从最后一图来看，模型参数值移动范围越来越小。

三、梯度下降法的改进思路

不管是参数发散还是震荡，归根揭底都是由于给定学习率后，跟梯度模长有关系，实际上在梯度越大的地方，损失函数变化越大，这时我们恰好需要更小的学习率以免模型参数下一步跑过最小值。事实上梯度下降法的关键是梯度方向，而不是梯度的模长，而模长依赖于样本数据，尤其当样本数量变化时，对梯度影响更加明显，更多的样本量意味着需要更小的参数，而机器学习需要的样本越多越好。
随机梯度下降法可以控制每次参与，但每次参与计算样本数量仍然对学习率参数有显著的影响。比较更好的办法是控制梯度模长，因为对于模型训练结果而言，尽需要保证每次迭代的梯度方向大致正确。
比随机梯度更彻底的办法是，是控制梯度模长。保障 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 迭代参数仍然可以做到收敛。若能任何时候保障 $<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ ，有

\begin{array}{l} ‖ β - λ V ‖^{2} & = ‖ β ‖^{2} - 2 c o s (θ) λ ‖ V ‖ ‖ β ‖ + λ^{2} ‖ V ‖^{2} \\ = ‖ β ‖^{2} + λ ‖ V ‖ (λ ‖ V ‖ - 2 c o s (θ) ‖ β ‖) \end{array}

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
只要给定

λ ‖ V ‖ < λ M < 2

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 就能破坏参数发散的条件，也能避免当局部梯度太大时，模型参数

β

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$ 脱离当前搜索区域，使得梯度下降法搜索趋于稳定。
这个改动可以避免参数发散的问题，也能避免梯度爆炸的问题，代价是训练过程需要更多的迭代次数，增加计算复杂。
一般我们可以取:

\begin{array}{l} V = \frac{\nabla Q (β)}{m a x (‖ \nabla Q (β) ‖), 1)} \end{array}

$<![CDATA[// ><![CDATA[// ><!]]]]><![CDATA[> //--><!]]>$
此时，从而有