深度学习最佳实践系列――权重w初始化

匿名 (未验证) 提交于 2019-12-03 00:36:02

摘要:本文是深度学习最佳实践系列博客之权重初始化,主要介绍权重初始化的相关问题及方法,文中提及的权重初始化方法均可以应用于普通的神经网络、卷积神经网络和递归神经网络之中。


推荐这门课程

基础和符号







  • 1.初始化权重和偏置
  • 2.前向传播(forward propagation):使用输入X,权重W和偏置b,对于每一层计算Z和A。在最后一层中,计算f(A ^(L-1)),它可能会是S形函数softmax或线性函数的A ^(L-1),并得到预测值y_hat。
  • 3.计算损失函数(loss function):该函数是理想标签y和预测标签y_hat二者的函数,它表明预测值离实际目标值有多大差距,训练神经网络模型的目的就是要尽量减少损失函数的值。
  • 4.反向传播(back propagation):在这一过程中,需要计算损失函数f(y,y_hat)相对于A、W和b的梯度,分别称为dA、dW和db。使用这些梯度值,将参数的值从最后一层反向更新到第一层。
  • 5.对n次迭代重复步骤2-4,直到我们觉得已经最小化了损失函数,且没有过拟合训练数据时则表明训练结束。

前向传播


反向传播

权重W初始化

1.将所有权重初始化为0

2.随机初始化权重


a)梯度消失――对于深度网络,任何激活函数abs(dW)值将随着反向传播过程中每一层向后移动而变得越来越小。在这种情况下,较早的层次变化是最慢的。
权重更新较小,进而导致收敛速度变慢,这使会使得损失函数的优化变得缓慢。在最坏的情况下,可能会完全停止神经网络的进一步训练。
更具体地说,在sigmoid(z)和tanh(z)的情况下,如果权重值很大,那么梯度将会很小,从而有效地防止权重改变它们的值,这是因为abs(dW)每次迭代后会稍微增加或者变得越来越小。使用RELU(z)作为激活函数时,梯度消失通常不会成为问题,因为负(和零)输入的梯度值总为0,其正输入时梯度的值总为1。
b)梯度爆炸

最佳实践

1.使用RELU/leaky RELU作为激活函数,因为它对梯度消失/爆炸问题(特别是对于不太深的网络而言)相对健壮。在 leaky RELU作为激活函数的情况下,从来不会有梯度为0的时候,因此模型参数更新将永远不会停止,训练仍会继续训练。
2.对于深度网络,可以使用启发式来根据非线性激活函数初始化权重。在这里,并不是从标准正态分布绘图,而是用方差为k /n的正态分布初始化W,其中k的值取决于激活函数。尽管这些启发式方法不能完全解决梯度消失/爆炸问题,但它们在很大程度上有助于缓解这一问题。最常见的启发式方法是:
a)对于RELU(z)――将随机生成的W值乘以:



b)对于tanh(z)――也被称为Xavier初始化。与前一个方法类似,但k的值设置为1而不是设置为2。




c)另一个常用的启发式方法



梯度不会消失或爆炸,有助于避免收敛缓慢,同时确保模型不会一直在最小值附近摇晃。当然,还存在上述方法的其它变体,大致的思想都是使参数的方差最小化。
3.梯度剪枝――这是处理梯度爆炸问题的另一种方法。我们可以设置一个阈值,如果一个梯度的选择函数大于这个设定的阈值,那么我们就将它设置为另一个值。例如,如果l2_norm(W)>阈值,则将L2范数超过特定阈值时的梯度值归一化为-W = W * threshold / l2_norm(W)。
对于偏置项不会存在梯度消失和梯度爆炸问题。如前所述,可以安全地将偏置b初始化为0。

结论

原文链接

本文为云栖社区原创内容,未经允许不得转载。


易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!