深度学习最佳实践系列――权重w初始化

摘要：本文是深度学习最佳实践系列博客之权重初始化，主要介绍权重初始化的相关问题及方法，文中提及的权重初始化方法均可以应用于普通的神经网络、卷积神经网络和递归神经网络之中。

推荐这门课程。

基础和符号

1.初始化权重和偏置。
2.前向传播（forward propagation）：使用输入X，权重W和偏置b，对于每一层计算Z和A。在最后一层中，计算f(A ^（L-1))，它可能会是S形函数softmax或线性函数的A ^(L-1)，并得到预测值y_hat。
3.计算损失函数（loss function）：该函数是理想标签y和预测标签y_hat二者的函数，它表明预测值离实际目标值有多大差距，训练神经网络模型的目的就是要尽量减少损失函数的值。
4.反向传播（back propagation）：在这一过程中，需要计算损失函数f(y，y_hat)相对于A、W和b的梯度，分别称为dA、dW和db。使用这些梯度值，将参数的值从最后一层反向更新到第一层。
5.对n次迭代重复步骤2-4，直到我们觉得已经最小化了损失函数，且没有过拟合训练数据时则表明训练结束。

前向传播

反向传播

权重W初始化

1.将所有权重初始化为0

2.随机初始化权重

a)梯度消失――对于深度网络，任何激活函数abs(dW)值将随着反向传播过程中每一层向后移动而变得越来越小。在这种情况下，较早的层次变化是最慢的。
权重更新较小，进而导致收敛速度变慢，这使会使得损失函数的优化变得缓慢。在最坏的情况下，可能会完全停止神经网络的进一步训练。
更具体地说，在sigmoid(z)和tanh(z)的情况下，如果权重值很大，那么梯度将会很小，从而有效地防止权重改变它们的值，这是因为abs(dW)每次迭代后会稍微增加或者变得越来越小。使用RELU(z)作为激活函数时，梯度消失通常不会成为问题，因为负（和零）输入的梯度值总为0，其正输入时梯度的值总为1。
b)梯度爆炸

最佳实践

1.使用RELU/leaky RELU作为激活函数，因为它对梯度消失/爆炸问题（特别是对于不太深的网络而言）相对健壮。在 leaky RELU作为激活函数的情况下，从来不会有梯度为0的时候，因此模型参数更新将永远不会停止，训练仍会继续训练。
2.对于深度网络，可以使用启发式来根据非线性激活函数初始化权重。在这里，并不是从标准正态分布绘图，而是用方差为k /n的正态分布初始化W，其中k的值取决于激活函数。尽管这些启发式方法不能完全解决梯度消失/爆炸问题，但它们在很大程度上有助于缓解这一问题。最常见的启发式方法是：
a)对于RELU(z)――将随机生成的W值乘以：

b)对于tanh(z)――也被称为Xavier初始化。与前一个方法类似，但k的值设置为1而不是设置为2。

c)另一个常用的启发式方法：

梯度不会消失或爆炸，有助于避免收敛缓慢，同时确保模型不会一直在最小值附近摇晃。当然，还存在上述方法的其它变体，大致的思想都是使参数的方差最小化。
3.梯度剪枝――这是处理梯度爆炸问题的另一种方法。我们可以设置一个阈值，如果一个梯度的选择函数大于这个设定的阈值，那么我们就将它设置为另一个值。例如，如果l2_norm(W)>阈值，则将L2范数超过特定阈值时的梯度值归一化为-W = W * threshold / l2_norm(W)。
对于偏置项不会存在梯度消失和梯度爆炸问题。如前所述，可以安全地将偏置b初始化为0。

结论

原文链接

本文为云栖社区原创内容，未经允许不得转载。