步长(学习率learning rate)
版权声明:署名,允许他人基于本文进行创作,且必须基于与原先许可协议相同的许可协议分发本文 ( Creative Commons ) 步长(学习率) 在进行梯度下降法的过程中,我们需要通过调整 η \eta η 学习率的值来调整参数每次要走的距离。适当的调整 η \eta η 可以更准确的找到 L L L 的最小值以及参数值。 下面需要注意调整步长 η \eta η (往下一步要走的距离)的大小: 不同大小的 η \eta η 可能会造成下面图中的情况 一种方法是将参数的变化与函数 L L L 的改变的情况可视化 当 η \eta η 太小,则L变化缓慢,对应下图中绿色线条 当 η \eta η 比较大,则可能上面图中跳出极小值点,找不到该点(相当于步子迈大了从坑上跨过去) 当 η \eta η 过大时,L将会越变越大,需要重新调整(此时相当于不仅跨过了坑还跨到山上去了) 自动调试 η \eta η 的方法 通常情况下,随着参数的更新会越来越小。(越来越接近目标,要调小步长) Adagrad 一般情况: w k + 1 ← w k η k g k , 其 中 g k 表 ʾ 第 k 个 ֵ 的 梯 度 。 w^{k+1} \leftarrow w^{k}-\eta^{k} g^{k},\\其中g^k表示第k个值的梯度。 w k + 1 ← w k η k g k , 其 中 g k