梯度下降在深度学习中的作用
提及梯度,那就一定要知道导数的作用。 f ( x ) = 3 x 2 + 2 x + 2 f(x)=3x^2+2x+2 f ( x ) = 3 x 2 + 2 x + 2 ,假设有这样的函数,想要求出使得这个函数达到最小值的 x x x 的值。 f ′ ( x ) = 6 x + 2 f'(x)=6x+2 f ′ ( x ) = 6 x + 2 初始值 x 0 = 3 x_0=3 x 0 = 3 x i + 1 = x i + θ f ′ ( x i ) x_{i+1}=x_i+\theta f'(x_i) x i + 1 = x i + θ f ′ ( x i ) 这个式子就是更新迭代的公式, θ \theta θ 就是所说的学习率。注意这里为了简明用的是导数,而实际上要用的是梯度。 假设 θ \theta θ =0.01,沿着导数相反的方向函数值下降最快,那么 x 2 = 3 − 0.01 ∗ 20 = 2.8 x_2=3-0.01*20=2.8 x 2 = 3 − 0 . 0 1 ∗ 2 0 = 2 . 8 。 以此类推直到 x i = − 0.3333333 x_i=-0.3333333 x i = − 0 . 3 3 3 3 3 3 3 时, f ′ ( x i ) = 0 f'(x_i)=0 f ′ ( x i ) = 0 ,此时 x i +