梯度下降
y = x 2 ∗ s i n ( x ) y ′ = 2 x s i n x + x 2 c o s x x 1 = x − Δ y ′ ( x ) 其中 Δ 表示学习率, y ′ ( x ) 代表 y 在 x 点处关于 x 的梯度。 y = x^2 * sin(x) \\ y' = 2xsinx+x^2cosx \\ x_1 = x - \Delta y'(x) \\ 其中 \Delta 表示学习率, y'(x)代表y在x点处关于x的梯度。 y=x2∗sin(x)y′=2xsinx+x2cosxx1=x−Δy′(x)其中Δ表示学习率,y′(x)代表y在x点处关于x的梯度。
注意:
在单变量中,梯度就等于导数。
在多变量中,梯度方向表示函数值增加最快的方向。
1、学习率过大会使算法难以收敛,且波动很大
2、学习率过低可能导致算法收敛过慢