机器学习之梯度下降法（GD）和坐标轴下降法（CD）

梯度下降法

梯度下降法（Gradient Descent, GD）常用于求解无约束情况下凸函数（Convex Function）的极小值，是一种迭代类型的算法，因为凸函数只有一个极值点，故求解出来的极小值点就是函数的最小值点

$J(\theta)=\frac{1}{2m}\sum_{i=1}^{m}(h(x^{(i)}_{\theta})-y^{(i)})^{2}$

$\theta^{*}=\arg_\theta^m\min{J(\theta)}$

梯度下降法的优化思想是用当前位置负梯度方向作为搜索方向，因为该方向为当前位置的最快下降方向，所以梯度下降法也被称为“最速下降法”。梯度下降法中越接近目标值，变量变化越小。计算公式如下

$\theta_{j+1}=\theta_{j}-\alpha\frac{\partial}{\partial{\theta_j}}J(\theta)$

梯度下降法（数值解）过程

Step1:初始化θ（随机初始化）
Step2:沿着负梯度方向迭代，新的θ 能够使得J(θ) 更小 $\theta_{j+1}=\theta_{j}-\alpha\frac{\partial}{\partial{\theta_j}}J(\theta)$ α：学习率、步长
Step3:如果J(θ) 能够继续减小，返回Step2，直到迭代完成。

收敛条件：当目标函数的函数值变化非常小的时候或者达到最大迭代次数的时候，就结束循环。

注：仅考虑单个样本的单个 θ 参数的梯度值

$\begin{aligned}\frac{\partial}{\partial{\theta_j}}J(\theta) &=\frac{\partial}{\partial{\theta_j}}\frac{1}{2}(h_{\theta}(x)-y)^2 \\&=2\cdot \cdot \frac(h_{\theta}(x)-y)\cdot \frac{\partial}{\partial{\theta_j}}(h_{\theta}(x)-y)\\&=(h_{\theta}(x)-y)\frac{\partial}{\partial{\theta_j}}(\sum_{i=0}^{n}\theta_{i}x_{i}-y)\\& =(h_{\theta}(x)-y)x_{j}\end{aligned}$

4.2批量梯度下降法（BGD）

使用所有样本的梯度值作为当前模型参数θ 的更新

$\begin{aligned}\frac{\partial{J(\theta)}}{\partial{\theta_{j}}}&=\sum_{i=1}^{m}\frac{\partial}{\partial{\theta_j}}\\&=\sum_{i=1}^{m}x_{j}^{(i)}(h_{\theta}(x^{(i)})-y^{(i)})\\&=\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})x_{j}^{(i)}\end{aligned}$

4.3随机梯度下降法（SGD）

使用单个样本的梯度值作为当前模型参数θ的更新

$\frac{\partial}{\partial{\theta_j}}J(\theta)=(h_{\theta}(x)-y)x_{j}$

for i= 1 to m,{

$\theta_{j}=\theta_{j}+\alpha{(h_{\theta}(x^{(i)})-y^{(i)})x_{j}^{(i)}}$

}

BGD和SDB的区别

SGD速度比BGD快（整个数据集从头到尾执行的迭代次数少）
SGD在某些情况下（全局存在多个相对最优解，J(θ)不是一个二次函数），SGD有可能会跳出某些小的局部最优解，所以一般情况下不会比BGD差；SGD在收敛的位置会存在J(θ)函数波动的情况，抗噪声很差。
BGD一定能够得到一个局部最优解（在线性回归模型中一定是得到一个全局最优解），SGD由于随机性的存在可能导致最终结果比BGD差
注意：优先选择SGD

小批量梯度下降法（MBGD）

如果要满足算法训练过程较快，又需要保证最终参数训练的准确率较高，提出小批量梯度下降法（Mini-batch Gradient Descent，简称MBGD）。
MBGD中是把样本划分为b个样本（b一般为10），然后以这b个样本的平均梯度为更新方向：

for i = 1 to m/10,{

$\theta_{j}=\theta_{j}+\alpha{\sum_{k=i}^{i+10}(h_{\theta}(x^{(i)})-y^{(i)})x_{j}^{(i)}}$

}

学习率选择和参数初始化

由于梯度下降法中负梯度方向作为变量的变化方向，所以有可能导致最终求解的值是局部最优解，所以在使用梯度下降的时候，一般需要进行一些调优策略

学习率的选择：学习率过大，表示每次迭代更新的时候变化比较大，有可能会跳过最优解；学习率过小，表示每次迭代更新的时候变化比较小，就会导致迭代速度过慢，很长时间都不能结束；
算法初始参数数值的选择：初始值不同，最终获得的最小值也有可能不同，因为梯度下降法求解的是局部最优解，所以一般情况下，选择多次不同初始值运行算法，并最终返回损失函数最小情况下的结果值；
标准化：由于样本不同特征值的取值范围不同，可能会导致在各个不同参数上迭代速度不同，为了减少特征取值的影响，可以将特征进行标准化操作。

BGD、SGD、MBGD的区别

当样本量为m的时候，每次迭代BGD算法中对于参数值更新一次，SGD算法中对于参数值更新m次，MBGD算法中对参数值更新m/n次，相对来讲SGD的更新速度最快；

SGD算法中对于每个样本都需要更新参数值，当样本值不太正常的时候，就有可能会导致本次的参数更新会产生相反的影响，也就是说SGD算法的结果并不完全收敛，而是在收敛结果处波动；

SGD算法是每个样本都更新一次参数值，所以SGD算法特别适合样本数据量特别大的情况以及在线机器学习（Online ML）

梯度下降法案例代码

坐标轴下降法

坐标轴下降法（Coordinate Descent，CD）是一种迭代法，通过启发式的方法一步步的迭代求解函数的最小值，和梯度下降法（GD）不同的时候，坐标轴下降法是沿着坐标轴的方向去下降，而不是采用梯度的负方向下降。

坐标轴下降法利用EM算法的思想，在参数更新过程中，每次均先固定m-1个参数值，求解剩下的一个参数的局部最优解；然后进行迭代式的更新操作。

坐标轴下降法的核心思想是多变量函数F(X)可以通过每次沿着一个方向优化来获取最小值。

其数学依据是：对于一个可微凸函数f(θ)，其中θ 为 n*1 的向量，如果对于一个解 $\theta=(\theta_1, \theta_2, \dots, \theta_n)$ ,使得f(θ) 在某个坐标轴 $\theta_i(i=1,2,..,n)$ 上都能达到最小值，则 $\theta=(\theta_1, \theta_2, \dots, \theta_n)$ 就是 f(θ) 的全局的最小值点。

在坐标轴下降法中，优化方向从算法的一开始就固定了，即沿着坐标的方向进行变化。在算法中，循环最小化各个坐标方向的目标函数。即：如果 $x_k$ 给定，那么 $x_{k+1}$ 的第i维度为：

$x_i^{k+1}=\arg\min_{y\in R}f(x_1^{k+1}, \dots, x_{i-1}^{k+1}, y, x_{i+1}^k, \dots, x_n^k)$

因此，从一个初始的 $x_0$ 求得函数F(x)的局部最优解，可以迭代获取 $x_0,x_1,x_2...$ 的序列，从而可以得到：

$F(x_0)\ge F(x_1)\ge F(x_2)\ge\dots$

坐标轴下降法算法过程：

给θ 向量随机选取一个初值，记做 $\theta_0$
对于第k轮的迭代，从 $\theta_1^k$ 开始计算， $\theta_n^k$ 到为止，计算公式如下：

$\begin{aligned}\theta_1^k&=\arg\min_{\theta_1}J(\theta_1,\theta_2^{k-1}, \theta_3^{k-1}, \dots, \theta_n^{k-1}) \\\theta_2^k&=\arg\min_{\theta_2}J(\theta_1^k,\theta_2, \theta_3^{k-1}, \dots, \theta_n^{k-1}) \\\dots \\\theta_n^k&=\arg\min_{\theta_n}J(\theta_1^k,\theta_2^k, \theta_3^k, \dots, \theta_n)\end{aligned}$