机器学习 - 梯度下降算法推导

要逐步推导多变量线性回归的梯度计算过程，我们首先需要明确模型和损失函数的形式，然后逐步求解每个参数的偏导数。这是梯度下降算法核心部分，因为这些偏导数将指导我们如何更新每个参数以最小化损失函数。

模型和损失函数

考虑一个多变量线性回归模型，模型预测可以表示为：
$h_{\theta}(x) = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + \dots + \theta_n x_n$
其中 $[x_1, x_2, \dots, x_n]$ 是输入特征， $\theta = [\theta_0, \theta_1, \dots, \theta_n]$ 是模型参数。

我们使用均方误差作为损失函数，对于所有训练数据：
$J(\theta) = \frac{1}{2m} \sum_{i=1}^m \left( h_{\theta}(x^{(i)}) - y^{(i)} \right)^2$
在这里插入图片描述

计算梯度

为了使用梯度下降算法，我们需要计算损失函数 $J(\theta)$ 关于每个参数 $\theta_j$ 的偏导数。假设 j 代表特定的参数索引，包括 0，即截距项 $\theta_0$ ：

扩展损失函数：
$J(\theta) = \frac{1}{2m} \sum_{i=1}^m \left( \theta_0 + \theta_1 x_1^{(i)} + \dots + \theta_n x_n^{(i)} - y^{(i)} \right)^2$
对 ( \theta_j ) 求偏导数：
为了求 $\frac{\partial J}{\partial \theta_j}$ 我们需要应用链式法则：
$\frac{\partial J}{\partial \theta_j} = \frac{1}{m} \sum_{i=1}^m \left( h_{\theta}(x^{(i)}) - y^{(i)} \right) \frac{\partial}{\partial \theta_j} \left( h_{\theta}(x^{(i)}) \right)$
推导 $\frac{\partial}{\partial \theta_j} h_{\theta}(x^{(i)})$
因为 $h_{\theta}(x^{(i)}) = \theta_0 + \theta_1 x_1^{(i)} + \dots + \theta_n x_n^{(i)}$ 所以
$\frac{\partial}{\partial \theta_j} h_{\theta}(x^{(i)}) = x_j^{(i)}$
这里 $x_j^{(i)}$ 是第 i 个样本的第 j 个特征。
将导数放回梯度公式：
$\frac{\partial J}{\partial \theta_j} = \frac{1}{m} \sum_{i=1}^m \left( h_{\theta}(x^{(i)}) - y^{(i)} \right) x_j^{(i)}$