模型训练和更新参数的过程是机器学习中的核心。这个过程通常涉及多个步骤,包括前向传播、损失计算、反向传播和参数更新。下面我将通过一个简单的线性回归模型的例子来解释这些步骤:
线性回归模型示例
假设我们有一个简单的线性关系 y = w x + b y=wx+b y=wx+b,其中 y y y 是目标变量, x x x 是特征变量, w w w 和 b b b 是模型参数(权重和偏置)。我们的目标是通过训练数据来找到最佳的 w w w 和 b b b ,使得模型的预测与真实数据尽可能接近。
1. 前向传播
在前向传播中,模型根据当前参数和输入计算其预测值。对于给定的输入 x i {x_i} xi,模型的预测是:
y ^ i = w ⋅ x i + b \hat{y}_i=w\cdot x_i+b y^i=w⋅xi+b
2. 损失计算
一旦有了预测,我们需要计算损失(或误差)。损失函数度量预测值和真实值之间的差异。常用的损失函数之一是均方误差(MSE),计算公式如下:
L = 1 N ∑ i = 1 N ( y ^ i − y i ) 2 L=\frac1N\sum_{i=1}^N(\hat{y}_i-y_i)^2 L=N1∑i=1N(y^i−yi)2
这里, N N N 是样本的数量, y i y_i yi 是真实值, y ^ i \hat{y}_i y^i 是预测值
3. 反向传播
一旦计算了损失,我们就需要根据损失函数的梯度来调整模型参数。这一步称为反向传播,它涉及到计算损失函数相对于每个参数的导数(梯度)。对于线性回归,梯度计算如下:
∂ L ∂ w = 2 N ∑ i = 1 N x i ( y ^ i − y i ) ∂ L ∂ b = 2 N ∑ i = 1 N ( y ^ i − y i ) \begin{aligned}&\frac{\partial L}{\partial w}=\frac2N\sum_{i=1}^Nx_i(\hat{y}_i-y_i)\\&\frac{\partial L}{\partial b}=\frac2N\sum_{i=1}^N(\hat{y}_i-y_i)\end{aligned} ∂w∂L=N2i=1∑Nxi(y^i−yi)∂b∂L=N2i=1∑N(y^i−yi)
4. 参数更新
最后,我们使用梯度下降方法更新参数。这个步骤简单地减去梯度与学习率的乘积从当前参数值:
w = w − η ∂ L ∂ w b = b − η ∂ L ∂ b \begin{aligned} &w=w-\eta\frac{\partial L}{\partial w} \\ &b=b-\eta\frac{\partial L}{\partial b} \end{aligned} w=w−η∂w∂Lb=b−η∂b∂L
其中 η 是学习率, \text{其中}\eta\text{是学习率,} 其中η是学习率,,一个小的正数,控制学习的速度。
循环过程
以上四个步骤在每个训练批次中重复执行,每次迭代都会使用一组新的训练数据(如果是批量梯度下降)。通过多次迭代,模型参数逐渐调整,以最小化整个训练集上的总损失。这个过程会一直进行,直到模型的性能不再显著提高或达到预设的迭代次数。