【深度学习】机器学习概述（二）优化算法之梯度下降法（批量BGD、随机SGD、小批量）

文章目录

一、基本概念
二、机器学习的三要素
- 1. 模型
- - a. 线性模型
  - b. 非线性模型
- 2. 学习准则
- - a. 损失函数
  - b. 风险最小化准则
- 3. 优化
- - 机器学习问题转化成为一个最优化问题
  - a. 参数与超参数
  - b. 梯度下降法
  - - 梯度下降法的迭代公式
    - 具体的参数更新公式
    - 学习率的选择
  - c. 随机梯度下降
  - - 批量梯度下降法 (BGD)
    - 随机梯度下降法 (SGD)
    - 小批量梯度下降法 (Mini-batch Gradient Descent)
    - SGD 的优势
    - SGD 的挑战

一、基本概念

机器学习：通过算法使得机器能从大量数据中学习规律从而对新的样本做决策。
机器学习是从有限的观测数据中学习（或“猜测”）出具有一般性的规律，并可以将总结出来的规律推广应用到未观测样本上。
在这里插入图片描述

二、机器学习的三要素

机器学习方法可以粗略地分为三个基本要素：模型、学习准则、优化算法。

1. 模型

a. 线性模型

$f(\mathbf{x}; \boldsymbol{\theta}) = \mathbf{w}^T \mathbf{x} + b$

b. 非线性模型

广义的非线性模型可以写为多个非线性基函数 $\boldsymbol{\phi}(\mathbf{x})$ 的线性组合： $f(\mathbf{x}; \boldsymbol{\theta}) = \mathbf{w}^T \boldsymbol{\phi}(\mathbf{x}) + b$ 其中， $\boldsymbol{\phi}(\mathbf{x}) = [\phi_1(\mathbf{x}), \phi_2(\mathbf{x}), \ldots, \phi_K(\mathbf{x})]^T$ 是由 $K$ 个非线性基函数组成的向量，参数 $\boldsymbol{\theta}$ 包含了权重向量 $\mathbf{w}$ 和偏置 $b$ 。
如果 $\boldsymbol{\phi}(\mathbf{x})$ 本身是可学习的基函数，例如：

$\phi_k(\mathbf{x}) = h(\mathbf{w}_k^T \boldsymbol{\phi}'(\mathbf{x}) + b_k)$ 其中， $h(\cdot)$ 是非线性函数， $\boldsymbol{\phi}'(\mathbf{x})$ 是另一组基函数， $\mathbf{w}_k$ 和 $b_k$ 是可学习的参数，那么模型 $f(\mathbf{x}; \boldsymbol{\theta})$ 就等价于神经网络模型。

2. 学习准则

a. 损失函数

b. 风险最小化准则

【深度学习】机器学习概述（一）机器学习三要素——模型、学习准则、优化算法

3. 优化

机器学习问题转化成为一个最优化问题

一旦确定了训练集 $\mathcal{D}$ 、假设空间 $\mathcal{F}$ 以及学习准则，接下来的任务就是通过优化算法找到最优的模型 $f(\mathbf{x}, \boldsymbol{\theta}^*)$ 。机器学习的训练过程本质上是最优化问题的求解过程。

a. 参数与超参数

优化可以分为参数优化和超参数优化两个方面：

参数优化： $(\mathbf{x}; \boldsymbol{\theta})$ 中的 $\boldsymbol{\theta}$ 称为模型的参数，这些参数通过优化算法进行学习。这些参数可以通过梯度下降等算法迭代地更新，以使损失函数最小化。
超参数优化： 除了可学习的参数 $\boldsymbol{\theta}$ 外，还有一类参数用于定义模型结构或优化策略，这些参数被称为超参数。例如，聚类算法中的类别个数、梯度下降法中的学习率、正则化项的系数、神经网络的层数、支持向量机中的核函数等都是超参数。与可学习的参数不同，超参数的选取通常是一个组合优化问题，很难通过优化算法自动学习。通常，超参数的设定是基于经验或者通过搜索的方法对一组超参数组合进行不断试错调整。

b. 梯度下降法

在机器学习中，最简单而常用的优化算法之一是梯度下降法。梯度下降法用于最小化一个函数，通常是损失函数或者风险函数。这个函数关于模型参数（权重）的梯度指向了函数值增加最快的方向，梯度下降法利用这一信息来更新参数，使得函数值逐渐减小。

梯度下降法的迭代公式

$\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t - \alpha \frac{\partial \mathcal{R}_{\mathcal{D}}(\boldsymbol{\theta})}{\partial \boldsymbol{\theta}}$

其中：

$\boldsymbol{\theta}_t$ 是第 (t) 次迭代时的参数值。
$\alpha$ 是学习率，控制参数更新的步长。
$\mathcal{R}_{\mathcal{D}}(\boldsymbol{\theta})$ 是风险函数，也可以是损失函数，表示在训练集 (\mathcal{D}) 上的性能。

梯度下降法的目标是通过迭代调整参数，使得风险函数最小化。

具体的参数更新公式

参数更新公式可以具体化为：

$\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t - \alpha \frac{1}{N} \sum_{n=1}^{N} \frac{\partial \mathcal{L}(y^{(n)}, f(\mathbf{x}^{(n)}; \boldsymbol{\theta}))}{\partial \boldsymbol{\theta}}$