[Machine Learning] 损失函数和优化过程

文章目录

机器学习算法的目的是找到一个假设来拟合数据。这通过一个优化过程来实现，该过程从预定义的 hypothesis class（假设类）中选择一个假设来最小化目标函数。具体地说，我们想找到 $\argmin\limits_{h \in H} \frac{1}{n} \sum\limits_{i=1}^n \ell(X_i,Y_i,h)$ 。其中， $H$ 是预定义的假设类。

假设类 $H$ 是一个函数集，其中每个函数都尝试从输入特征映射到输出标签， $\{ h_1, h_2, \dots \}$ 。通常， $H$ 由一个特定的算法或模型结构定义，如线性回归、决策树等。

首先，0-1损失函数是最直接的分类误差度量。对于给定的分类器 $h$ ，它只是简单地计算误分类的数据点的数量。数学上，这定义为： $\argmin\limits_{h} \mathbb{E}[1_{Y \neq sign(h(X))}]$ 。但我们通常遇到的问题是：

真实数据的分布 $P (X, Y)$ 是未知的，因此我们不能直接计算上述期望。
0-1损失在计算上是困难的，因为它是不连续的、非凸的，这使得优化变得复杂。

大数定律描述了随机变量的样本均值与整体均值之间的关系。它确保了当样本大小趋于无穷大时，样本均值趋于整体均值。更形式化地说，考虑一个随机变量 $X$ ，其期望值为 $\mathbb{E}[X]$ 。对于 $X$ 的 $n$ 个独立同分布的样本 $X_1, X_2, \dots, X_n$ ，它们的样本均值定义为 $\bar{X_n} = \frac{1}{n} \sum_{i=1}^{n} X_i$ 。当 $\rightarrow \infty$ 时, $\bar{X_n} \rightarrow \mathbb{E}[X]$ 。

通过大数定律，我们可以使用这些样本来估计某些与分布相关的数量，例如期望损失。假设我们的目标是估计由假设 $h$ 引起的期望损失 $\mathbb{E}[1_{Y \neq \text{sign}(h(X))}]$ 。我们可以使用来自真实分布的样本 $\mathcal{D}$ 来估计这个期望：

$\frac{1}{n} \sum_{i=1}^{n} 1_{Y_i \neq \text{sign}(h(X_i))}$

随着样本数量 $n$ 的增加，上述估计将接近真实的期望损失。

为了在实践中使问题变得可解，我们使用所谓的 surrogate loss function（替代损失函数），它们在优化上更容易处理，但仍旨在近似0-1损失函数。

Hinge loss（合页损失）：这是支持向量机中使用的损失函数。
$\ell(X,Y,h) = \max \{0,1−Yh(X)\}$
Logistic loss（逻辑损失）：这是逻辑回归中使用的。它对于异常值更为稳健，并且为概率提供了良好的估计。
Least square loss（最小二乘损失）：主要在回归问题中使用。
Exponential loss（指数损失）：是AdaBoost算法中使用的损失函数。

大多数流行的替代损失函数都是为了在大样本极限下模拟0-1损失函数的效果。这些被称为 classification-calibrated （分类校准的）替代损失函数。这意味着，如果训练数据无穷大，则使用这些损失函数训练的分类器在0-1损失上的表现将与真正的最佳分类器一致。

给定一个代理损失函数 $\ell$ 和相应的函数 $\phi$ 使得 $\phi(Yh(X)) = \ell(X, Y, h)$ 。这里， $Y$ 是标签，取值为 $(- 1, 1)$ ，而 $h (X)$ 是分类器对输入 $X$ 的预测得分。为了检查 $\ell$ 是否是分类校准的，我们通常检查以下条件:

$\phi$ 是凸的。
$\phi$ 在0处可导，并且 $\phi'(0) < 0$ 。

满足上述条件意味着在大部分情况下，对于一个给定的数据点，分类器 $h$ 使代理损失最小化时，也会使0-1损失最小化。

例如，考虑Hinge损失 $\ell_{\text{hinge}}(X,Y,h) = \max \{ 0, 1-Yh(X) \}$

对应的 $\phi$ 函数为 $\phi(z) = \max \{ 0, 1-z \}$

这个函数在 $z = 1$ 处是不可导的，但是在 $z = 0$ 处是可导的，且其导数小于0，因此Hinge损失是分类校准的。

现在可以考虑以下两个分类器的定义：

$h_s$ 是基于有限训练数据和替代损失函数的最优分类器。
$h_c$ 是基于整个数据分布和0-1损失函数的最优分类器。

使用替代损失函数和训练数据，我们可以找到 $h_s$ ：

$h_s = \argmin\limits_{h} \frac{1}{n} \sum\limits_{i=1}^n \ell(X_i,Y_i,h)$

与此同时，如果我们知道整个数据的分布，我们可以找到 $h_c$ ：

$h_c = \argmin\limits_{h} \mathbb{E}[1_{Y \neq \text{sign}(h(X))}]$

当我们的训练数据量无限大时，使用替代损失函数得到的 $h_s$ 将与使用0-1损失函数得到的 $h_c$ 越来越接近。这可以通过以下公式表示：

$\mathbb{E}[1_{Y \neq \text{sign}(h_S(X))}] \overset{n \rightarrow \infty}{\longrightarrow} \mathbb{E}[1_{Y \neq \text{sign}(h_c(X))}]$

这意味着，当我们基于有限的样本数据集优化代理损失时，我们实际上是在优化该数据集上的经验损失。大数定律保证，随着样本数的增加，这个经验损失的期望会接近于真实的期望损失。同时，如果我们的代理损失是分类校准的，那么优化这个代理损失将隐式地优化0-1损失。当训练数据的大小趋向于无穷大时，通过最小化替代损失函数得到的分类器的期望0-1损失将趋近于最优的0-1损失。

当替代损失函数是凸的且光滑时，我们可以使用一系列的优化算法，如梯度下降、牛顿法等，来解决以下问题：
$\argmin\limits_{h \in H} \frac{1}{n} \sum\limits_{i=1}^n \ell(X_i,Y_i,h)$