逻辑回归解密：原理、公式和优化全解析

文章目录

一、前言
二、逻辑回归的原理和基本公式
- 1. 逻辑回归的原理
- - 核心函数：Sigmoid函数
- 2. 逻辑回归模型
- 3. 梯度上升法参数估计：最大似然估计
- - 对数似然函数
  - 求导过程
  - 参数更新
- 4. 梯度下降法参数估计：最小化损失函数
- - 逻辑回归的负对数似然函数
  - 梯度下降法求导过程
  - 参数更新规则
- 5. 迭代更新
三、逻辑回归的求导过程详解
- 对数似然函数
- Sigmoid函数及其导数
- 求导步骤
- 参数更新规则
四、总结

一、前言

在机器学习领域，逻辑回归是一个基础且极其重要的算法，尤其适用于处理二分类问题。它通过将特征的线性组合通过Sigmoid函数映射到概率值，用以预测事件的发生概率。本文将深入探讨逻辑回归的核心原理，从Sigmoid函数的基础开始，详细解析最大似然估计法的求导过程。通过逐步展开的数学推导，我们希望使读者能够全面理解并应用逻辑回归于实际的数据分析和机器学习项目中。

二、逻辑回归的原理和基本公式

1. 逻辑回归的原理

逻辑回归模型假设目标变量 $Y$ 取值为0或1，它通过一个概率分布链接函数（Sigmoid函数）将特征的线性组合映射到(0, 1)区间，这样的输出可以解释为事件发生的概率。

核心函数：Sigmoid函数

Sigmoid函数是逻辑回归中使用的链接函数，定义为：
$\sigma(z) = \frac{1}{1 + e^{-z}}$
其中 $z$ 是输入特征的线性组合：
$\beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots + \beta_n x_n$

2. 逻辑回归模型

逻辑回归模型预测给定输入特征 $X$ 下，目标事件 $Y = 1$ 的概率：
$\sigma(\beta^T X)$
这里， $\beta^T X$ 表示参数向量 $\beta$ 和特征向量 $X$ 的点积。

3. 梯度上升法参数估计：最大似然估计

为了找到最佳的参数 $\beta$ ，逻辑回归使用最大似然估计方法，即选择能够使得观测到的样本数据最有可能出现的参数值。

对数似然函数

对数似然函数基于所有观测数据，可以写为：
$\ell(\beta) = \sum_{i=1}^n \left[ y^{(i)} \log \sigma(z^{(i)}) + (1 - y^{(i)}) \log (1 - \sigma(z^{(i)})) \right]$
其中 $z^{(i)} = \beta^T x^{(i)}$ 。

求导过程

要最大化对数似然函数，需要对其进行求导，找到梯度为零的点。首先，我们利用链式法则和Sigmoid函数的导数，对 $\beta_j$ 的偏导数展开：

Sigmoid函数的导数：
$\frac{d\sigma}{dz} = \sigma(z)(1 - \sigma(z))$
链式法则的应用：
$\frac{\partial \ell(\beta)}{\partial \beta_j} = \sum_{i=1}^n \left[ y^{(i)} \frac{1}{\sigma(z^{(i)})} - (1 - y^{(i)}) \frac{1}{1 - \sigma(z^{(i)})} \right] \sigma(z^{(i)})(1 - \sigma(z^{(i)})) x_j^{(i)}$
这可以简化为：
$\frac{\partial \ell(\beta)}{\partial \beta_j} = \sum_{i=1}^n \left( y^{(i)} - \sigma(z^{(i)}) \right) x_j^{(i)}$

参数更新

使用梯度上升法来更新参数 $\beta$ ：
$\beta_j := \beta_j + \alpha \sum_{i=1}^n \left( y^{(i)} - \sigma(z^{(i)}) \right) x_j^{(i)}$
其中， $\alpha$ 是学习率。

4. 梯度下降法参数估计：最小化损失函数

逻辑回归的负对数似然函数

首先，定义负对数似然函数（即损失函数）为：
$J(\beta) = -\ell(\beta) = -\sum_{i=1}^n \left[ y^{(i)} \log \sigma(z^{(i)}) + (1 - y^{(i)}) \log (1 - \sigma(z^{(i)})) \right]$
其中 $z^{(i)} = \beta^T x^{(i)}$ ，与之前相同。

梯度下降法求导过程

为了使用梯度下降法，我们需要求出负对数似然函数的梯度。求导步骤相似，但注意梯度的符号会反转。

我们已知：
$\frac{\partial \ell(\beta)}{\partial \beta_j} = \sum_{i=1}^n \left( y^{(i)} - \sigma(z^{(i)}) \right) x_j^{(i)}$

因此，负对数似然函数的梯度（负梯度）为：
$\frac{\partial J(\beta)}{\partial \beta_j} = -\frac{\partial \ell(\beta)}{\partial \beta_j} = \sum_{i=1}^n \left( \sigma(z^{(i)}) - y^{(i)} \right) x_j^{(i)}$

参数更新规则

在梯度下降法中，参数的更新规则为：
$\beta_j := \beta_j - \alpha \sum_{i=1}^n \left( \sigma(z^{(i)}) - y^{(i)} \right) x_j^{(i)}$
这里 $\alpha$ 是学习率，它控制参数更新的步长。

5. 迭代更新

通过迭代更新参数直至收敛（例如，当参数的改变量非常小或达到了预定的迭代次数），我们可以得到使对数似然函数最大化或损失函数最小化的参数 $\beta$ 。

三、逻辑回归的求导过程详解

逻辑回归模型中，我们需要最大化对数似然函数来找到最优参数。首先，我们定义对数似然函数，并详细展示对其求导的过程。

对数似然函数

逻辑回归的对数似然函数是：
$\ell(\beta) = \sum_{i=1}^n \left[ y^{(i)} \log \sigma(z^{(i)}) + (1 - y^{(i)}) \log (1 - \sigma(z^{(i)})) \right]$
其中 $z^{(i)} = \beta^T x^{(i)}$ 。

Sigmoid函数及其导数

Sigmoid函数定义为：
$\sigma(z) = \frac{1}{1 + e^{-z}}$

其导数，通过对函数求导得到：
$\frac{d\sigma}{dz} = \sigma(z)(1 - \sigma(z))$

求导步骤

对于每个参数 $\beta_j$ ，我们应用链式法则：

链式法则的第一部分：对 $\log \sigma(z^{(i)})$ 和 $\log (1 - \sigma(z^{(i)}))$ 的导数。
- 对 $\log \sigma(z^{(i)})$ 的导数：
  $\frac{\partial}{\partial z^{(i)}} \log \sigma(z^{(i)}) = \frac{1}{\sigma(z^{(i)})} \cdot \sigma(z^{(i)})(1 - \sigma(z^{(i)})) = 1 - \sigma(z^{(i)})$
- 对 $\log (1 - \sigma(z^{(i)}))$ 的导数：
  $\frac{\partial}{\partial z^{(i)}} \log (1 - \sigma(z^{(i)})) = \frac{1}{1 - \sigma(z^{(i)})} \cdot (-\sigma(z^{(i)})(1 - \sigma(z^{(i)}))) = -\sigma(z^{(i)})$
链式法则的第二部分：对 $z^{(i)} = \beta^T x^{(i)}$ 的导数，即参数 $\beta_j$ 的影响。
$\frac{\partial z^{(i)}}{\partial \beta_j} = x_j^{(i)}$
整合：
将以上导数结果组合，得到对数似然函数关于 $\beta_j$ 的导数：
$\frac{\partial \ell(\beta)}{\partial \beta_j} = \sum_{i=1}^n \left[ y^{(i)} (1 - \sigma(z^{(i)})) - (1 - y^{(i)}) \sigma(z^{(i)}) \right] x_j^{(i)}$
这可以简化为：
$\frac{\partial \ell(\beta)}{\partial \beta_j} = \sum_{i=1}^n \left( y^{(i)} - \sigma(z^{(i)}) \right) x_j^{(i)}$

参数更新规则

根据上述导数，我们可以使用梯度上升法来更新每个参数 $\beta_j$ ：
$\beta_j := \beta_j + \alpha \sum_{i=1}^n \left( y^{(i)} - \sigma(z^{(i)}) \right) x_j^{(i)}$
这里 $\alpha$ 是学习率，控制参数更新的步幅。