逻辑回归|logistic回归原理

文章目录

逻辑回归
- 问题描述
- 模型建模
- 模型求解
- 多分类

逻辑回归

问题描述

首先我们考虑一个二分类的问题，假设我们有一个观测向量 $\mathbf{x} = (x_1, x_2, ..., x_m)$ ，其中 $m$ 是特征的数量，以及一个二元响应变量 $y$ ， $y$ 可以取值为0或1，代表类别为 $C_1，C_2$ 。

模型建模

首先，我们假设存在一个线性关系，将特征与响应变量联系起来：

$\beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_mx_m =\beta^Tx$
我们也可以使用非线性的基函数将数据进行变换：
$\beta_0 + \beta_1\phi(x_1) + \beta_2\phi(x_2) + ... + \beta_m\phi(x_m) =\beta^T\phi(x)$

其中， $\beta_0, \beta_1, ..., \beta_m$ 是需要估计的参数。
因为线性回归得到的预测值在 $(-\infty,\infty)$ 之间，我们可以通过逻辑函数（或称为sigmoid函数）将这个线性关系映射到 $(0, 1)$ 区间，以得到 $y = 1$ 的概率：
$y_n = p(C_1|\beta) = \frac{1}{1+e^{-z}}$

模型求解

首先一个二分类的分布可以写成
$y_n^{t_n}(1-y_n)^{1-t_n}$
我们使用极大释然估计来求解模型的参数：
$p(t|\beta)=\prod\limits_{n=1}^N y_n^{t_n}(1-y_n)^{1-t_n}$
$\text{ln}p(t|\beta)=\sum\limits_{n=1}^N t_n \text{ln} y_n + (1-t_n)\text{ln}(1-y_n)$
从上述可以看出似然函数就是交叉熵损失函数相反数，也是二分类十分常用的损失函数。
$\begin{align*} \frac{\partial \text{ln}p(t|\beta)}{\partial \beta} &= \sum\limits_{n=1}^N\{\frac{t_n}{\sigma(z)}- \frac{1-t_n}{1-\sigma(z)} \}\frac{\partial \sigma(z)}{\partial z} \\ &= \sum\limits_{n=1}^N\{\frac{t_n}{\sigma(z)}- \frac{1-t_n}{1-\sigma(z)} \} \sigma(z)(1-\sigma(z)) \frac{\partial z}{\partial \beta} \\ &= \sum\limits_{n=1}^N \{t_n (1-\sigma(z)) - (1-y_n)\sigma(z) \}\phi(x_n) \\ &= \sum\limits_{n=1}^N \{t_n-y_n\}\phi(x_n) \\ &=0 \end{align*}$
很遗憾我们很难从导数等于0求得一个闭式解，我们可以使用梯度下降法求解 $\beta$

我么可以把结果写成矩阵的形式，
首先我们定一个设计矩阵，令 $\Phi=\{\phi(x_1)^T, \phi(x_2)^T,\cdot\cdot\cdot,\phi(x_n)^T\}^T$
$\Phi = \begin{bmatrix} \phi_0(x_1) & \phi_1(x_1) & \cdots & \phi_D(x_1) \\ \phi_0(x_2) & \phi_1(x_2) & \cdots & \phi_D(x_2) \\ \vdots & \vdots & \ddots & \vdots \\ \phi_0(x_N) & \phi_1(x_N) & \cdots & \phi_D(x_N) \end{bmatrix}$
$\phi(x_n)^T=\{\phi_0(x_n),\cdots,\phi_D(x_n)\}$
$\frac{\partial \text{ln}p(t|\beta)}{\partial \beta} = \Phi^T(y-t)$
参数的更新可以写成：
$\begin{align*} \beta_{t+1} &= \beta_{t} - \lambda \sum\limits_{n=1}^N \{t_n-\frac{1}{1+e^{\beta_{t}^T\phi(x)}}\}\phi(x_n) \\ &= \beta_t - \lambda \Phi^T(y-t) \end{align*}$

也可以使用牛顿法求解
$\begin{align*} \frac{\partial^2 \text{ln}p(t|\beta)}{\partial \beta \partial \beta^T} &= \sum_{n=1}^{N} y_n(1-y_n)\phi(x_n)\phi(x_n)^T \\ &= \Phi^TR\Phi \end{align*}$
其中 $R$ 为 $N\times N$ 的对角阵，每个元素为： $R_{nn}=y_n(1-y_n)$ ，那么牛顿法的更新公式可以写成：

$\begin{align*} w_{t+1} = w_t - (\Phi^TR\Phi)^{-1}\Phi^T(y-t) \end{align*}$

多分类

对与多分类问题，我们不能再使用 $\sigma$ 函数，而是使用softmax函数作为概率，对于一个数据的类别，我们使用one-of-K编码表示 $t_n$ ，那么属于类别 $C_k$ 的概率可以表达为：
$p(C_k|\beta^k)=y_k=\frac{exp(a_k)}{\sum_j exp(a_j)}$
其中 $a_k=w_k^T\phi(x_n)$ ， $\beta^k=(\beta_1^k，\beta_2^k，\cdots, \beta_m^k)^T$ 表示第 $k$ 类的参数
那么样本 $n$ 的概率分布为：
$y_{n} =\prod^K_{k=1} {y_{nk}}^{t_{nk}}$
其中 $t_{nk}$ 表示one-of-K编码中的第 $k$ 个值
使用极大释然估计，那么似然函数为：
$p(T|\beta^1,\beta^2,\cdots,\beta^K)=\prod^N_{n=1}\prod^K_{k=1} {y_{nk}}^{t_{nk}}$
其中 $T$ 是一个 $k$ 维的列向量，对似然函数取对数，得到交叉熵损失的相反数：
$\text{ln}p(T|\beta^1,\beta^2,\cdots,\beta^K)=\sum^N_{n=1}\sum^K_{k=1} t_{nk} \text{ln} {y_{nk}}$
似然函数分别对 $\beta^k$ 求导：
$\frac{\partial \text{ln}p(T|\beta^1,\beta^2,\cdots,\beta^K)}{\partial \beta^k} = \sum^N_{n=1}({y_{nk}-t_{nk}})\phi(x_n)$
似然函数分别对 $\beta^j$ 二次偏导得到Hessian矩阵：
$\frac{\partial^2 \text{ln}p(T|\beta^1,\beta^2,\cdots,\beta^K)}{\partial \beta^j \partial {\beta^k}^T} = \sum^N_{n=1} y_{nj}(I_{jk} - y_{nk})\phi(x_n)\phi(x_n)^T$
因为 $y_{nj}$ 在0到1之间，因此Hessian矩阵是正定的，交叉熵误差函数为二次凸函数，因此一定有最优解。