【机器学习】线性模型之逻辑回归

文章目录

逻辑回归
- Sigmoid 函数
- 概率输出结果
- 预测值与真实标签之间的并不匹配
- 交叉熵
- 逻辑回归模型
梯度下降
逻辑回归模型求解
编程求解
sklearn 实现，并查看拟合指标

逻辑回归

逻辑回归是一种广义线性模型，形式上引入了 $S i g m o i d$ 函数映射，是非线性模型。但本质上，逻辑回归仍然是一个线性回归模型，因为除去 $S i g m o i d$ 映射函数关系，其他的步骤和算法都是线性回归的。

下面，考虑一个二分类问题 $f : R^p → \{0, 1\}$

Sigmoid 函数

$\sigma(z) = \frac{1}{1+e^{-z}}$

引入 $S i g m o i d$ 函数，将线性函数预测值转换成概率值
$\begin{cases} p(y_i = 1|x_i) = \large \frac{1}{1+e^{−(w^Tx_i+b)}} \\ p(y_i = 0|x_i) = \large \frac{e^{−(w^Tx_i+b)}}{1+e^{−(w^Tx_i+b)}} \end{cases}$

概率输出结果

考虑模型参数为 $w=(1,1)^T,b=-1$ 。
4 个来自不同类别的样本
${(x_1,y_1=0),(x_2,y_1=1),(x_3,y_3=1),(x_4,y_4=0)\}$
计算不同样本的输出结果：
$\begin{aligned} & x_{1} =(0.5,1),~p_1=\frac{1}{1+\exp(-(0.5*1+1*1-1))}=0.62 \\ & x_{2} =(1,2),~p_2=\frac{1}{1+\exp(-(1*1+2*1-1))}=0.88 \\ & x_{3} =(-0.2,1),~p_3=\frac{1}{1+\exp(-(-0.2*1+1*1-1))}=0.45 \\ & x_{4} =(1,-3),~p_4=\frac{1}{1+\exp(-(1*1+3*1-1))}=0.05 \end{aligned}$

预测值与真实标签之间的并不匹配

$\begin{array}{c|c|c|c|c}\hline\text{特征}&\text{输出概率(p)}&\text{预测标签 }(\hat{y})&\text{真实标签 }(y)\\\hline x_1&0.62&1&0\\\hline x_2&0.88&1&1\\\hline x_3&0.45&0&1\\\hline x_4&0.05&0&0\\\hline\end{array}$

交叉熵

$ℓ (y, p) = - (y l o g (p) + (1 - y) l o g (1 - p))$

由 $x_1,p_1=0.62,y_1=0$ ，代入交叉熵函数，得到： $\ell(y_1,p_1)=-(y_1\log p_1+(1-y_1)\log(1-p_1))=0.968$
由 $x_2,p_2=0.88,y_2=1$ ，代入交叉熵函数，得到： $\ell(y_2,p_2)=-(y_2\log p_2+(1-y_2)\log(1-p_2))=0.128$
由 $x_3, p_3= 0.45, y_3= 1$ ，代入交叉熵函数，得到： $\ell(y_3,p_3)=-(y_3\log p_3+(1-y_3)\log(1-p_3))=0.799$
由 $x_4,p_4=0.05,y_4=0$ ，代入交叉熵函数，得到： $\ell(y_4,p_4)=-(y_4\log p_4+(1-y_4)\log(1-p_4))=0.051$

逻辑回归模型

给出包含特征和标签的实际问题中：
$\{(x_i , y_i)\}^n_{i=1}$
通过最小化所有样本的平均交叉熵损失估计模型的参数 $w$ ， $b$ ；

逻辑回归模型：
$min L (w, b)$ 其中：
$\frac{1}{n} ∑^n_{i=1} ℓ(y_i , p_i)$
高斯-赛德尔求非线性方程组

梯度下降

考虑光滑函数的凸优化问题 $\min f(w)$ ,梯度下降法的迭代规则 $w_{t+1}=w_t-\alpha\nabla f(w_t)$ 有：
$\begin{aligned} f(w_{t+1})& \leq f(w_{t})+\langle\nabla f(w_{t}),w_{t+1}-w_{t}\rangle+\frac{L}{2}\|w_{t+1}-w_{t}|| \\ &\leq f(w_{t})-\alpha\|\nabla f(w_{t})\|^{2}+\frac{L}{2}\alpha\|\nabla f(w_{t})\|^{2} \\ &=f(w_{t})-\alpha(1-\frac{1}{2}L\alpha)\|\nabla f(w_{t})\|^{2} \end{aligned}$
选择 $0<\alpha<\frac{2}{7}$ 使得 $\alpha(1-\frac{1}{2}L\alpha)>0$ ,那么每次迭代之后，目标函数值都会下降。
根据单调有界定理，目标函数值最终将会收敛。

逻辑回归模型求解

考虑逻辑回归模型：
$\min_{w,b}L(w,b):=-\dfrac{1}{n}\sum_{i=1}^{n}(y_i\log(p_i)+(1-y_i)\log(1-p_i))$
计算损失函数的梯度：
$\begin{aligned} \frac{\partial L}{\partial w} & = -\frac1n\sum_{i=1}^n\frac{\partial}{\partial w} (y_i\log(p_i)+(1-y_i)\log(1-p_i)) \\\\ & = -\frac1n\sum_{i=1}^n(\frac{y_i}{p_i}-\frac{1-y_i}{1-p_i})\frac{\partial p_i}{\partial w} \end{aligned}$
需要先计算
$\begin{aligned} \frac{\partial p}{\partial w}& =\frac{\partial}{\partial w}(\frac{1}{1+\exp(-(\langle w,x_i\rangle+b))}) \\ &=\frac{\exp(-(\langle w,x_i\rangle+b))x_i}{(1+\exp(-(\langle w,x_i\rangle+b)))^2} \\ &=p_i(1-p_i)x_i \end{aligned}$
将其代入回上式，计算得到：
$\frac{\partial L}{\partial w}=-\frac{1}{n}\sum_{i=1}^{n}(\frac{y_i}{p_i}-\frac{1-y_i}{1-p_i})\frac{\partial p_i}{\partial w}=\frac{1}{n}\sum_{i=1}^{n}(p_i-y_i)x_i$
同理，可得：
$\frac{\partial L}{\partial b}=-\frac1n\sum_{i=1}^n(\frac{y_i}{p_i}-\frac{1-y_i}{1-p_i})\frac{\partial p_i}{\partial b}=\frac1n\sum_{i=1}^n(p_i-y_i)$
基于梯度下降的逻辑回归迭代规则，给定初始值 $w_1,b_1\colon$
$\begin{cases} w_{t+1}=w_t-\frac{\alpha}{n}\sum_{i=1}^n(p_i^{(t)}-y_i)x_i \\\\ b_{t+1}=b_t-\frac{\alpha}{n}\sum_{i=1}^n(p_i^{(t)}-y_i) \end{cases}$
其中，
$p_i^{(t)}=\frac1{1+\exp(-(\langle w_t,x_i\rangle+b_t))}$

编程求解

import numpy as npdef sigma_fun(z):z = z.astype('float')z_ravel = z.ravel()  # 将 numpy 数组展平length = len(z_ravel)ls = []for index in range(length):if z_ravel[index] >= 0:ls.append(1.0 / (1 + np.exp(-z_ravel[index])))else:ls.append(np.exp(z_ravel[index]) / (np.exp(z_ravel[index]) + 1))return np.array(ls).reshape(z.shape)def cross_entropy(y, p):return -(y * np.log(p + 0.0000001) + (1 - y) * np.log(1 - p + 0.0000001))def gradient_descent(X, y, W, b, alpha, t):for i in range(t):z = np.dot(X, W) + bp = sigma_fun(z)loss = cross_entropy(y, p)print('第 {} 次迭代的权重参数为：{}'.format(i, W.round(6).tolist()))print('第 {} 次迭代的偏置参数为：{}'.format(i, b))print('第 {} 次迭代的平均损失为：{}'.format(i, np.mean(loss).round(6)))nablaLW = np.sum((p - y) * X, axis=0).reshape(X.shape[1], 1)W = W - (alpha / X.shape[0]) * nablaLWnablaLb = np.sum(p - y)b = b - (alpha / X.shape[0]) * nablaLbprint('第 {} 次迭代的梯度参数 W 为：{}'.format(i, nablaLW.round(6).tolist()))print('第 {} 次迭代的梯度参数 b 为：{}\n'.format(i, nablaLb))X = np.array([[0.5, 1], [1, 2], [-0.2, 1], [1, -3]])
y = np.array([[0], [1], [1], [0]])b = -1
W = np.ones((X.shape[1], 1))
alpha = 0.5print('步长 α 为：{}\n'.format(alpha))
gradient_descent(X, y, W, b, alpha, 6)

# output
步长 α 为：0.5第 0 次迭代的权重参数为：[[1.0], [1.0]]
第 0 次迭代的偏置参数为：-1
第 0 次迭代的平均损失为：0.486933
第 0 次迭代的梯度参数 W 为：[[0.349419], [-0.308058]]
第 0 次迭代的梯度参数 b 为：0.0008482850448257445第 1 次迭代的权重参数为：[[0.956323], [1.038507]]
第 1 次迭代的偏置参数为：-1.0001060356306033
第 1 次迭代的平均损失为：0.480379
第 1 次迭代的梯度参数 W 为：[[0.345769], [-0.265492]]
第 1 次迭代的梯度参数 b 为：0.013170440015569933第 2 次迭代的权重参数为：[[0.913102], [1.071694]]
第 2 次迭代的偏置参数为：-1.0017523406325495
第 2 次迭代的平均损失为：0.474592
第 2 次迭代的梯度参数 W 为：[[0.341829], [-0.232955]]
第 2 次迭代的梯度参数 b 为：0.02239339071628172第 3 次迭代的权重参数为：[[0.870373], [1.100813]]
第 3 次迭代的偏置参数为：-1.0045515144720847
第 3 次迭代的平均损失为：0.469342
第 3 次迭代的梯度参数 W 为：[[0.337668], [-0.207736]]
第 3 次迭代的梯度参数 b 为：0.02924657055932656第 4 次迭代的权重参数为：[[0.828164], [1.12678]]
第 4 次迭代的偏置参数为：-1.0082073357920005
第 4 次迭代的平均损失为：0.464489
第 4 次迭代的梯度参数 W 为：[[0.333348], [-0.187982]]
第 4 次迭代的梯度参数 b 为：0.03428385214987886第 5 次迭代的权重参数为：[[0.786496], [1.150278]]
第 5 次迭代的偏置参数为：-1.0124928173107353
第 5 次迭代的平均损失为：0.459943
第 5 次迭代的梯度参数 W 为：[[0.328922], [-0.172379]]
第 5 次迭代的梯度参数 b 为：0.03792999829875388

sklearn 实现，并查看拟合指标

from sklearn.linear_model import LogisticRegression as LR
import pandas as pd
import numpy as npX = np.array([[0.5, 1], [1, 2], [-0.2, 1], [1, -3]])
y = np.array([0, 1, 1, 0])lr = LR()
lr.fit(X, y)predicted = lr.predict(X)
print('预测值：', predicted)Accuracy = ((predicted == y).sum() / len(y))
print('准确率：', Accuracy)TP = sum((y == 1) & (predicted == 1))
FP = sum((y == 0) & (predicted == 1))
Precision = TP / (TP + FP)
print('精确率：', round(Precision, 3))Recall = ((predicted == y).sum() / y.sum()).round(3)
print('召回率：', Recall)F1 = 2 * Precision * Recall / (Precision + Recall)
print('F1 score值：', round(F1, 3))

# output
预测值： [1 1 1 0]
得分： 0.75
准确率： 0.75
精确率： 0.667
召回率： 1.5
F1 score值： 0.923