机器学习面试——逻辑回归和线性回归

1、什么是广义线性模型（generalize linear model）？

普通线性回归模型是假设X为自变量，Y为因变量，当X是一维的，y是一维的，共进行n次观测，则

$Y_{i}=wx_{i}+b$

其中，w是待估计的参数，称为回归系数，b是随机误差（统计学相关书籍会写 $e_{i}$ ）,服从正态分布，称该模型为一元线性回归。当X为多维时，y是一维，称模型是多元线性回归，公式为

$Y_{i}=w^{T}x_{i}+b$

因为b是服从正态分布的，重要假设：因变量也服从正态分布。

广义线性模型是做了两点补充，一是因变量不一定是服从正态分布，而是推广到一个指数分布族（包含正态分布、二项分布、泊松分布等）；二是引入联接函数g，g满足单调，可导，自变量和因变量通过联接函数进行关联。常见联接函数有对数函数、幂函数，平方根等。

Logits 回归就是广义线性模型，随机误差项服从二项分布。

2、介绍LR（线性回归），原理推导

线性回归的推导通常有两种方式：正规方程求解，梯度下降法

线性模型： $y=w^{T}x+b$

均方误差是求解线性回归的评估指标，则损失函数为均方损失，公式为 $L = ((w^{T}x+b)-y_{i})^{2}$

求解偏导数： $L = ((w^{T}x+b)-y)^{2} =(w^{T}x-y)^{T}(w^{T}x-y) =y^{T}y+x^{T}ww^{T}x-x^{T}wy-y^{T}w^{T}x$

$\frac{\partial L}{w}=y^{T}y+x^{T}ww^{T}x-x^{T}wy-y^{T}w^{T}x =0+2x^{T}xw-2x^{T}y=0$

最终化简为 $w = (x^{T}x)^{-1}x^{T}y$

局部加权线性回归：为解决欠拟合问题，通过核方法进行局部加权。

当特征比样本数量多时，输入数据X矩阵的逆可能不存在，因此引入正则化。

Lasso回归：引入L1正则化项，L1比L2更稀疏，目标函数为

$L = ((w^{T}x+b)-y_{i})^{2}+\lambda \left \| w \right \|_{1}$

Ridge回归：引入L2正则化项

$L = ((w^{T}x+b)-y_{i})^{2}+\lambda \left \| w \right \|_{2}^{2}$

3、介绍LR（逻辑回归），原理推导

概念：

几率：是指一个事件发生的概率和该事件不发生的概率比值。

线性模型是可以进行回归学习的，常见的模型是线性回归，但是如果进行分类任务呢？找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来。考虑到二分类，其输出标记是[0,1],可以将线性模型的预测值转换为0或1，首先考虑单位阶跃函数

但是单位阶跃函数不连续，可以考虑换一个近似单位阶跃函数的替代函数，并单调可微，则考虑对数几率函数（sigmoid函数），将预测值转换为接近0,1的值

经过函数变形，可得：

称为几率，反映了x作为正例的相对可能性，为对数几率（logit），在用线性回归模型的预测结果去逼近真实标记的对数几率，因此，其对应的模型称为"对数几率回归" (logistic regression ，亦称逻辑回归) 。

因为y只取0,1，则条件概率分布如下，假设=h(z)，则=1-h(z)，可以通过极大似然估计来求解w,b。

似然函数为： $\prod \left [h(z)) \right ]^{y_{i}}\left [1-h(z)) \right ]^{1-y_{i}}$ ,其中， $h(z)=\frac{1}{1+e^{-z}}$ , $z=w^{T}x+b$ ，解释z是可以转换为 $z=\begin{bmatrix} x_{11},.... , x_{1m},1 \\ x_{21},.... , x_{2m},1 \\ x_{n1},.... , x_{nm},1 \end{bmatrix}\cdot \begin{bmatrix} w_{1}\\ ...\\ w_{m}\\ b \end{bmatrix}=\begin{bmatrix} w_{1}x_{11},.... ,w_{m} x_{1m},b \\ w_{1}x_{21},.... , w_{m}x_{2m},b \\ w_{1}x_{n1},.... , w_{m}x_{nm},b \end{bmatrix}=w^{T}x$ ,将b值加入到矩阵中，一下计算 $z=w^{T}x$

对数化，求得对数似然函数，问题变成了以对数似然函数为目标函数的最优化问题： $L(w,b)=y_{i}logh(z))+(1-y_{i})log(1-h(z))$ 。

对数似然函数进行求偏导（链式法则）， $\frac{\partial L}{w}=\frac{\partial L}{h(z)}\cdot \frac{\partial h(z)}{z}\cdot \frac{\partial z}{w}$

$\frac{\partial L}{h(z)}=y_{i}\frac{1}{h(z)}+(1-y_{i})\frac{1}{1-h(z)}$

$\frac{\partial h(z)}{z}=-\frac{e^{-z}}{(1+e^{-z})^{2}}=h(z)(1-h(z))$

$\frac{\partial z}{w}=x$

组合为：

$\frac{\partial L}{w}=\frac{\partial L}{h(z)}\cdot \frac{\partial h(z)}{z}\cdot \frac{\partial z}{w}=y_{i}\frac{1}{h(z)}-(1-y_{i})\frac{1}{1-h(z)}*(h(z)(1-h(z))*(x_{i})=(y_{i}(1-h(z))-(1-y_{i})h(z))x_{i}=(y_{i}-h(z))x_{i}$