一、什么是回归算法

回归算法是一种有监督算法

回归算法是一种比较常用的机器学习算法，用来建立“解释”变量(自变量X)和观测值(因变量Y)之间的关系；从机器学习的角度来讲，用于构建一个算法模型(函数)来做属性(X)与标签(Y)之间的映射关系，在算法的学习过程中，试图寻找一个函数使得参数之间的关系拟合性最好

回归算法中算法(函数)的最终结果是一个连续的数据值，输入值(属性值)是一个d维度的属性/数值向量

1.1 初识回归

有一个问题：现在拥有一组房屋面积及其对应房价的数据如下，如果有一个房屋面积为55平，请问最终的租赁价格是多少比较合适?

房屋面积	租赁价格
10	0.8
20	1.8
30	2.2
30	2.5
70	5.5
70	5.2
…	…

我们可以构建一个函数

$\begin{center} h(x)=\theta ^{0}+\theta ^{1}x \end{center}$

其中h(x) 为房价，x为房屋面积，根据大量的数据求出 $\theta ^{0}$ 和 $\theta ^{1}$ 的值，于是能够构建出一条直线。

如果此时将测试集中的数据投入到模型中，如果模型构建的比较好，可以看到测试集中所有(面积，价格)的点会均匀分布在直线的上下两侧，而且离的直线距离不会太远 (说明方差较小) 。如果测试集中的数据大量分布在直线的上方，或离直线的距离普遍较远，那么说明模型质量不高，需要重新训练。

如果在面积的基础上，增加房间数量这一变量呢

房屋面积	房间数量	租赁价格
10	1	0.8
20	1	1.8
30	1	2.2
30	2	2.5
70	3	5.5
70	2	5.2
…	…	…

构造函数

$h \left (x \right )=\theta_{0}+\theta_{1}x_{1}+\theta_{2}x_{2}$

其中h(x) 为房价，根据大量的数据求出 $\theta ^{0}$ 、 $\theta ^{1}$ 、 $\theta ^{2}$ 的值，于是能够构建出一个平面。我们要预测面积、房间个数和房价的映射关系，构建如下模型

从Y轴向下俯视该平面，可以获得该平面在 x1、 x2 两坐标轴上的投影。同样，由(x1、 x2)点衍生到平面上后，对应的Y轴值即是对应的房价值y或记作h(x)

如果有1个特征，我们得到了一条直线模型。如果有2个特征，我们得到了一个平面。如果有2个以上的特征呢？

2个特征形成的平面，结合目标值构成了一个三维的图像，对于更高维度的思维结构人类是无法想象出来的。对于两个以上特征形成的n维模型，我们称之为超平面(Hyperplane)

模型：

$h(x) = \theta _{0} + \theta _{1}x _{1} + \theta _{2}x _{2} + ... + \theta _{n}x _{n}$

$h(x) = \sum_{0}^{n} \theta _{i}x_{i}$

$h(x) = \theta ^{T}X = [\theta_{1},\theta_{2},\theta_{3},...,\theta_{n}] * [x_{1},x_{2},x_{3},...,x_{n}]^{T}$

即θ矩阵的转置，乘以X的矩阵。

注：所有特征默认都是列向量

1.2 导数

导数就是曲线的斜率，是曲线变化快慢的一个反应。

二阶导数是斜率变化的反应，表现曲线的凹凸性

$y=f(x)$

$y'=f'(x) =\frac{dy}{dx} =\lim_{\triangle x}\frac{\triangle y}{\triangle x} =\lim_{\triangle x}\frac{f(x_{0} + \triangle x) - f(x_{0})}{\triangle x}$

1.3 偏导数

导数是针对单一变量的，当函数是多变量的，偏导数 就是关于其中一个变量的导数而保持其他变量恒定不变（固定一个变量求导数）。

1.4 梯度

梯度是一个向量，表示某一函数在该点处的 方向导数 ，沿着该方向取最大值，即函数在该点处沿着该方向变化最快，变化率最大（即该梯度向量的模）；当函数为一维函数的时候，梯度就是导数。

二、求解

2.1 求解方法

1.解析解：最小二乘法（又称最小平方法）是一种数学优化技术，它由两部分组成：

计算所有样本误差的平均（代价函数）
使用最优化方法寻找数据的最佳函数匹配（抽象的）

2.数值解：梯度下降法、牛顿法、拟牛顿法等

2.2 线性回归算法的步骤

Step1：画出散点图确定回归方程

Step2：写出回归方程的基本形式（以线性为例）。最终目的是要计算出θ的值，并选择最优的θ构成算法公式

$\begin{aligned}h_{\theta}(x)&=\theta_{0} +\theta_{1}x_{1}+ \theta_{2}x_{2} +...+\theta_{n}x_{n} \\&=\theta_{0}1 +\theta_{1}x_{1}+...+\theta_{n}x_{n}\\&=\theta_{0}x_{0} +\theta_{1}x_{1}+...+\theta_{n}x_{n}\\&=\sum_{i=0}^{n}\theta_{i}x_{i}=\theta^Tx\end{aligned}$

Step3:写出目标函数，object：样本预测值与实际值的差值最小化

$minJ(\theta)=\frac{1}{2}\sum_{i=1}^{m}(\epsilon^{(i)})^2=\frac{1}{2}\sum_{i=1}^{m}(h_{{\theta}}(x^{(i)})-y^{(i)})^2$

Step4:计算待估计参数的值，求出回归方程

三、方法一：极大似然估计解释最小二乘法

3.1 似然函数

前提假设：对于 $y^{i}=\theta ^{T}x^{i}+\varepsilon^{i}$ ，误差 $\varepsilon^{i}$ 是独立同分布的，服从均值为0，方差为某定值 $\sigma ^{2}$ 的高斯分布

解释：实际问题中，很多随机现象可以看做众多因素的独立影响的综合反应，如房价往往由距离地铁位置，周围是否由学校等因素影响（误差 $\varepsilon^{i}$ 同样如此），往往服从正态分布（原因：中心极限定理）

所以，对于第i个样本，误差满足如下公式：

$y^{(i)}=\theta^Tx^{(i)}+\epsilon^{(i)}$

$P(\epsilon^{(i)})=\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(\epsilon^{(i)})^2}{2\sigma^2})$

$P(y^{(i)}|x;\theta)=\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(y^{(i)}-\theta^{T}x^{(i)})^2}{2\sigma^2})$

根据中心极限定理得到似然函数：

$\begin{aligned}L(\theta)&=\prod_{i=1}^{m}P(y^{(i)}|x;\theta)\\&=\prod_{i=1}^{m}\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(y^{(i)}-\theta^{T}x^{(i)})^2}{2\sigma^2})\end{aligned}$

取对数，得到对数似然函数：

$\begin{aligned}l(\theta)=\ln{L(\theta)}&=\sum_{i=1}^{m}\log\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(y^{(i)}-\theta^{T}x^{(i)})^2}{2\sigma^2})\\&=m\log\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{\sigma^2}*\frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-\theta^{T}x^{(i)})^2\end{aligned}$

化简，得到目标函数：

$J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-\theta^{T}x^{(i)})^2$

3.2 最小二乘法

对于 $y=\theta ^{T}x$ ，其中

$X=\begin{Bmatrix}x^{(1)T} \\x^{(2)T} \\\vdots\\x^{(m)T} \\\end{Bmatrix}=\begin{Bmatrix}x_{11} & x_{12} & \cdots & x_{1n} \\x_{21} &x_{22} &\cdots &x_{2n} \\\vdots & \vdots & \ddots & \vdots \\x_{m1} &x_{m2} & \cdots & x_{mn} \\\end{Bmatrix}$

$\begin{aligned}X\theta&=\begin{Bmatrix}x_{11} & x_{12} &\cdots &x_{1n} \\x_{21} & x_{22} &\cdots &x_{2n} \\\vdots & \vdots & \ddots &\vdots \\x_{m1} &x_{m2} &\cdots &x_{mn} \\\end{Bmatrix}\begin{Bmatrix}\theta_1 \\\theta_2 \\\vdots\\\theta_n \\\end{Bmatrix}\\&=\begin{Bmatrix}\hat{y_1} \\\hat{y_2} \\\vdots\\\hat{y_m} \\\end{Bmatrix}\end{aligned}$

目标函数：

$\begin{aligned}J(\theta)&=\frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-\theta^{T}x^{(i)})^2\\&=\frac{1}{2}(X\theta-y)^{T}(X\theta-y)\end{aligned}$

对目标函数进行求导：

$\begin{aligned}\bigtriangledown_{\theta}J(\theta)&=\bigtriangledown_{\theta}(\frac{1}{2}(X\theta-y)^{T}(X\theta-y))\\&=\bigtriangledown_{\theta}(\frac{1}{2}(\theta^{T}X^{T}X\theta-\theta^TX^Ty-y^TX\theta+y^Ty)^2)\\&=\frac{1}{2}((X^TX+(X^TX)^T)\theta-X^Ty-(y^TX)^T)\\&=X^TX\theta-X^Ty\end{aligned}\\let \bigtriangledown_{\theta}J(\theta)=0\\ then \theta=(X^TX)^{-1}X^Ty$

3.3 最小二乘法的参数最优解

参数解析式： $\theta=(X^TX+\lambda{I})^{-1}X^Ty$

最小二乘法的使用要求矩阵 $X^{T}X$ 是可逆的；为了防止不可逆或者过拟合的问题存在，可以增加额外数据影响，导致最终的矩阵是可逆的

证明方法：加入惩罚项
1） $X^TX$ 半正定，对于任意的非零向量μ: $\mu^TX^TX\mu=(X\mu)^T\mu\\letV=X\mu,thenV^TV\geqslant0μ$
2)对于任意的实数λ>0, $X^TX+\lambda{I}$ 正定λ
则 $mu^T(X^TX+\lambda{I})\mu=\mu^TX^TX\mu+\lambda\mu^T\mu< 0$ 恒成立。
3)从而 $X^TX+\lambda{I}$ 可逆，保证回归公式一定有意义

最小二乘法直接求解的难点：矩阵逆的求解是一个难处

3.4 损失函数，代价函数，目标函数

参考：机器学习之线性回归损失函数、代价函数、目标函数

3.5 线性回归过拟合

一般来说，模型的训练误差很小，而预测误差很大的情况下，模型存在过拟合的情况

目标函数

$J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-\theta^{T}x^{(i)})^2$

为了防止数据过拟合，也就是的θ值在样本空间中不能过大/过小，可以在目标函数之上增加一个平方和损失：

$(\theta)=\frac{1}{2}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^2+\lambda{\sum_{i=1}^{n}\theta_{j}^{2}}$

正则项(norm)： $\lambda{\sum_{i=1}^{n}\theta_{j}^{2}}$ 这里这个正则项叫做L2-norm

3.5.1 Ridge回归(岭回归)

使用L2正则的线性回归模型就称为Ridge回归(岭回归)

$J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^2+\lambda{\sum_{i=1}^{n}\theta_{j}^2},\lambda> 0$

3.5.2 LASSO回归

使用L1正则的线性回归模型就称为LASSO回归(Least Absolute Shrinkage and Selection Operator)

$J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^2+\lambda{\sum_{i=1}^{n}\rvert\theta_{j}}\rvert,\lambda>0$

3.5.3 Elasitc Net算法

同时使用L1正则和L2正则的线性回归模型就称为Elasitc Net算法(弹性网络算法)

$J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^2+\lambda{(p\sum_{j=1}^{n}|\theta_{j}|+(1-p)\sum_{j=1}^{n}\theta_{j}^{2})},\lambda>0,p\in[0,1]$

3.5.4 Ridge(L2-norm)和LASSO(L1-norm)比较

L2-norm中，由于对于各个维度的参数缩放是在一个圆内缩放的，不可能导致有维度参数变为0的情况，那么也就不会产生稀疏解；实际应用中，数据的维度中是存在噪音和冗余的，稀疏的解可以找到有用的维度并且减少冗余，提高回归预测的准确性和鲁棒性（减少了overfitting）(L1-norm可以达到最终解的稀疏性的要求)

Ridge模型具有较高的准确性、鲁棒性以及稳定性；LASSO模型具有较高的求解速度。

如果既要考虑稳定性也考虑求解的速度，就使用Elasitc Net

å¨è¿éæå¥å¾çæè¿°

由上图可知，对于二元线性回归来说，L1正则的限制性区域为蓝色正方形固定区域，L2正则限制性区域为蓝色圆形固定区域，当目标函数前半部分与后半部分（限制性条件）相交时，集等势线与固定区域相交，交点即为最优解，L1正则交点存在参数为0的情况，而L2则不存在，由此可推出L1正则容易产生稀疏解（元素为零）

3.6模型效果评判标

$MSE = \frac{1}{m}\sum_{i=1}^{m}(y_{i}-\hat{y_{i}})^2\\RMSE = \sqrt{MSE}=\sqrt{\frac{1}{m}\sum_{i=1}^{m}(y_{i}-\hat{y_{i}})^2}\\R^2=1-\frac{RSS}{TSS}=1-\frac{\sum_{i=1}^{m}(y_{i}-\hat{y_{i}})^2}{\sum_{i=1}^{m}(y_{i}-\overline{y_{i}})^2}, \overline{y_{i}}=\frac{1}{m}\sum_{i=1}^{m}y_{i}$

MSE：误差平方和，越趋近于0表示模型越拟合训练数据。
RMSE：MSE的平方根，作用同MSE
$R^{2}$ ：取值范围(负无穷,1]，值越大表示模型越拟合训练数据；最优解是1；当模型预测为随机值的时候，有可能为负；若预测值恒为样本期望， $R^{2}$ 为0
TSS：总平方和TSS(Total Sum of Squares)，表示样本之间的差异情况，是伪方差的m倍
RSS：残差平方和RSS（Residual Sum of Squares），表示预测值和样本值之间的差异情况，是MSE的m倍