机器学习（2）回归

0.前提

上一期，我们简单的介绍了一些有关机器学习的内容。学习机器学习的最终目的是为了服务我未来的毕设选择之一——智能小车，所以其实大家完全可以根据自己的需求来学习这门课，我做完另一辆小车后打算花点时间去进行一次徒步行，回来就开始专心积累底层知识了（回归轻松时刻，去考试，本来预期是一个学期更新大概25篇文章的，现在看其实已经完全超过预期了）。

1.线性回归

1.线性回归的概念

线性回归：一种通过属性的线性组合来进行预测的线性模型，其目的是找到一条直线或者一个平面或者更高维的超平面，使得预测值与真实值之间的误差最小化。

如图为单变量的线性回归，蓝点为真实数据，红点为预测数据，红点与红线重合度越高，数据拟合的效果越好。

2.符号定义

· $m$ 代表训练集中样本的数量

· $n$ 代表特征的数量

· $x$ 代表特征/输入变量

· $y$ 代表目标变量/输出变量

· $(x,y)$ 代表训练集中的样本

· $(x^{(i)},y^{(i)})$ 代表第 $i$ 个观察样本

· $h$ 代表学习算法的解决方案或函数也称为假设

· $\widehat{y}=h(x)$ 代表预测值

· $x^{(i)}$ 是特征矩阵中的第 $i$ 行，是向量

· $x_{j}^{(i)}$ 是代表特征矩阵中第 $i$ 行的第 $j$ 个特征

3.算法流程

$h(x)=w_{0}+w_{1}x_{1}+w_{2}x_{2}+...+w_{n}x_{n}$

·损失函数：度量样本预测的错误程度，损失函数值越小，模型就越好。常用的损失函数包括：0-1损失函数、平方损失函数、绝对损失函数、对数损失函数等;损失函数采用平方和损失： $l(x^{(i)})=\frac{1}{2}(h(x^{(i)})-y^{(i)})^{2}$ ，损失函数的1/2是为了便于计算，使对平方项求导后的常数系数为1。

·代价函数：也称成本函数，度量全部样本集的平均误差。常用的代价函数包括均方误差、均方根误差、平均绝对误差等；残差平方和： $J(w)=\frac{1}{2}\sum_{i=1}^{m}(h(x^{(i)})-y^{(i)})^{2}$ 。

·目标函数：代价函数和正则化函数，最终要优化的函数。

4.线性回归求解

求解： $min\frac{1}{2}\sum_{i=1}^{m}(h(x^{(i)})-y^{(i)})^{2}$ 的一组 $w$ ，常见的求残差平方和最小的方法为最小二乘法和梯度下降法。

2.最小二乘法(LSM)

·其实就是求 $\frac{\partial J(w)}{\partial w}$ 最小

·将向量表达形式转为矩阵表达形式， $J(w)=\frac{1}{2}(Xw-Y)^{2}$ ,X为 $m$ 行 $n+1$ 列的矩阵（ $m$ 为样本个数， $n$ 为特征个数）， $w$ 为 $n+1$ 行1列的矩阵（包含了 $w_{0}$ ），Y为 $m$ 行1列的矩阵：

$J(w)=\frac{1}{2}(Xw-Y)^{2}=J(w)=\frac{1}{2}(Xw-Y)^{T}(Xw-Y)$

·对 $J(w)$ 求偏导：

$\frac{\partial J(w)}{\partial w}=\frac{1}{2}\frac{\partial (Xw-Y)^{T}(Xw-Y)}{\partial w}=X^{T}Xw-X^{T}Y$

·结果：

$w=(X^{T}X)^{^{-1}}X^{T}Y$

3.梯度下降

梯度下降有3种形式：批量梯度下降、随机梯度下降、小批量梯度下降。

1.批量梯度下降（BGD）

批量梯度下降：梯度下降的每一步中，都用到了所有的训练样本。

参数更新: $w_{j}:=w_{j}-\alpha \frac{1}{m}\sum_{i=1}^{m}((h(x^{(i)})-y^{(i)})·x_{j}^{(i)})$ （同步更新 $w_{j}$ ， $(j=0,1,...,n)$ ）, $\alpha$ 代表学习率， $(h(x^{(i)})-y^{(i)})·x_{j}^{(i)}$ 代表梯度。

2.随机梯度下降（SGD）

随机梯度下降：梯度下降的每一步中，用到一个样本，在每一次计算后更新参数，而不需要将所有的训练集求和。

参数更新： $w_{j}:=w_{j}-\alpha((h(x^{(i)})-y^{(i)})·x_{j}^{(i)})$ （同步更新 $w_{j}$ ， $(j=0,1,...,n)$ ）

3.小批量梯度下降（MBGD）

梯度下降的每一步，用到一定批量的训练样本，每计算常数𝑏次训练实例，更新一次参数 $w$ 。

参数更新： $w_{j}:=w_{j}-\alpha \frac{1}{b}\sum_{k=i}^{i+b-1}((h(x^{(k)})-y^{(k)})·x_{j}^{(k)})$ （同步更新 $w_{j}$ ， $(j=0,1,...,n)$ ）,当b=1时是随机梯度下降，b=m时是批量梯度下降，b=2的指数倍数（常见32、64、128等）时为小批量梯度下降

4.梯度下降与最下二乘法的比较

1.梯度下降

需要选择学习率 $\alpha$ ，要多次迭代，当特征数量 $n$ 较大时能较好适用，适用各种类型的模型。

2.最小二乘法

不需要选择学习率 $\alpha$ ，一次计算得出，需要计算 $(X^{T}X)^{-1}$ ,如果特征数量 $n$ 较大则运算代价大，因为矩阵逆得计算时间复杂度为0( $n^{3}$ ),一般当 $n$ 小于10000时可以接受，只适用于线性模型，不适合逻辑回归等其他模型。

5.数据归一化/标准化

1.作用

标准化/归一化可以提升模型精度和加速模型收敛。

2.归一化（最大-最小规范化）

$x^{*}=\frac{x-x_{min}}{x_{max}-x_{min}}$ ,将数据映射到[0,1]区间，数据归一化的目的是使得各特征对目标变量得影响一致，会将特征数据进行伸缩变化，所以数据归一化是会改变特征数据分布的。

3.Z-Score标准化

$x^{*}=\frac{x-\mu }{\sigma }$ ，其中 $\sigma ^{2}=\frac{1}{m}\sum_{i=1}^{m}(x^{(i)}-\mu )^{2}$ , $\mu =\frac{1}{m}\sum_{i=1}^{m}x^{(i)}$ ,处理后的数据均值为0，方差为1，数据标准化为了不同特征间具备可比性，经过标准化变换后的特征数据分布没有改变，当数据特征取值范围或单位差异较大时，最好做标准化处理。

4.是否需要做数据归一化/标准化

1.需要

线性模型，如基于距离度量的模型包括KNN(K近邻)、K-means聚类、感知机和SVM。另外，线性回归类的几个模型一般情况下也是需要做数据归一化/标准化处理的。

2.不需要

决策树、基于决策树的Boosting和Bagging等集成学习模型对于特征取值大小并不敏感，如随机森林、XGBoost、LightGBM等树模型，以及朴素贝叶斯，以上这些模型一般不需要做数据归一化/标准化处理。

6.正则化

1.拟合

注释：拟合就好比成绩与刷题量之间的关系：欠拟合就是你刷题量特别少，考试得到的分数比你想象中的要低，这就说明欠拟合了；过拟合就是你知道刷题能提高成绩，然后一天16个小时都在刷题，是的你成绩变高了，但是你只是读了万卷书没能行万里路，这就是过拟合了；正合适就是，你刷了一定量的题，成绩不错，同时你也行了万里路，这就是正合适。