机器学习之回归总结

目录
1、了解线性回归
2、了解似然函数
3、了解交叉验证的原理
4、梯度下降算法
- 4.1、批量梯度下降算法（Batch Gradient Descent，简称BGD）：
- 4.2、随机梯度下降算法（SGD）：
- 4.3、折中：
5、了解一些参数指标
6、了解Logistic回归
7、了解最小二乘法
8、了解AUC指标

1、了解线性回归

当只有一个变量的时候，可以表示为下面的式子。
这里写图片描述
当为多个特征时，线性回归可以表示为下面的式子，掌握下面这个式子：
假定样本是独立则能得到对应的下式；这里X0是1，则能得到H(x)（可以看成是矩阵的形式）

上面的H（x）再加上一个误差就能得到符合实际的表达式即下图中的y。
了解这个y的表达式（线性回归在实际条件下的表达式）
正态分布：正常状态分布（可以这样理解）
注意后面有一个误差；误差满足独立同分布的条件；且假定误差的均值是0，方差为σ2（服从正态分布嘛）。
这里写图片描述

2、了解似然函数

统计学中，似然函数是一种关于统计模型参数的函数。给定输出x时，关于参数θ的似然函数L(θ|x)（在数值上）等于给定参数θ后变量X的概率：L(θ|x)=P(X=x|θ)。所以对应的也就是求似然函数的最大值。
知道求似然函数的最大值的过程：
这里写图片描述
求对数函数的最大值转变为求J函数的最小值（Hθ函数是线性回归的表达式）

再转化为求驻点：似然函数最大值的求解过程->求J函数的驻点时利用梯度来逼近的（其间将关系表达式转化为矩阵表达式）。
注意目标函数：数学含义就是求各个点到面的距离的最小累加值。
这里写图片描述
最终转化为求参数的解析式，而初始的意愿就是要求θ的值（θ就是多特征情况下对应的特征方程的参数，知道这个参数后就能得到对应的x和y的映射关系！θ就如y=ax+b中的a和b一样）。
对应的θ并不是一下子就算出来的，而是通过梯度下降算法，不断的迭代得到的。
增加λ的意义是为了防止过拟合（相当于噪音）
这里写图片描述

知道这个惩罚因子以及它的原理
L1称为Lasso：即惩罚因子项为|θ|。L1正则可以产生稀疏模型进而用于特征选择。
L2称为Ridge（岭回归）：即惩罚因子为θ2。L2不具有稀疏性。
惩罚因子即代表目标函数的第二项，这里当θ比较大的时候，就造成整个J函数的值比较大（我们求的是J函数的最小值），所以这里就可以认为当θ比较大的时候，直接被抑制住（即惩罚，理解为θ是有范围即下图所示的圆形和正方形）。
这里写图片描述

这里写图片描述

3、了解交叉验证的原理

k-折交叉验证(k-fold crossValidation)：
在机器学习中，将数据集A分为训练集（training set）B和测试集（test set）C，在样本量不充足的情况下，为了充分利用数据集对算法效果进行测试，将数据集A随机分为k个包，每次将其中一个包作为测试集，剩下k-1个包作为训练集进行训练。（五折就相当于将数据分成5份，随机选1份用于测试其他4份用于训练生成一个分类率，循环进行5次得到5个分类率，求其平均值即可）
步骤：

将全部训练集 S分成 k个不相交的子集，假设 S中的训练样例个数为 m，那么每一个子集有 m/k 个训练样例，，相应的子集称作{s1,s2,…,sk}。
每次从分好的子集中里面，拿出一个作为测试集，其它k-1个作为训练集
根据训练训练出模型或者假设函数。
把这个模型放到测试集上，得到分类率。
计算k次求得的分类率的平均值，作为该模型或者假设函数的真实分类率。

这个方法充分利用了所有样本。但计算比较繁琐，需要训练k次，测试k次。
五折、十折代表的是将数据分成五份、十份，其中多少份用于训练数据1份用于验证数据。
这里写图片描述

4、梯度下降算法

掌握梯度下降算法，还要知道梯度下降求得是局部最优解。
这里写图片描述
目标函数求导

上式少一个α值。

梯度下降的三种算法：
对于线性回归这个模型来说采用梯度下降算法得到的局部最优解一定是全局最优解。

4.1、批量梯度下降算法（Batch Gradient Descent，简称BGD）：

在更新每一参数时都使用所有的样本来进行更新，也就是方程（1）中的m表示样本的所有个数，之后通过初始的θ（需要给定的值）和学习率来不断的迭代得到最终的θ值。
优点：全局最优解；易于并行实现；
缺点：当样本数目很多时，训练过程会很慢。
这里写图片描述

4.2、随机梯度下降算法（SGD）：

拿到一个数据就执行梯度下降（拿到一个数据就相当于得到一个关于θ的J函数，进而就能求对应的导数得到对应的θ值），这样造成的结果是可以躲避局部极值，如下图所示（跳出局部最优的原因是因为噪音影响PS：所以可以说噪音也未必是坏事）。
优点：训练速度快；
缺点：准确度下降，并不是全局最优；不易于并行实现。
这里写图片描述

4.3、折中：

它的具体思路是在更新每一参数时都使用一部分样本来进行更新，也就是方程中的m的值大于1小于所有样本的数量，然后再执行梯度下降算法。
这里写图片描述

5、了解一些参数指标

了解下面的TSS、RSS（SSE）、R平方、ESS(SSR)的概念。
这里写图片描述

6、了解Logistic回归

分类问题的首选算法
二分类：Logistic回归
多分类：Softmax回归
Softmax回归知道即可，在Sklearn库中，当分类数大于2时，默认的也就是Softmax回归，所以没必要再造一个函数。
这里写图片描述

对于简单的线性方程，我们可以得到最终的解析式来求的答案，但是对于复杂的线性方程，我们没有办法获得解析式，只能采用梯度下降的方法来不断的逼近结果如下图所示。
这里写图片描述

7、了解最小二乘法

最小二乘法：它的主要思想就是选择未知参数，使得理论值与观测值之差的平方和达到最小。
假设一对关系是某线性关系，且实际测量数据与该理想关系的偏差是高斯分布。
那么一个n个测量值的集合，取n-1个拟合成线性关系，用该关系预测另一个，最小二乘法可以保证：预测值和真实值的差的绝对值的期望最小。
最小二乘法与最大似然估计的解释：
最小二乘法的核心就是权衡，因为你要在很多条的直线中间选择，找出距离所有点的距离的平方和最小的那条直线。
极大似然估计核心就是自恋：对应似然函数理解就是给定参数θ我能得到对应的x发生的概率。就是去倒推这个过程（参考下图中例子理解）。
最大似然估计，就是利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值（似然函数的前半句内容：给定输出X计算关于θ的似然函数值）。（1即似然函数的含义：给定输出X计算关于θ的似然函数值就等于给定θ值在X事件发生的概率）
这里写图片描述

8、了解AUC指标

了解AUC（Area Under Curve）的含义，并且知道ROC(Receiver Operating Characterstic)：受试者工作特征曲线（receiver operating characteristic curve，简称ROC曲线），又称为感受性曲线（sensitivity curve）。得此名的原因在于曲线上各点反映着相同的感受性，它们都是对同一信号刺激的反应，只不过是在两种不同的判定标准下所得的结果而已。
使用AUC（即曲线下方的面积）来度量分类器的好坏，给定的阈值不同，造成TP\FP的值的不同，也就造成TPR/FPR值的不同，最终造成AUC的值的不同，分类器的效果也就不同，往往将equal error rate点作为阈值的划分依据。
这里写图片描述