一元非线性回归＋多元线性回归

一元非线性回归

观察散点图，确定非线性形式，然后将非线性转化为线性求解。

常见的六类曲线：

（1）双曲函数曲线
$\begin{cases} \hat{y}=\frac{x}{a+bx}\\ \hat{y}=\frac{a+bx}{x}\\ \hat{y}=\frac{1}{a+bx} \end{cases}$

变换方式：

$\hat{y}=\frac{x}{a+bx}$ ，两边取倒数后，令 $y'=\frac{x}{\hat{y}}$ ，得： $y^{'} = a x + b$

$\hat{y}=\frac{a+bx}{x}$ ，令 $y'=x\hat{y}$ ，得： $y^{'} = a x + b$

$\hat{y}=\frac{1}{a+bx}$ ，两边取倒数后，令 $y'=\frac{1}{\hat{y}}$ ，得： $y^{'} = a x + b$

（2）幂函数曲线

幂函数（ $y$ 是 $x$ 某次幂的函数）方程形式
$\hat{y}=ax^b$

变换形式：

两边取对数，令 $y'=ln{\hat{y}}$ ， $x^{'} = l n x$ ， $a^{'} = l na$ ，得： $y^{'} = a^{'} + b x^{'}$

（3）指数函数曲线

指数函数（x作为指数出现）方程形式：
$\begin{cases} \hat{y}=ae^{bx}\\ \hat{y}=ab^x \end{cases}$

变换方式：

两边取对数，令 $y'=ln{\hat{y}}$ ， $a^{'} = l na$ ，得 $y^{'} = a^{'} + b x$

（4）倒指数曲线

倒指数函数（ $\frac{1}{x}$ 作为指数曲线）方程形式：
$\hat{y}=ae^{\frac{b}{x}}$

变换方式：

两边取对数，令 $y'=ln{\hat{y}}$ ， $a^{'} = l na$ ， $x'=\frac{1}{x}$ ，得： $y^{'} = a^{'} + b x^{'}$

（5）对数函数曲线

对数函数（ $x$ 作为自然对数出现）方程形式：
$\hat{y}=a+blnx(x>0)$

变换方式：

令 $x^{'} = l n x$ ，得 $\hat{y}=a+bx'$

（6） $S$ 型曲线

主要描述动、植物的自然生长过程，又称生长曲线，也可以描述传染病的发展趋势

生长过程的基本特点是开始增长较慢，而在以后的某一范围内迅速增长，达到一定的限度后增长又缓慢下来，曲线呈拉长的 $S$ 型。著名的’ $S$ ’型曲线是 $L o g i s t i c$ 生长曲线
$\hat{y}=\frac{k}{1+ae^{-bx}}(a、b、k均大于0)\\ x=0,\hat{y}=\frac{k}{1+a};x\to \infty,\hat{y}=k$

变换方式：

两边去倒数再取对数后， $y'=ln{\frac{k-\hat{y}}{\hat{y}}}$ ， $a^{'} = l na$ ，得： $y^{'} = a^{'} + b x$

多元线性回归

数学模型
$多元线性回归模型：y=\beta_0+\beta_1x_1+…+\beta_kx_k+\epsilon$
其中，位置参数 $\beta_0$ ， $\beta_1$ 称为回归系数， $x_1、x_2、…、x_k$ 称为自变量（回归变量）， $y$ 称为因变量（被预测变量）， $\epsilon$ 称为误差项，服从正态分布， $E(\epsilon)=0$ ， $COV(\epsilon,\epsilon)=\sigma^2I_n$ 。

$回归平面方程：E(y)=\beta_0+\beta_1x_1+…+\beta_kx_k$

上面的方程是对多元线性回归方程两边同时求期望得到的

$估计的回归平面方程：\hat{y}=\hat{\beta_0}+\hat{\beta_1}x_1+…+\hat{\beta_k}x_k$

其中 $\hat{\beta_0}$ ， $\hat{\beta_1}$ ， $\dots$ ， $\hat{\beta_k}$ 是未知参数 $\beta_0$ ， $\beta_1$ ， $\dots$ ， $\beta_k$ 的估计值

模型参数估计

假设有 $n$ 组独立观测数据 $x_i,y_i)$ ， $i = 1, 2, 3, ..., n$ ，未知参数 $\beta_0$ ， $\beta_1$ ， $\dots$ ， $\beta_k$ 的估计值分别为 $\hat{\beta_0}$ ， $\hat{\beta_1}$ ， $\dots$ ， $\hat{\beta_k}$ ，记：
$\hat{y_i}=\hat{\beta_0}+\hat{\beta_1}x_{i1}+…+\beta_kx_{ik}\\$
令
$\hat{Y}=\begin{bmatrix} \hat{y_1}\\ \hat{y_2}\\ …\\ \hat{y_n}\\ \end{bmatrix} ， X=\begin{bmatrix} 1\quad x_{11}\quad x_{12}\quad \dots\quad x_{1k}\\ 1\quad x_{21}\quad x_{22}\quad \dots\quad x_{2k}\\ …\\ 1\quad x_{n1}\quad x_{n2}\quad \dots\quad x_{nk}\\ \end{bmatrix} ， \hat{\beta}=\begin{bmatrix} \hat{\beta_0}\\ \hat{\beta_1}\\ …\\ \hat{\beta_k} \end{bmatrix}$

根据最小二乘法，使 $Q=\sum{(y_i-\hat{y_i})^2}=\sum{(y_i-\hat{\beta_0}-\hat{\beta_1}x_{i1}-…-\beta_kx_{ik})^2}$ 达到最小，即真实数据到拟合平面的距离的平方和最小时，拟合情况最佳。可以解得：
$\hat{\beta}=({X^TX})^{-1}(X^TY)$

拟合优度判定

多元线性回归的拟合优度判定的 $离差平方和 SST 、回归平方和 (SSR) 、残差平方和 (SSE)$ 与一元线性回归是一样的。

调整的多重判定系数 $R_{\alpha}^2=1-(1-R^2)(\frac{n-1}{n-k-1})=1-(1-\frac{SSR}{SST})(\frac{n-1}{n-k-1})\in[0, 1]$ ，越接近1，拟合越好；越接近0，拟合越差。前面的相关系数 $r$ 实际就是判定系数 $R^2$ 的平方根。

均方残差 $MSE=\frac{SSE}{n-k-1}$ ，估计标准误差 $s_e=\sqrt{MSE}=\sqrt{\frac{SSE}{n-k-1}}$ 是误差项 $\epsilon$ 的标准差 $\sigma$ 的估计，估计标准差 $s_e$ 越接近于0，回归平面对各观测点的代表性就越好

显著性检验

（1）线性关系的检验

第一步：提出假设
$H_0:\beta_i=0(i=1,2,…,p)$

第二步：计算检验统计量
$F=\frac{SSR/k}{SSE/(n-k-1)}\sim F(k, n-k-1)$
第三步：进行决策

先查表得出 $F_\alpha(k,n-k-1)$ 的值，若 $F>F_\alpha(k,n-k-1)$ ，拒绝 $H_0$ ，表明存在显著线性关系

（2）回归系数的检验==（检验自变量对因变量的影响是否显著）==

第一步：提出假设
$H_0:\beta_i=0(i=1,2,…,p)$
第二步：计算检验统计量
$t=\frac{\hat{\beta_i}}{s_{\hat{\beta_i}}}\sim t(n-p-1),其中s_{\hat{\beta_i}}=\frac{s_e}{\sqrt{\sum{x_i^2}-\frac{1}{n}(\sum{x_i})^2}}$
第三步：进行决策

先查表得出 $t_{\frac{\alpha}{2}}(n-p-1)$ 的值，若 $|t|>t_{\frac{\alpha}{2}}(n-p-1)$ ，拒绝 $H_0$ ，表明回归系数等于0的可能性小于 $\alpha$ ，自变量对因变量的影响是显著的

预测

（1）点估计

利用估计的回归方程： $\hat{y}=\hat{\beta_0}+\hat{\beta_1}x_1+…+\hat{\beta_k}x_k$ ，对于给定自变量的值 $x_1，x_2，…，x_k$ ，求出一个估计值

（2）区间估计

$y$ 的 $1-\alpha$ 的预测区间（置信）区间为 $[\hat{y}_1,\hat{y}_2]$ ，其中：
$\begin{cases} \hat{y}_1=\hat{y}-\hat{\sigma}_e\sqrt{1+\sum_{i=0}^{k}{\sum_{j=0}^{k}{c_{ij}x_ix_jt_{1-\frac{\alpha}{2}}(n-k-1)}}}\\ \hat{y}_1=\hat{y}+\hat{\sigma}_e\sqrt{1+\sum_{i=0}^{k}{\sum_{j=0}^{k}{c_{ij}x_ix_jt_{1-\frac{\alpha}{2}}(n-k-1)}}} \end{cases}$
$C=L^{-1}=(c_{ij})，L=X'X$