回归分析笔记

回归分析

回归分析: 寻找两个或多个变量之间的函数关系(相关关系)

一元和线性

$\begin{aligned} y&=\beta_0+\beta_1x+\varepsilon\\ \end{aligned}$

误差项 $\varepsilon$ 是一个期望值为0的随机变量，即 $E(\varepsilon)=0$ , 对于一个给定的 $x$ 值, $y$ 的期望值为 $E(y)=\beta_0+\beta_1x$
对于所有的 $x$ 值, $\varepsilon$ 的方差 $\sigma^2$ 都相同
误差项 $\varepsilon$ 是一个服从正态分布的随机变量，且相互独立

$\begin{aligned} \beta_1&=\frac{\sum x_iy_i-n\overline x\overline y}{\sum x^2-n\overline x}\\ \beta_0&=\overline y-\beta_1\overline x\\ \end{aligned}$

回归显著性校验:

总离差平方和(SST): $\sum(y_i-\overline y)^2$
残差平方和(SSE): $\sum(y_i-\hat y_i)^2$
回归平方和(SSR): $\sum(\hat y_i-\overline y)^2$

$\begin{aligned} SST&=\sum(y_i-\overline y)^2\\ &=\sum [(\hat y_i-\overline y)+(y_i-\hat y_i) ]^2\\ &=\sum(\hat y_i-\overline y)^2+\sum(y_i-\hat y_i)^2+2\sum(\hat y_i-\overline y)(y_i-\hat y_i)\\ &=\sum(\hat y_i-\overline y)^2+\sum(y_i-\hat y_i)^2+0\\ &=SSR+SSE \end{aligned}$

$F$ 检验

提出假设: 线性关系不显著
计算检验统计量 $F$

$\begin{aligned} F&=\frac{SSR/1}{SSE/(n-2)}=\frac{\sum(\hat y_i-\overline y)^2}{\sum(\hat y_i-y_i)^2/(n-2)}\sim F(1, n-2)\\ \end{aligned}$

确定显著性水平 $\alpha$ ，并根据分子自由度1和分母自由度(n-2)找出临界值 $F_\alpha$ 作出决策: 若 $F\geq F_\alpha$ , 拒绝假设; 否则接受假设。(概率论与数理统计)
$F$ 越大线性关系越显著

$F$ 与 $r$ 的关系

$F=\frac{(n-2)r^2}{1-r^2}\\$

说明 $F$ 检验和 $r$ 相关系数的一致性

例题

在这里插入图片描述

重复测量的分析

对于同一个 $x$ 重复测量得到 $y$ 的值

离差平方和: $S$
残差平方和: $Q$
回归平方和: $U$
误差平方和: $Q_E$
失拟平方和: $Q_L$

在这里插入图片描述

两个变量都有误差的一元线性回归

在这里插入图片描述

$\lambda$ 衡量了误差偏向的方向
问题: 如何通过先验信息测出 $\lambda=\frac{\sigma_x^2}{\sigma_y^2}$ ?

一元非线性

化非线性为线性问题的求解

典型的化解方法

$\begin{aligned} y&=\alpha e^{\beta x}\\ y&=\alpha x^\beta\\ y&=\frac{x}{\alpha x+\beta}\\ y&=\alpha+\beta\log x\\ y&=\frac{1}{\alpha+\beta e^{-x}}\\ \end{aligned}$

在这里插入图片描述

具体步骤

根据散点图确认非线性回归方程模式
把非线性回归方程转换为线性回归方程
依据线性回归方程进行求解
再转换为非线性回归方程

在这里插入图片描述

观察数据是否符合某个曲线, 若符合则可以套用公式试试效果
以下是常见的曲线

在这里插入图片描述

在实际情况下，可能有多条曲线符合。这时需要将所有曲线都尝试一遍，然后做显著性校验，选取显著性校验最好的曲线作为结果。

多元线性

$\begin{aligned} \hat y &=b_0+b_1x_1+b_2x_2+...+b_Mx_M\\ 由&最小二乘法:\\ Q&=\sum_{t=1}^M(y_t-\hat y_t)=\sum_{t=1}^M(y_t-b_0-b_1x_{t1}-b_2x_{t2}-...-b_Mx_{tM})^2=最小\\ &\begin{cases} \frac{\partial Q}{\partial b_0}=-2\sum_{t=1}^M(y_t-b_0-b_1x_{t1}-b_2x_{t2}-...-b_Mx_{tM})=0\\ \frac{\partial Q}{\partial b_{i}}=-2\sum_{t=1}^M(y_t-b_0-b_1x_{t1}-b_2x_{t2}-...-b_Mx_{tM})=0\\ i=1,2......M \end{cases} \end{aligned}$

矩阵形式:
$\begin{aligned} (X^TX)b&=X^TY\\ b=A^{-1}&B=(X^TX)^{-1}X^TY\\ \end{aligned}$
另一种方法
$\begin{aligned} \hat y&=\mu_0+b_1(x_1-\overline x_1)+b_2(x_2-\overline x_2)+...+b_M(x_M-\overline x_M)\\ \qquad &\qquad \qquad \qquad \qquad Ab=B\\ 其&中:\mu=b_1\overline x_1+b_2\overline x_2+...+b_M\overline x_M=\overline { y}\\ \end{aligned}$