一元线性回归
变量间的关系
变量与变量之间的关系分为确定性关系和相关性关系。
确定性关系是指当自变量给定一个值的时候,就能计算出应变量的值。例如物体下落高度h与下落时间t的关系:h=12gt2。
相关性关系是指变量之间的关系不确定,表现为具有随机性的一种“趋势”。对自变量X的同一个值,取得的因变量Y的值可能不同,而且是随机的。但对应X在一定范围内的不同值,可以观测到Y随X的变化呈现出一定的趋势。E(Y)=μ(x)(这句话说得真是妙。以前因果关系这样的逻辑深深地刻在脑海里,总觉得所有事情都是由A=>B。这种即随机,又趋势的这种关系从未曾理解过)
相关性关系的例子生活中是有很多的。身高和体重没有确定的函数关系,但从统计意义上讲身高高的,体重大。
概念与模型
一元线性回归研究一个变量对另外一个变量的影响。
解释变量x
响应变量Y
Y的变化除了X的影响外,还有其他随机因素的影响,记为ε
对从总体(x,Y)中抽取的一个样本:(x1,Y1),(x2,Y2),....(xn,Yn)。字母大小写区别了是解释变量,还是响应变量。
Yi=β0+β1xi+εi,i=1,2..n
εi~N(0,σ2),且相互独立
β0,β1是回归系数,未知;σ2未知
y关于x的一元线性回归:y^=β^0+β^1xi
样本值(x1,y1),(x2,y2)...(xn,yn)
回归系数估计
β0,β1的估计采用最小二乘法。
Q(β0,β1)=∑ni=1(yi−(β0+βixi))2,能够使得Q(β0,β1)最小的β0,β1的值就是估计的β^0,β^1。
求导,导数为0,得到β^0,β^1。整理方程组得到:
β^0=y¯−x¯β^1
β^1=sxy/sxx
其中x¯=1n∑ni=1xi,y¯=1n∑ni=1yi,sxx=∑ni=1(xi−x¯)2,sxy=∑ni=1(xi−x¯)(yi−y¯),syy=∑ni=1(yi−y¯)2
说明:最小二乘法事先并不需要知道Y与x之间一定有线性关系。可以通过专业知识,或者根据实际观测的数据用假设检验方法来判断。
σ2估计
ei=yi−y^i,ei是εi的估计。
σ2=D(εi)=E(εi)2
用残差平方和∑ni=1(yi−y^i)2估计σ2
可以证明E(∑ni=1(yi−y^i)2)=(n−2)σ2,因此S2=1n−2∑ni=1(yi−y^i)2是σ2的无偏估计。
线性假设的显著性检验
H0假设
H0:β1=0
H1:β1≠0
如果接受H0,x与Y没有线性关系,回归方程无意义;如果拒绝H0,说明回归效果显著。
x与Y没有回归效果不显著的原因可能有:1 影响Y的因素除了x还有别的因素且不能忽略;2E(Y)与x的关系不是线性关系,而是其他关系;3Y与x没关系。
回归方程检验
回归系数检验
回归系数的置信区间
(β^1±tα/2(n−2)ssxx−−−√)
一元线性回归方程的应用–预测
y^0=β^0+β^1x0 在x=x0点预测y0。