文章目录
- 一、统计学及思维模式
- 二、未知现象的数学描述
- 三、线性模型
- (一)线性模型的定义
- (二)线性模型的参数估计
- (三)线性模型的应用
- (四)离散解释变量的设计向量构建方法
- 四、线性模型的推广
一、统计学及思维模式
现象可以分为未知现象和必然现象两类,但是分类的结果因人而异。
任何未知现象(问题)都可以从各种角度来研究。如定积分的值:
- ①数学方法:定积分的定义,分割[0,1]区间,以直代曲逼近曲边梯形的面积。数学研究以公理和假设为前提,研究结果只有对错之分。
- ②统计方法:收集均匀分布随机变量的观测数据,通过被积函数在观测数据处值的算术平均值来认识积分值。
统计学是通过收集数据和分析数据来认识未知现象的一门科学。统计学思维模式:对未知现象(问题),通过阶段研究流程得到新知识(认识结果);通过实践检验发现新认识的不足,确认下一步研究问题。
如果忽略实践检验而坚信已有研究结果完美无缺,就是统计学中的迷信。
二、未知现象的数学描述
- 理想模型: Y = f ( X 1 , . . . , X m ) + ϵ Y=f(X_1,...,X_m)+\epsilon Y=f(X1,...,Xm)+ϵ
- f ( X 1 , . . . , X m ) = E ( Y ∣ X 1 , . . . X m ) f(X_1,...,X_m)=E(Y|X_1,...X_m) f(X1,...,Xm)=E(Y∣X1,...Xm)是在已知所有确定因素下 Y Y Y的条件数学期望
- f f f为回归函数
- ϵ \epsilon ϵ为模型误差
- 理想预报公式: Y = E ( Y ∣ X 1 , . . . , X m ) Y=E(Y|X_1,...,X_m) Y=E(Y∣X1,...,Xm)
- 直接用 f ( X 1 , . . . , X m ) = E ( Y ∣ X 1 , . . . X m ) f(X_1,...,X_m)=E(Y|X_1,...X_m) f(X1,...,Xm)=E(Y∣X1,...Xm)估计 Y Y Y
- 用该公式估计 Y Y Y的误差为 ϵ \epsilon ϵ
- 数学模型: Y = f ( X 1 , . . . , X m ) Y=f(X_1,...,X_m) Y=f(X1,...,Xm)
- 现实模型: Y = f ^ ( X 1 , . . . , X k ∣ θ 0 ) + η Y=\hat{f}(X_1,...,X_k|\theta_0)+\eta Y=f^(X1,...,Xk∣θ0)+η
- 实际应用时无法知道 E ( Y ∣ X 1 , . . . X m ) E(Y|X_1,...X_m) E(Y∣X1,...Xm)的数学表达式,因此选择依据所掌握知识确定一个k元函数族 { f ^ ( ⋅ ∣ θ 0 ) : θ ∈ Θ } \{\hat{f}(\cdot|\theta_0):\theta\in\Theta\} {f^(⋅∣θ0):θ∈Θ}中的某一个函数 f ^ ( ⋅ ∣ θ 0 ) \hat{f}(\cdot|\theta_0) f^(⋅∣θ0)最接近 E ( Y ∣ X 1 , . . . X m ) E(Y|X_1,...X_m) E(Y∣X1,...Xm)
- η \eta η为模型误差
- 经验预报公式: Y = f ^ ( X 1 , . . . , X k ∣ θ ) Y=\hat{f}(X_1,...,X_k|\theta) Y=f^(X1,...,Xk∣θ)
- 用 θ ^ ∈ Θ \hat{\theta}\in\Theta θ^∈Θ估计 θ 0 \theta_0 θ0
理想模型是在已知所有相关的解释变量情况下对响应变量Y的估计。而现实情况下,我们没有办法知道所有的解释变量,只能尽可能的通过已知知识去确定尽可能多的解释变量,使得通过现实模型回归得到的相应变量Y的估计值的均方误差尽可能的小。在现实情况下,取得最小均方误差的模型就叫做最优模型。
由于统计模型和理想模型之间的差异,意味着所关心的未知现象Y在不同的研究阶段会有不同的表征。
三、线性模型
(一)线性模型的定义
线性模型的定义:
对于响应变量 Y Y Y和解释变量 X 1 , . . . X q X_1,...X_q X1,...Xq,如果存在 q q q元函数 Z 1 , . . . , Z p Z_1,...,Z_p Z1,...,Zp,以及实数 β 1 , . . . , β p \beta_1,...,\beta_p β1,...,βp使得:
Y = Z 1 ( X ) β 1 + . . . + Z p ( X ) β p + ϵ Y=Z_1(X)\beta_1+...+Z_p(X)\beta_p+\epsilon Y=Z1(X)β1+...+Zp(X)βp+ϵ
并且 ϵ \epsilon ϵ为随机变量,满足条件 E ( ϵ ∣ X ) ≡ 0 E(\epsilon|X)\equiv 0 E(ϵ∣X)≡0,则称其为线性回归模型或线性模型。
线性模型的理想预报公式:
Y = Z 1 ( X ) β 1 + . . . + Z p ( X ) β p Y=Z_1(X)\beta_1+...+Z_p(X)\beta_p Y=Z1(X)β1+...+Zp(X)βp
- X X X为解释向量,简称解释变量
- Z = ( Z 1 , . . . , Z p ) Z=(Z_1,...,Z_p) Z=(Z1,...,Zp)为设计向量
不同的设计向量对应于不同的线性模型,应用线性模型解决应用问题的关键在于构造设计向量
(二)线性模型的参数估计
线性模型的参数估计:
- 样本: ( Y 1 , X 1 ) , . . . , ( Y n , X n ) (Y_1,X_1),...,(Y_n,X_n) (Y1,X1),...,(Yn,Xn)
- 样本观测数据: ( y 1 , x 1 ) , . . . ( y n , x n ) (y_1,x_1),...(y_n,x_n) (y1,x1),...(yn,xn)
样本代表抽象的观测结果,用于理论研究;样本观测数据是具体的确定的观测结果向量,包含了总体的结构信息,样本观测过程结束后永不改变。
线性模型的样本表达形式为:
Y = Z β + ϵ Y=Z\beta+\epsilon Y=Zβ+ϵ
其中, Y = ( Y 1 , . . . Y n ) T , Z = ( Z ( X 1 ) T , . . . , Z ( X n ) T ) T , ϵ = ( ϵ 1 , . . . , ϵ n ) T , E ( ϵ ∣ X ) = 0 Y=(Y_1,...Y_n)^T,Z=(Z(X_1)^T,...,Z(X_n)^T)^T,\epsilon=(\epsilon_1,...,\epsilon_n)^T,E(\epsilon|X)=0 Y=(Y1,...Yn)T,Z=(Z(X1)T,...,Z(Xn)T)T,ϵ=(ϵ1,...,ϵn)T,E(ϵ∣X)=0,进一步当各个样本点相互独立时, V a r ( ϵ ) = σ 2 I n Var(\epsilon)=\sigma^2I_n Var(ϵ)=σ2In。
最小二乘估计:
- 估计的目标:最小化 Q ( β ) = ( Y − Z β ) T ( Y − Z β ) Q(\beta)=(Y-Z\beta)^T(Y-Z\beta) Q(β)=(Y−Zβ)T(Y−Zβ)
- 参数的最小二乘估计: β ^ = ( Z T Z ) − 1 Z T Y \hat{\beta}=(Z^TZ)^{-1}Z^TY β^=(ZTZ)−1ZTY
- 响应变量的经验预报公式: Y = Z β ^ Y=Z\hat{\beta} Y=Zβ^
- 模型误差的方差估计: σ 2 = ( Y − Z β ^ ) T ( Y − Z β ^ ) n − p \sigma^2=\frac{(Y-Z\hat{\beta})^T(Y-Z\hat{\beta})}{n-p} σ2=n−p(Y−Zβ^)T(Y−Zβ^)
(三)线性模型的应用
线性模型的应用:
Y = Z ( X ) β + η Y=Z(X)\beta+\eta Y=Z(X)β+η
在假设 η \eta η为随机变量的情况下,可以证明Y和X满足线性模型,在假设 η \eta η不具备频率稳定性的情况下,Y和X不满足线性模型。 η \eta η是用 Z ( X ) β Z(X)\beta Z(X)β估计 Y Y Y的误差,如果已知这个模型误差的分布密度,就可以用极大似然估计方法来估计模型参数。当模型误差服从均值为0的正态分布时,线性模型参数的最小二乘估计和极大似然估计相等。
线性模型适用条件: 响应变量 Y Y Y的值域是 R R R(全体实数)
(四)离散解释变量的设计向量构建方法
考虑1连续型响应变量 Y Y Y和1维解释变量 X X X,其中 X X X的值域为 { 0 , 1 , 2 } \{0,1,2\} {0,1,2},建立用于拟合 ( Y , X ) (Y,X) (Y,X)的样本观测数据的线性模型。
- 方法一:构建设计向量 Z ( x ) = ( 1 , x ) Z(x)=(1,x) Z(x)=(1,x)得到线性模型 Y = Z ( X ) α + η Y=Z(X)\alpha+\eta Y=Z(X)α+η,模型参数为 α = ( α 0 , α 1 ) T \alpha=(\alpha_0,\alpha_1)^T α=(α0,α1)T
- 方法二:构建设计向量 Z ( x ) = ( 1 , 1 { 0 } ( x ) , 1 { 1 } ( x ) , 1 { 2 } ( x ) ) Z(x)=(1,1_{\{0\}}(x),1_{\{1\}}(x),1_{\{2\}}(x)) Z(x)=(1,1{0}(x),1{1}(x),1{2}(x))得到线性模型 Y = Z ( X ) β + η Y=Z(X)\beta+\eta Y=Z(X)β+η,模型参数为 β = ( β 0 , β 1 , β 2 , β 3 ) T \beta=(\beta_0,\beta_1,\beta_2,\beta_3)^T β=(β0,β1,β2,β3)T
- 方法三:构建设计向量 Z ( x ) = ( 1 , 1 { 0 } ( x ) , 1 { 1 } ( x ) ) Z(x)=(1,1_{\{0\}}(x),1_{\{1\}}(x)) Z(x)=(1,1{0}(x),1{1}(x))得到线性模型 Y = Z ( X ) γ + η Y=Z(X)\gamma+\eta Y=Z(X)γ+η,模型参数 γ = ( γ 0 , γ 1 , γ 2 ) T \gamma=(\gamma_0,\gamma_1,\gamma_2)^T γ=(γ0,γ1,γ2)T
- 方法四:构建设计向量 Z ( x ) = ( 1 , 1 { 0 } ( x ) − 1 { 2 } ( x ) , 1 { 1 } ( x ) − 1 { 2 } ( x ) ) Z(x)=(1,1_{\{0\}}(x)-1_{\{2\}}(x),1_{\{1\}}(x)-1_{\{2\}}(x)) Z(x)=(1,1{0}(x)−1{2}(x),1{1}(x)−1{2}(x))得到线性模型 Y = Z ( X ) δ + η Y=Z(X)\delta+\eta Y=Z(X)δ+η,模型参数 δ = ( δ 0 , δ 1 , δ 2 ) T \delta=(\delta_0,\delta_1,\delta_2)^T δ=(δ0,δ1,δ2)T
离散值变量的哑变量编码:
当解释变量的某一分量 X X X为k分类变量时,需要将其量化才能建模。
- X的哑变量编码:
X = ( 1 { 1 } ( X ) , . . . , 1 { k − 1 } ( X ) ) X=\left(1_{\{1\}}(X),...,1_{\{k-1\}}(X)\right) X=(1{1}(X),...,1{k−1}(X)) - 设计向量的构建:
W = ( 1 , X ) W=(1,X) W=(1,X) - 用哑变量编码的线性回归模型:
H = W β + ϵ H=W\beta+\epsilon H=Wβ+ϵ
离散变量的哑变量编码会随着参考值的改变有着不同的表现形式,但是他们的剩余标准误差值、多重决定系数值、调整R方值和F-统计量值都完全相同,不同的是模型参数估计结果。事实上,不同模型之间的参数也存在着一一对应的关系,其最小二乘经验预报公式的预报结论是相同的。
在哑变量编码线性模型中,模型参数估计值的实际含义和构建的变量编码的参考值(类)有关。进一步在哑变量编码线性模型中,离散变量的参考值(类)对于响应变量的作用合并到截距项参数中,因此不能直接用该模型分析参考值(类)对于响应变量的影响。
离散变量的效应编码:
效应编码将 q q q分类变量表示为 q = k − 1 q=k-1 q=k−1维向量,并称 k k k 为效应编码的参考值或参考类,可用效应编码构建线性模型的设计向量。
X = ( 1 { 1 } ( X ) − 1 { k } ( X ) , . . . , 1 { q } ( X ) − 1 { k } ( X ) ) X=\left(1_{\{1\}}(X)-1_{\{k\}}(X),...,1_{\{q\}}(X)-1_{\{k\}}(X)\right) X=(1{1}(X)−1{k}(X),...,1{q}(X)−1{k}(X))
- 设计向量的构建:
W ~ = ( 1 , X ) \tilde{W}=(1,X) W~=(1,X) - 用哑变量编码的线性回归模型:
H = W ~ γ + ϵ H=\tilde W\gamma+\epsilon H=W~γ+ϵ
效应编码和哑变量编码: - 从预报的角度,用哑变量建模和用效用编码建模的效果相同:得到的模型的剩余标准误差值、多重决定系数值、调整R方值和F-统计量值都完全相同,不同的是模型参数估计结果。
- 差别在于参考类的表示:
- 哑变量编码中,参考类由各个分量都是0的编码向量表示,参考类对于响应变量的影响隐含在常数项中
- 效应编码中,参考类用各个分量都是-1的编码向量表示,此时该变量的参考类对于响应变量的贡献为其他类的贡献之和乘以-1,常数项是各个解释变量对于响应变量的平均影响之和
- 哑变量编码 更适合直接比较某个类别与参考类别的差异,解释简单明了;效应编码 更适合分析所有类别相对于整体的影响,能够揭示更复杂的关系和模式。
离散变量的独热编码:
若一维变量 X X X的值域 { x 1 , . . . , x q } \{x_1,...,x_q\} {x1,...,xq}, q q q为正整数,就可以用独热编码将 X X X量化为 :
X = ( 1 { x 1 } ( X ) , . . . , 1 { x q } ( X ) ) X=\left(1_{\{x_1\}}(X),...,1_{\{x_q\}}(X)\right) X=(1{x1}(X),...,1{xq}(X))
在深度学习等IT领域,独热编码深受欢迎。独热编码中仅有一个分量为1,其余分量为0,且各个分量之和为1。在应用线性模型解决实际问题中,可以借助独热编码构建设计向量。
独热编码的设计向量中的第一分量不是1。
考虑婴儿身高H(cm)与年龄X(月)之间的关系:
- 对于哑变量编码构造的设计向量: H = W β + ϵ H=W\beta+\epsilon H=Wβ+ϵ。 β 0 \beta_0 β0表示参考月(0月)男婴平均身高信息, β k \beta_k βk表示k月男婴的平均身高和参考月男婴平均身高之差
- 对于效应编码构造的设计向量: H = W ~ γ + ϵ H=\tilde W\gamma+\epsilon H=W~γ+ϵ。 γ i \gamma_i γi的值的大小并无实际意义,但是否等于0有实际意义: γ i = 0 \gamma_i=0 γi=0表示男婴的身高与他的年龄是否为i月没有关系, ∑ i = 1 12 γ i = 0 \sum_{i=1}^{12}\gamma_i=0 ∑i=112γi=0表示男婴的身高与他是否为初生婴儿没有关系。
- 对于独热编码构造的设计向量: H = T δ + ϵ H=T\delta+\epsilon H=Tδ+ϵ。 δ k \delta_k δk表示k月男婴的平均身高,系数表示当分类变量取该类别时(即对应哑变量为1),预测值相对于截距项的增加或减少量。
四、线性模型的推广
线性模型的适用条件是响应变量的值域为实数空间,当此条件不满足时如何建立现实模型和经验预报公式?
考虑线性模型的等价表达式: E ( Y ∣ X ) = Z ( X ) β E(Y|X)=Z(X)\beta E(Y∣X)=Z(X)β,其中 Z ( X ) = ( Z 1 ( X ) , . . . , Z p ( X ) ) Z(X)=(Z_1(X),...,Z_p(X)) Z(X)=(Z1(X),...,Zp(X))
与线性模型相比,这个表达式隐藏了模型误差,从而可以通过复合函数的思想来拓展线性模型。线性模型的适用条件期望条件转变为 E ( Y ∣ X ) E(Y|X) E(Y∣X)的所有可能取值为全体实数。
广义线性模型:
当 E ( Y ∣ X ) E(Y|X) E(Y∣X)的值域 D ≠ R D\neq R D=R时,若存在函数 h : R → D h:R\rightarrow D h:R→D,以及向量值函数 Z = Z ( X ) Z=Z(X) Z=Z(X),使得
E ( Y ∣ X ) = h ( Z ( X ) β ) E(Y|X)=h(Z(X)\beta) E(Y∣X)=h(Z(X)β)
就称其为广义线性回归模型或广义线性模型,称 h h h为响应函数,称 Z Z Z为设计向量,称 β \beta β为模型参数。
要证明可以用广义线性模型描述响应变量 Y Y Y和解释变量 X X X的关系,需要确定广义线性模型的三个主要组成部分:随机分布、线性预测子和连接函数。
- 响应变量 Y Y Y的条件分布属于指数分布族。
- 存在一个线性预测子 η = β 0 + β 1 X \eta=\beta_0+\beta_1X η=β0+β1X
- 存在一个合适的联系函数 g ( ⋅ ) g(⋅) g(⋅)将期望值 E ( Y ∣ X ) E(Y|X) E(Y∣X)和线性预测子 η \eta η联系起来
考虑 E ( Y ∣ X ) E(Y|X) E(Y∣X)没有任何实际意义的情况:(鸢尾花分类问题)
在已知解释变量 X X X的情况下,分类变量 Y Y Y的变化规律由条件密度 p k ( X ) = P ( Y = k ∣ X ) , k = 1 , 2 , 3 p_k(X)=P(Y=k|X),k=1,2,3 pk(X)=P(Y=k∣X),k=1,2,3 刻画,而这一条件密度又可以表示为条件数学期望:
( p 1 ( X ) , p 2 ( X ) ) = ( E ( 1 { 1 } ( Y ) ∣ X ) , E ( 1 { 2 } ( Y ) ∣ X ) ) = E ( Y ∣ X ) (p_1(X),p_2(X))=(E(1_{\{1\}}(Y)|X),E(1_{\{2\}}(Y)|X))=E(Y|X) (p1(X),p2(X))=(E(1{1}(Y)∣X),E(1{2}(Y)∣X))=E(Y∣X)
其中 Y = ( 1 { 1 } ( Y ) , 1 { 2 } ( Y ) ) Y=(1_{\{1\}}(Y),1_{\{2\}}(Y)) Y=(1{1}(Y),1{2}(Y))是响应变量 Y Y Y的哑变量编码。从而就可以选择合适的2维向量函数 h ( u ) = ( h 1 ( u ) , h 2 ( u ) ) h(u)=(h_1(u),h_2(u)) h(u)=(h1(u),h2(u)) 构建合适的设计矩阵:
Z = ( Z 11 ( X ) . . . Z 1 p ( X ) Z 21 ( X ) . . . Z 2 p ( X ) ) Z=\begin{pmatrix} Z_{11}(X) &...& Z_{1p}(X) \\ Z_{21}(X) &...& Z_{2p}(X) \\ \end{pmatrix} Z=(Z11(X)Z21(X)......Z1p(X)Z2p(X))
进而用
E ( Y ∣ X ) = h ( Z β ) E(Y|X)=h(Z\beta) E(Y∣X)=h(Zβ)
拟合鸢尾花分类样本观测数据。
q维广义线性模型:
q维响应变量 Y Y Y和解释变量 X X X满足:
E ( Y ∣ X ) = h ( Z β ) E(Y|X)=h(Z\beta) E(Y∣X)=h(Zβ)
就称 Y Y Y和 X X X满足q维广义线性模型,其中 h : R q → R q h:R^q\rightarrow R^q h:Rq→Rq为可逆q维向量值响应函数,设计矩阵为:
Z = ( Z 11 ( X ) . . . Z 1 p ( X ) ⋮ ⋮ ⋮ Z q 1 ( X ) . . . Z q p ( X ) ) Z=\begin{pmatrix} Z_{11}(X) &...& Z_{1p}(X) \\ \vdots & \vdots & \vdots \\ Z_{q1}(X) &...& Z_{qp}(X) \\ \end{pmatrix} Z= Z11(X)⋮Zq1(X)...⋮...Z1p(X)⋮Zqp(X)
一般地,如果一维响应变量 Y Y Y的值域为 D = { v 1 , . . . v k } D=\{v_1,...v_k\} D={v1,...vk},其中k为大于1的正整数,那么其哑变量编码的条件期望是其密度的等价刻画,因此可基于哑变量编码的条件期望建立模型。特别的,称q=k-1维广义线性模型 E ( Y ∣ X ) = h ( Z β ) E(Y|X)=h(Z\beta) E(Y∣X)=h(Zβ)为k响应模型。其中Y是Y的哑变量编码。