应用广义线性模型二|二响应广义线性模型

系列文章目录

文章目录

  • 系列文章目录
  • 一、二响应模型的不同表达方式和响应函数
  • 二、二响应模型的性质
    • (一)二响应变量的条件数学期望与方差
    • (二)二响应模型参数的极大似然估计
    • (三)二响应模型的优势
  • 三、二响应模型参数的假设检验
    • (一)对数似然比检验方法
    • (二)Wald统计量
    • (三)得分统计量
    • (四)模型参数分量是否为0的检验
    • (五)四种检验统计量的特点与应用
  • 四、二响应模型的拟合优度统计量
    • (一)样本观测数据的表示方法
    • (二)皮尔逊统计量
    • (三)偏差统计量
  • 五、全模型与子模型
  • 六、响应变量的预报
    • (一)阈值
    • (二)ROC曲线


2响应模型中响应变量的哑变量编码的维数是1,是值域为 { 0 , 1 } \{0,1\} {0,1}的变量。将这个哑变量编码记为 Y Y Y,则k响应模型具体为:
E ( Y ∣ X ) = h ( Z β ) E(Y|X)=h(Z\beta) E(YX)=h()
称之为二响应广义线性模型,简称二响应模型,进一步称 Z = Z ( X ) Z=Z(X) Z=Z(X)为二响应模型的设计向量, β \beta β为模型参数。

设计向量中,人们通常称1为常数项,称解释变量的分量为主效应量,将解释变量的k个分量的乘积成为这k个分量的k阶交互作用项。
设计向量: Z ( x ) = ( 1 , x 1 , x 2 , x 3 , x 1 x 2 , x 1 x 3 , x 2 x 3 ) Z(x)=(1,x_1,x_2,x_3,x_1x_2,x_1x_3,x_2x_3) Z(x)=(1,x1,x2,x3,x1x2,x1x3,x2x3)中包含了所有的主效应项和所有的2阶交互作用项。

一、二响应模型的不同表达方式和响应函数

响应函数 h h h
为了确保条件概率位于0和1之间,响应函数的值域为 [ 0 , 1 ] [0,1] [0,1]。为了研究方便,响应函数总是被要求为严格单增连续分布函数,在这样的假设下,响应函数 h h h是可逆函数,称: g = h − 1 g=h^{-1} g=h1为二响应模型的连接函数。

二响应模型 E ( Y ∣ X ) = h ( Z β ) E(Y|X)=h(Z\beta) E(YX)=h()的不同表达方式:

  • 因为 E ( Y ∣ X ) = P ( Y = 1 ∣ X ) E(Y|X)=P(Y=1|X) E(YX)=P(Y=1∣X),所以二响应模型可以表示为以下两种形式:
    • P ( Y = 1 ∣ X ) = h ( Z β ) P(Y=1|X)=h(Z\beta) P(Y=1∣X)=h()
    • Y ∼ B ( 1 , h ( Z β ) ) Y\sim B(1,h(Z\beta)) YB(1,h())
  • 用连接函数表示:
    • g ( E ( Y ∣ X ) ) = Z β g(E(Y|X))=Z\beta g(E(YX))=

二响应逻辑回归模型:(逻辑回归模型或logit模型)
当响应函数和连接函数分别是逆逻辑函数和逻辑函数时,即:
i l o g i t ( x ) ≜ e x p ( x ) 1 + e x p ( x ) 和  l o g i t ( x ) ≜ l o g ( x 1 − x ) ilogit(x) \triangleq \frac{exp(x)}{1+exp(x)} 和\ logit(x)\triangleq log(\frac{x}{1-x}) ilogit(x)1+exp(x)exp(x) logit(x)log(1xx)
二响应模型就成为了二响应逻辑回归模型:(简称为逻辑回归模型或logit模型)
E ( Y ∣ X ) = e x p ( Z β ) 1 + e x p ( Z β ) E(Y|X)=\frac{exp(Z\beta)}{1+exp(Z\beta)} E(YX)=1+exp()exp()

正态分布概率模型或proit模型:
当响应函数和连接函数分别是:
h ( x ) = Φ ( x ) 和  g ( t ) = Φ − 1 ( t ) h(x)=\Phi(x)和\ g(t)=\Phi^{-1}(t) h(x)=Φ(x) g(t)=Φ1(t)
模型就成为了正态分布概率模型或proit模型:
E ( Y ∣ X ) = Φ ( Z β ) E(Y|X)=\Phi(Z\beta) E(YX)=Φ()

极小值分布概率模型或chaglog模型:
当响应函数和连接函数分别是:
h ( x ) = 1 − exp ⁡ ( − exp ⁡ ( x ) ) 和  g ( t ) = log ⁡ ( − log ⁡ ( 1 − t ) ) h(x)=1-\exp(-\exp(x))和\ g(t)=\log(-\log(1-t)) h(x)=1exp(exp(x)) g(t)=log(log(1t))
模型就成为了极小值分布概率模型或chaglog模型:
E ( Y ∣ X ) = 1 − exp ⁡ ( − e x p ( Z β ) ) E(Y|X)=1-\exp(-exp(Z\beta)) E(YX)=1exp(exp())

这三个响应函数曲线的差异十分明显:
在这里插入图片描述但是这三个响应函数可以通过平移和刻度变换相互逼近。因此,当设计向量含有常数项时,逻辑回归模型、正态分布模型和极小值分布模型拟合样本观测数据的效果差不多。
在这里插入图片描述

二、二响应模型的性质

(一)二响应变量的条件数学期望与方差

已知二响应模型可以表示为: Y ∼ B ( 1 , h ( Z β ) ) Y\sim B(1,h(Z\beta)) YB(1,h()),因此根据二项分布的性质可以得到:
E ( Y ∣ X ) = h ( Z β ) , V a r ( Y ∣ X ) = h ( Z β ) ( 1 − h ( Z β ) ) E(Y|X)=h(Z\beta),\ Var(Y|X)=h(Z\beta)(1-h(Z\beta)) E(YX)=h(), Var(YX)=h()(1h())

(二)二响应模型参数的极大似然估计

对于变量 ( Y , X ) (Y,X) (Y,X)的独立观测样本 ( Y i , X i ) (Y_i,X_i) (Yi,Xi) 1 ≤ i ≤ n 1\leq i \leq n 1in,每个样本点都满足二响应模型,即:
P ( Y i = 1 ∣ X i ) = h ( Z i β ) , P ( Y i = 0 ∣ X i ) = 1 − h ( Z i β ) P(Y_i=1|X_i)=h(Z_i\beta),\ P(Y_i=0|X_i)=1-h(Z_i\beta) P(Yi=1∣Xi)=h(Ziβ), P(Yi=0∣Xi)=1h(Ziβ)
进而可以得到第 i i i项观测的个体似然函数:
L i ( β ) ≜ h ( Z i β ) Y i ( 1 − h ( Z i β ) ) 1 − Y i L_i(\beta)\triangleq h(Z_i\beta)^{Y_i}(1-h(Z_i\beta))^{1-Y_i} Li(β)h(Ziβ)Yi(1h(Ziβ))1Yi
i i i项观测的对数似然函数:
l i ( β ) ≜ Y i log ⁡ h ( Z i β ) + ( 1 − Y i ) log ⁡ ( 1 − h ( Z i β ) ) l_i(\beta)\triangleq Y_i\log h(Z_i\beta)+(1-Y_i)\log (1-h(Z_i\beta)) li(β)Yilogh(Ziβ)+(1Yi)log(1h(Ziβ))
进而得到参数 β \beta β的对数似然函数:
l ( β ) ≜ ∑ i = 1 n ( Y i log ⁡ h ( Z i β ) + ( 1 − Y i ) log ⁡ ( 1 − h ( Z i β ) ) ) l(\beta)\triangleq \sum_{i=1}^n(Y_i\log h(Z_i\beta)+(1-Y_i)\log (1-h(Z_i\beta))) l(β)i=1n(Yilogh(Ziβ)+(1Yi)log(1h(Ziβ)))
模型参数的似然估计即为:
β ^ = arg max ⁡ l ( β ) \hat{\beta}=\argmax l(\beta) β^=argmaxl(β)

显然,对数似然函数由样本所决定,因此它的最大值点也完全由样本所决定,即似然估计 β ^ \hat{\beta} β^是一个统计量。

(三)二响应模型的优势

优势(Odds):一个事件发生的概率与其不发生的概率的比值。
二响应模型中的优势与解释变量的取值有关,他在x点的值为:
O ( x ) ≜ P ( Y = 1 ∣ X = x ) P ( Y = 0 ∣ X = x ) = P ( Y = 1 ∣ X = x ) 1 − P ( Y = 1 ∣ X = x ) O(x)\triangleq \frac{P(Y=1|X=x)}{P(Y=0|X=x)}=\frac{P(Y=1|X=x)}{1-P(Y=1|X=x)} O(x)P(Y=0∣X=x)P(Y=1∣X=x)=1P(Y=1∣X=x)P(Y=1∣X=x)
因此二响应模型的优势为:
O ( x ) ≜ h ( z β ) 1 − h ( z β ) O(x)\triangleq \frac{h(z\beta)}{1-h(z\beta)} O(x)1h(zβ)h(zβ)

对于逻辑回归型来说,优势为:
O ( x ) ≜ P ( Y = 1 ∣ X = x ) P ( Y = 0 ∣ X = x ) = e x p ( z β ) O(x)\triangleq \frac{P(Y=1|X=x)}{P(Y=0|X=x)}=exp(z\beta) O(x)P(Y=0∣X=x)P(Y=1∣X=x)=exp(zβ)
因此解释变量 x ( 1 ) x^{(1)} x(1) x ( 2 ) x^{(2)} x(2)的优势比为:
O ( x ( 1 ) ) O ( x ( 2 ) ) = e x p ( ( z ( 1 ) − z ( 2 ) ) β ) \frac{O(x^{(1)})}{O(x^{(2)})}=exp((z^{(1)}-z^{(2)})\beta) O(x(2))O(x(1))=exp((z(1)z(2))β)
因此在逻辑回归模型中, e x p ( ( z ( 1 ) − z ( 2 ) ) β ) exp((z^{(1)}-z^{(2)})\beta) exp((z(1)z(2))β) x ( 1 ) x^{(1)} x(1) x ( 2 ) x^{(2)} x(2)的的优势比,或等价地, x ( 1 ) x^{(1)} x(1)的优势是 x ( 2 ) x^{(2)} x(2)优势的 e x p ( ( z ( 1 ) − z ( 2 ) ) β ) exp((z^{(1)}-z^{(2)})\beta) exp((z(1)z(2))β)倍。其他二响应模型中, x ( 1 ) x^{(1)} x(1) x ( 2 ) x^{(2)} x(2)的优势比的计算更为复杂,这是人们喜欢用逻辑回归模型拟合二响应变量样本观测数据的一个原因

三、二响应模型参数的假设检验

二响应模型中模型参数的假设检验问题: H 0 : C β = ξ H_0:C\beta=\xi H0:=ξ

  • C C C是已知的 s × t s\times t s×t行满秩矩阵,称为限制矩阵
  • β = ( β 1 , . . . , β t ) T \beta=(\beta_1,...,\beta_t)^T β=(β1,...,βt)T是模型参数

(一)对数似然比检验方法

对数似然比统计量与原假设之间的关系:

  • 模型参数 β \beta β的限制似然估计量: β ~ = arg max ⁡ β : C β = ξ l ( β ) \tilde{\beta}=\argmax_{\beta:C\beta=\xi} l(\beta) β~=argmaxβ:=ξl(β)
  • 对数似然比统计量: λ ( Y , X ) = − 2 ( l ( β ~ − ( β ^ ) ) \lambda(Y,X)=-2(l(\tilde{\beta}-(\hat{\beta})) λ(Y,X)=2(l(β~(β^))
    • β ^ \hat{\beta} β^是极大似然估计量
    • ( Y , X ) (Y,X) (Y,X)为样本

λ ( Y , X ) = − 2 log ⁡ ( L ( β ~ ) L ( β ^ ) ) = 2 log ⁡ ( L ( β ^ ) L ( β ~ ) ) \lambda(Y,X)=-2\log(\frac{L(\tilde{\beta})}{L(\hat{\beta})})=2\log(\frac{L(\hat{\beta})}{L(\tilde{\beta})}) λ(Y,X)=2log(L(β^)L(β~))=2log(L(β~)L(β^))
显然满足限制条件 H 0 H_0 H0的似然函数局部最大值 β ~ \tilde{\beta} β~应该小于全局最大值 β ^ \hat{\beta} β^,全局最大值越接近限制最大值,就越有利于限制条件 H 0 H_0 H0的成立。即 λ ( X , Y ) \lambda(X,Y) λ(X,Y)越大,越不利于原假设。

检验方法:
H 0 H_0 H0成立时, λ ( X , Y ) ∼ a χ 2 ( r ) \lambda(X,Y)\overset{\text{a}}{\sim} \chi^2(r) λ(X,Y)aχ2(r),其中 r = r a n k ( C ) r=rank(C) r=rank(C)。进而可以通过对数似然比统计量的极限分布来近似计算p值:
p = P ( ξ > λ ( y , x ) ) p=P(\xi>\lambda(y,x)) p=P(ξ>λ(y,x))

  • 如果p小于 α \alpha α,则拒绝原假设,这种拒绝犯错误的概率不会超过 α \alpha α
  • 否则就接受原假设,即没有发现不利于 H 0 H_0 H0的证据

(二)Wald统计量

Wald统计量为 C β ^ C\hat{\beta} Cβ^ C β = ξ C\beta=\xi =ξ之间距离的加权平均:
W ( Y , X ) = ( C β ^ − ξ ) T ( C ( F ( β ^ ) ) − 1 C T ) − 1 ( C β ^ − ξ ) W(Y,X)=(C\hat{\beta}-\xi)^T(C(F(\hat{\beta}))^{-1}C^T)^{-1}(C\hat{\beta}-\xi) W(Y,X)=(Cβ^ξ)T(C(F(β^))1CT)1(Cβ^ξ)

  • β ^ \hat{\beta} β^是极大似然估计量
  • F − 1 ( β ^ ) F^{-1}(\hat{\beta}) F1(β^)为Fisher信息矩阵的逆矩阵
  • ( Y , X ) (Y,X) (Y,X)为样本

当原假设成立时,Wald统计:
W ( Y , X ) = ( β ^ − β ) C T ( C ( F ( β ^ ) ) − 1 C T ) − 1 C ( β ^ − β ) W(Y,X)=(\hat{\beta}-\beta)C^T(C(F(\hat{\beta}))^{-1}C^T)^{-1}C(\hat{\beta}-\beta) W(Y,X)=(β^β)CT(C(F(β^))1CT)1C(β^β)
是似然估计与真实参数 β \beta β的距离,这个距离越大越不利于原假设。

检验方法:
H 0 H_0 H0成立时, W ( Y , X ) ∼ a χ 2 ( r ) W(Y,X)\overset{\text{a}}{\sim} \chi^2(r) W(Y,X)aχ2(r),其中 r = r a n k ( C ) r=rank(C) r=rank(C)。进而可以通过对数似然比统计量的极限分布来近似计算p值:
p = P ( ξ > W ( y , x ) ) p=P(\xi>W(y,x)) p=P(ξ>W(y,x))

  • 如果p小于 α \alpha α,则拒绝原假设,这种拒绝犯错误的概率不会超过 α \alpha α
  • 否则就接受原假设,即没有发现不利于 H 0 H_0 H0的证据

(三)得分统计量

得分统计量:
U ( Y , X ) = s ( β ~ ) F − 1 ( β ~ ) ( s ( β ~ ) ) T U(Y,X)=s(\tilde{\beta})F^{-1}(\tilde{\beta})(s(\tilde{\beta}))^T U(Y,X)=s(β~)F1(β~)(s(β~))T

  • s s s为得分函数
  • β ~ \tilde{\beta} β~为限制极大似然估计
  • F − 1 ( β ~ ) F^{-1}(\tilde{\beta}) F1(β~)为Fisher信息矩阵的逆矩阵在限制极大似然估计点处的值

一般情况下得分统计量越小, s ( β ~ ) s(\tilde{\beta}) s(β~)与0越接近,导致 β ~ \tilde{\beta} β~与似然方程的解 β ^ \hat{\beta} β^越接近,从而 H 0 H_0 H0成立的可能性越大。
检验方法:
H 0 H_0 H0成立时, U ( Y , X ) ∼ a χ 2 ( r ) U(Y,X)\overset{\text{a}}{\sim} \chi^2(r) U(Y,X)aχ2(r),其中 r = r a n k ( C ) r=rank(C) r=rank(C)。进而可以通过对数似然比统计量的极限分布来近似计算p值:
p = P ( ξ > W ( y , x ) ) p=P(\xi>W(y,x)) p=P(ξ>W(y,x))

  • 如果p小于 α \alpha α,则拒绝原假设,这种拒绝犯错误的概率不会超过 α \alpha α
  • 否则就接受原假设,即没有发现不利于 H 0 H_0 H0的证据

(四)模型参数分量是否为0的检验

实际应用时会经常关心模型参数的第 i i i分量 β i \beta_i βi是否为0,如果为0,就说明响应变量与设计向量的第 i i i个分量没有关系,否则响应变量就与设计向量的第i个分量有关系。
H 0 : β i = 0 H_0:\beta_i=0 H0:βi=0
这个假设检验问题可以使用似然比统计、Wald统计量或得分统计量来简答,但是也有更简单的统计量:
T i ( X , Y ) = β ^ i a i i T_i(X,Y)=\frac{\hat{\beta}_i}{\sqrt{a_{ii}}} Ti(X,Y)=aii β^i
其中, a i i a_{ii} aii F ( β ^ ) ) − 1 F(\hat{\beta}))^{-1} F(β^))1的对角线上的第i个元素。并且在一般情况下, ∣ T i ( X , Y ) ∣ |T_i(X,Y)| Ti(X,Y)越大,越不利于原假设。

检验方法:
H 0 H_0 H0成立时,即 β i = 0 \beta_i=0 βi=0时, T i = β ^ i a i i ∼ a N ( 0 , 1 ) T_i=\frac{\hat{\beta}_i}{\sqrt{a_{ii}}}\overset{\text{a}}{\sim} N(0,1) Ti=aii β^iaN(0,1),其中 r = r a n k ( C ) r=rank(C) r=rank(C)。进而可以通过对数似然比统计量的极限分布来近似计算p值:
p = P ( ∣ ξ ∣ > ∣ T i ( x , y ) ∣ ) p=P(|\xi|>|T_i(x,y)|) p=P(ξ>Ti(x,y))

  • 如果p小于 α \alpha α,则拒绝原假设,即 β i ≠ 0 \beta_i\neq 0 βi=0,这种拒绝犯错误的概率不会超过 α \alpha α
  • 否则就接受原假设 β i = 0 \beta_i=0 βi=0,即没有发现不利于 H 0 H_0 H0的证据

(五)四种检验统计量的特点与应用

  • 对数似然比统计量同时依赖于似然估计量和限制似然估计量,其值的计算量大
  • Wald统计量仅依赖于无限制似然估计量 β ^ \hat{\beta} β^,其值的计算量小,适用于前推式变量筛选
  • 得分统计量仅依赖于限制似然估计量 β ~ \tilde{\beta} β~,计算量较小,常用于后推式变量筛选
  • 统计量 T i T_i Ti用于解答假设检验问题

四、二响应模型的拟合优度统计量

(一)样本观测数据的表示方法

  • 不分组样本观测数据(不分组数据): ( Y , X ) (Y,X) (Y,X)的原始观测数据 ( y i , x i ) , i = 1 , . . . , n (y_i,x_i),i=1,...,n (yi,xi),i=1,...,n
  • 分组相应均值数据(分组数据):当观测数据的解释变量中仅有 g g g个不同取值 v 1 , . . . , v g v_1,...,v_g v1,...,vg时,可用将样本观测数据表示为 ( n k , y k ˉ , v k ) , k = 1 , . . . , g (n_k,\bar{y_k},v_k),k=1,...,g (nk,ykˉ,vk),k=1,...,g
    • n k n_k nk为数据中 v k v_k vk的频数
    • y k ˉ \bar{y_k} ykˉ为数据中解释变量为 v i v_i vi的响应变量的算术平均值

(二)皮尔逊统计量

皮尔逊统计量是衡量二响应广义线性模型拟合效果的指标之一:
χ 2 = ∑ k = 1 g n k ( Y k ˉ − h ( Z ( v k ) β ^ ) ) 2 h ( Z ( v k ) β ^ ) ( 1 − h ( Z ( v k ) β ^ ) ) ∼ a χ 2 ( g − p ) \chi^2=\sum_{k=1}^g\frac{n_k(\bar{Y_k}-h(Z(v_k)\hat{\beta}))^2}{h(Z(v_k)\hat{\beta})(1-h(Z(v_k)\hat{\beta}))}\overset{\text{a}}{\sim} \chi^2(g-p) χ2=k=1gh(Z(vk)β^)(1h(Z(vk)β^))nk(Ykˉh(Z(vk)β^))2aχ2(gp)
其中:
Y k ˉ = 1 n k ∑ i = 1 n 1 { v k } ( X i ) Y i , 1 ≤ k ≤ g \bar{Y_k}=\frac{1}{n_k}\sum_{i=1}^n1_{\{v_k\}}(X_i)Y_i,1\leq k\leq g Ykˉ=nk1i=1n1{vk}(Xi)Yi,1kg
在皮尔逊统计量中, Y k ˉ − h ( Z ( v k ) β ^ ) \bar{Y_k}-h(Z(v_k)\hat{\beta}) Ykˉh(Z(vk)β^)是频率与概率估计值之差, D ^ ( Y k ˉ ) = h ( Z ( v k ) β ^ ) ( 1 − h ( Z ( v k ) β ^ ) ) n k \hat{D}(\bar{Y_k})=\frac{h(Z(v_k)\hat{\beta})(1-h(Z(v_k)\hat{\beta}))}{n_k} D^(Ykˉ)=nkh(Z(vk)β^)(1h(Z(vk)β^)) D ( Y k ˉ ) D(\bar{Y_k}) D(Ykˉ)的估计值,显然: ( Y ˉ k − h ( Z ( v k ) β ^ ) ) 2 D ^ ( Y k ˉ ) \frac{(\bar{Y}_k-h(Z(v_k)\hat{\beta}))^2}{\hat{D}(\bar{Y_k})} D^(Ykˉ)(Yˉkh(Z(vk)β^))2越小,说明用 h ( Z ( v k ) β ^ ) h(Z(v_k)\hat{\beta}) h(Z(vk)β^)估计 P ( Y ∣ X = v k ) P(Y|X=v_k) P(YX=vk)的效果越好。因此可以用其和 χ 2 \chi^2 χ2来衡量广义线性模型的拟合效果:皮尔逊统计量 χ 2 \chi^2 χ2越小,拟合的效果越好。

对于分组数据,皮尔逊计量要求各个 n k n_k nk都很大的情况效果才会好,当 n i n_i ni很小,甚至等于1的情况,皮尔逊统计量比较模型的效果会很差。

(三)偏差统计量

当解释变量可能取值为 v 1 , . . . , v g v_1,...,v_g v1,...,vg时, 1 = ∑ k = 1 g 1 { v k } ( X i ) 1=\sum_{k=1}^g1_{\{v_k\}}(X_i) 1=k=1g1{vk}(Xi),因此对数似然函数可以表达为:
l ( β ) = ∑ i = 1 n ∑ k = 1 g 1 { v k } ( X i ) ( Y i log ⁡ h ( Z ( X i ) β ) + ( 1 − Y i ) log ⁡ ( 1 − h ( Z ( X i ) β ) ) ) = ∑ i = 1 n ∑ k = 1 g 1 { v k } ( X i ) ( Y i log ⁡ h ( Z ( v k ) β ) + ( 1 − Y i ) log ⁡ ( 1 − h ( Z ( v k ) β ) ) ) \begin{aligned} l(\beta)=&\sum_{i=1}^n\sum_{k=1}^g1_{\{v_k\}}(X_i)(Y_i\log h(Z(X_i)\beta)+(1-Y_i)\log (1-h(Z(X_i)\beta)))\\ =&\sum_{i=1}^n\sum_{k=1}^g1_{\{v_k\}}(X_i)(Y_i\log h(Z(v_k)\beta)+(1-Y_i)\log (1-h(Z(v_k)\beta)))\\ \end{aligned} l(β)==i=1nk=1g1{vk}(Xi)(Yilogh(Z(Xi)β)+(1Yi)log(1h(Z(Xi)β)))i=1nk=1g1{vk}(Xi)(Yilogh(Z(vk)β)+(1Yi)log(1h(Z(vk)β)))

n k = ∑ i = 1 n 1 { v k } ( X i ) , Y k ˉ = 1 n k ∑ i = 1 n 1 { v k } ( X i ) Y i n_k=\sum_{i=1}^n1_{\{v_k\}}(X_i),\ \bar{Y_k}=\frac{1}{n_k}\sum_{i=1}^n1_{\{v_k\}}(X_i)Y_i nk=i=1n1{vk}(Xi), Ykˉ=nk1i=1n1{vk}(Xi)Yi,则可以用分组样本将似然函数表达为:
l ( β ) = ∑ k = 1 g n k ( Y k ˉ log ⁡ h ( Z ( v k ) β ) + ( 1 − Y k ˉ ) log ⁡ ( 1 − h ( Z ( v k ) β ) ) ) l(\beta)=\sum_{k=1}^gn_k(\bar{Y_k}\log h(Z(v_k)\beta)+(1-\bar{Y_k})\log (1-h(Z(v_k)\beta))) l(β)=k=1gnk(Ykˉlogh(Z(vk)β)+(1Ykˉ)log(1h(Z(vk)β)))
记: f i ( u ) = ( Y k ˉ log ⁡ u + ( 1 − Y k ˉ ) log ⁡ ( 1 − u ) ) , u ∈ ( 0 , 1 ) , 1 ≤ i ≤ g f_i(u)=(\bar{Y_k}\log u+(1-\bar{Y_k})\log (1-u)),u\in(0,1),1\leq i\leq g fi(u)=(Ykˉlogu+(1Ykˉ)log(1u)),u(0,1)1ig,则有:
d f i ( u ) d u = Y ˉ i u + 1 − Y ˉ i 1 − u = Y ˉ i − u u ( 1 − u ) \frac{df_i(u)}{du}=\frac{\bar{Y}_i}{u}+\frac{1-\bar{Y}_i}{1-u}=\frac{\bar{Y}_i-u}{u(1-u)} dudfi(u)=uYˉi+1u1Yˉi=u(1u)Yˉiu
所以 f i ( u ) ≤ f i ( Y ˉ i ) , u ∈ ( 0 , 1 ) f_i(u)\leq f_i(\bar{Y}_i),u\in(0,1) fi(u)fi(Yˉi),u(0,1)

由于 h ( Z ( v k ) β ^ ) h(Z(v_k)\hat{\beta}) h(Z(vk)β^) Y k ˉ \bar{Y_k} Ykˉ都是概率 P ( Y = 1 ∣ X = v i ) P(Y=1|X=v_i) P(Y=1∣X=vi)的估计,并且:
lim ⁡ n i → ∞ Y ˉ i = P ( Y = 1 ∣ X = v i ) \lim_{n_i\rightarrow ∞}\bar{Y}_i=P(Y=1|X=v_i) nilimYˉi=P(Y=1∣X=vi)
因此当 n i n_i ni充分大时, f i ( Y i ˉ ) − f i ( h ( Z ( v i ) β ^ ) f_i(\bar{Y_i})-f_i(h(Z(v_i)\hat{\beta}) fi(Yiˉ)fi(h(Z(vi)β^)越小,用 Z ( v i ) β ^ Z(v_i)\hat{\beta} Z(vi)β^估计 P ( Y = 1 ∣ X = v i ) P(Y=1|X=v_i) P(Y=1∣X=vi)的效果越好。因此人们常用偏差统计量:
D ( X , Y ) ≜ − 2 ∑ i = 1 g n i ( f i ( h ( Z ( v i ) β ^ ) ) − f i ( Y ˉ i ) ) D(X,Y)\triangleq-2\sum_{i=1}^gn_i(f_i(h(Z(v_i)\hat{\beta}))-f_i(\bar{Y}_i)) D(X,Y)2i=1gni(fi(h(Z(vi)β^))fi(Yˉi))
来衡量模型的拟合效果,偏差统计量的值越小,拟合效果也就越好。

五、全模型与子模型

设计向量中,人们通常称1为常数项,称解释变量的分量为主效应量,将解释变量的k个分量的乘积成为这k个分量的k阶交互作用项。
设计向量: Z ( x ) = ( 1 , x 1 , x 2 , x 3 , x 1 x 2 , x 1 x 3 , x 2 x 3 ) Z(x)=(1,x_1,x_2,x_3,x_1x_2,x_1x_3,x_2x_3) Z(x)=(1,x1,x2,x3,x1x2,x1x3,x2x3)中包含了所有的主效应项和所有的2阶交互作用项。

若设计向量 V ~ \tilde{V} V~是设计向量 V V V的子向量,则称 V V V所对应模型为 V ~ \tilde{V} V~所对应模型的全模型或父模型,称 V ~ \tilde{V} V~所对应模型为 V V V所对应模型的子模型。如二响应逻辑回归模型 l o g i t ( E ( Y ∣ X ) ) = ( 1 , x 3 , x 1 x 3 ) α logit(E(Y|X))=(1,x_3,x_1x_3)\alpha logit(E(YX))=(1,x3,x1x3)α是全模型 l o g i t ( E ( Y ∣ X ) ) = ( 1 , x 1 , x 2 , x 3 , x 1 x 2 , x 1 x 3 , x 2 x 3 ) β logit(E(Y|X))=(1,x_1,x_2,x_3,x_1x_2,x_1x_3,x_2x_3)\beta logit(E(YX))=(1,x1,x2,x3,x1x2,x1x3,x2x3)β的子模型。当全模型的模型参数一些分量为0时,全模型就变为子模型。

在选择使用全模型还是子模型拟合数据时,可以通过全模型参数的假设检验问题来进行探索:
H 0 : β 1 = β 2 = β 1 , 2 = β 2 , 3 = 0 H_0:\beta_1=\beta_2=\beta_{1,2}=\beta_{2,3}=0 H0:β1=β2=β1,2=β2,3=0

事实上,当模型参数估计的多个分量的p值都超过显著水平时,直接在设计向量中剔除这些分量所得的子模型的你和效果可能会很差。

变量选择问题:

  • AIC准则: A I C = 2 p − 2 l ( β ^ ) AIC=2p-2l(\hat{\beta}) AIC=2p2l(β^),在子模型中选择AIC值最小的模型拟合数据。对于全模型,人们常用逐步回归法选择最优子模型。
    • 令设计向量 Z = ( 1 , Z 1 , . . . , Z k ) Z=(1,Z_1,...,Z_k) Z=(1,Z1,...,Zk),计算模型 E ( Y ∣ X ) = h ( Z β ) E(Y|X)=h(Z\beta) E(YX)=h()的AIC的值 a n o n e a_{none} anone
    • 对于 1 ≤ i ≤ k 1\leq i\leq k 1ik,删除 Z Z Z的第 i + 1 i+1 i+1分量得子向量: Z ( i ) = ( 1 , Z 1 , . . . , Z i − 1 , Z i + 1 , Z k ) Z^{(i)}=(1,Z_1,...,Z_{i-1},Z_{i+1},Z_k) Z(i)=(1,Z1,...,Zi1,Zi+1,Zk),计算模型 E ( Y ∣ X ) = h ( Z ( i ) β ( i ) ) E(Y|X)=h(Z^{(i)}\beta^{(i)}) E(YX)=h(Z(i)β(i))的AIC的值 a i a_{i} ai
    • a n o n e ≤ m i n { a 1 , . . . a k } a_{none}\leq min\{a_1,...a_k\} anonemin{a1,...ak},结束运算;否则,寻找 a 1 , . . . a k a_1,...a_k a1,...ak中最小者 a m a_m am,令 k = k − 1 , Z = Z ( m ) k=k-1,Z=Z^{(m)} k=k1,Z=Z(m),跳转到第一步
  • 另外也可以通过假设检验来考察最优子模型与全模型间是否有差异。

一般来说,最优逻辑回归模型的选择思路可以是:从设计向量出发,利用逐步回归方法获取最优子模型,通过一个分类变量的哑变量编码拓展最优子模型的设计向量,用拓展设计向量替代,重复上述过程,得到最终选择模型。

六、响应变量的预报

依据均方误差准则,应该用条件期望预报随机变量的值,但是二响应线性回归模型的条件期望的值是小数,实际应用中希望得到的预报却应该为0或1,因此需要通过一些特殊方式来实现响应变量的预报。

(一)阈值

核心思想: 通过 Y ^ c = 1 { h ( Z ( x ) β ) > c } \hat{Y}_c=1_{\{h(Z(x)\beta)>c\}} Y^c=1{h(Z(x)β)>c}来预报响应变量,称c为阈值。

阈值的确定:

  • 根据极大似然的原理得到预报规则:如果 P ( Y = 1 ∣ X = x ) ≥ P ( Y = 1 ∣ X = x ) P(Y=1|X=x)\geq P(Y=1|X=x) P(Y=1∣X=x)P(Y=1∣X=x),就预报响应变量的值为1,否则预报为0,因此极大似然预报公式即为:
    Y ^ c = 1 { h ( Z ( x ) β ) > 0.5 } \hat{Y}_c=1_{\{h(Z(x)\beta)>0.5\}} Y^c=1{h(Z(x)β)>0.5}

Y ^ c \hat{Y}_c Y^c的预报效果:

  • 总体误报率: E ( ∣ Y ^ c − Y ∣ ) E(|\hat{Y}_c-Y|) E(Y^cY)的值越小,说明预报效果越好。
  • 样本预报率: f = 1 n ∑ i = 1 n ∣ Y i − Y ^ i ∣ f=\frac{1}{n}\sum_{i=1}^n|Y_i-\hat{Y}_i| f=n1i=1nYiY^i
  • 误报率与响应变量 Y 1 , . . . , Y n Y_1,...,Y_n Y1,...,Yn中1的比例有关,因此不宜用这一指标衡量预报效果。

(二)ROC曲线

二响应广义线性模型常常关心预报值1是否为误报,即真值1和0是否能够被正确预报出来。

  • TP:n次预报中真值为1预报值也为1的预报次数
  • FN:n次预报中真值为1预报值为0的预报次数
  • FP:n次预报中真值为0预报值为1的预报次数
  • TN:n次预报中真值为0预报值也为0的预报次数

T P R ≜ T P T P + F N , F P R ≜ F P F P + T N TPR\triangleq \frac{TP}{TP+FN},\ FPR\triangleq \frac{FP}{FP+TN} TPRTP+FNTP, FPRFP+TNFP

  • TPR是真值1被预报成功的频率,称为真正类率,我们希望它尽可能大
  • FPR是真值0被预报成1的频率,称为假正类率,我们希望它越小越好

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/24813.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何在Windows 11中恢复丢失的快速访问菜单?这里提供解决办法

序言 在电脑的“快速访问”菜单中找不到固定的项目?或者,整个菜单对你来说已经消失了吗?无论哪种方式,你都可以强制你的电脑恢复菜单并显示其中的所有项目。以下是如何在你的Windows 11电脑上做到这一点。 将文件资源管理器设置为打开到主页 当你在文件资源管理器的左侧…

分享飞行棋夫妻互动游戏高阶版,揭秘夫妻飞行棋游戏玩法!

朋友们,今天我要给你们介绍一款超级甜蜜的小游戏——情侣飞行棋。别小看它,这可不是咱们小时候玩的那种,这是专门为咱们这些恩爱的小两口设计的,能让你们的感情在游戏中更加甜蜜蜜,擦出更多爱的火花。 准备好了吗&…

力扣96 不同的二叉搜索树 Java版本

文章目录 题目描述代码 题目描述 给你一个整数 n ,求恰由 n 个节点组成且节点值从 1 到 n 互不相同的 二叉搜索树 有多少种?返回满足题意的二叉搜索树的种数。 示例 1: 输入:n 3 输出:5 示例 2: 输入…

鸿蒙低代码开发一个高频问题

在版本是DevEco Studio 3.1.1 Release,SDK是3.1.0(API9)。 创建和设计的visual文件经常会遇到无法渲染的情况,或者自定义组件在Custom列表中突然不见了的情况。 有以下报错信息的: JSON schema validation error: data/visualModel/value/…

springboot + Vue前后端项目(第十五记)

项目实战第十五记 写在前面1.后端接口实现1.1 用户表添加角色字段1.2 角色表增加唯一标识字段1.3 UserDTO1.4 UserServiceImpl1.5 MenuServiceImpl 2. 前端实现2.1 User.vue2.2 动态菜单设计2.2.1 Login.vue2.2.2 Aside.vue 2.3 动态路由设计2.3.1 菜单表新增字段page_path2.3.…

【Windows】Revo Uninstaller Pro(卸载工具) v5.2.6 绿色版软件介绍

软件介绍 Revo Uninstaller Pro是一款功能强大的软件卸载工具,它可以帮助用户彻底地清理和卸载计算机上的程序。以下是Revo Uninstaller Pro的一些主要特点: 强大的卸载功能:Revo Uninstaller Pro可以代替操作系统的自带卸载程序&#xff0c…

用QT6、QML、FFMPEG写一个有快进功能的影音播放程序

程序如图: 开发环境在ubuntu下,如果改windows下,也就改一下cmakelists.txt。windows下如何配置ffmpeg以前的文章有写,不再重复。 源程序如下: GitHub - wangz1155/ffmpegAudioThread: 用qt6,qml&#xff…

SpringBoot+Vue甘肃非物质文化网站(前后端分离)

技术栈 JavaSpringBootMavenMySQLMyBatisVueShiroElement-UI 系统角色对应功能 用户管理员 系统功能截图

HTTP-web服务器

web服务器 web服务器实现了http和相关的tcp连接处理,负责管理web服务器提供的资源,以及对服务器的配置,控制以及拓展等方面的管理 web服务器逻辑实现了http协议,并负责提供web服务器的管理功能,web服务器逻辑和操作系…

用幻灯片讲解内存分配器Allocator

用幻灯片讲解内存分配器Allocators Allocators 分配器 提供内存分配策略的通用接口委托给 C 运行时:new / delete块内存池不同大小的块内存池 为什么用分配器? 将容器逻辑与内存分配策略解耦速度:内存分配速度慢确保有足够的内存可用确保所需的内…

C语言详解(动态内存管理)2

Hi~!这里是奋斗的小羊,很荣幸您能阅读我的文章,诚请评论指点,欢迎欢迎 ~~ 💥💥个人主页:奋斗的小羊 💥💥所属专栏:C语言 🚀本系列文章为个人学习…

配网终端通讯管理板,稳控装置通讯管理卡,铁路信号通讯管理卡

配网终端通讯管理板 ● 配网终端通讯管理板 ● ARM Cortex™-A5 ,533MHz ● 256MB RAM,512MB FLASH 配网终端通讯管理板 ARM Cortex™-A5 ,533MHz 256MB RAM,512MB FLASH 2x10/100/1000Mbps LAN(RJ45) 6x…

Redis 内存回收

文章目录 1. 过期key处理1.1 惰性删除1.2 周期删除 2. 内存淘汰策略 Redis 中数据过期策略采用定期删除惰性删除策略结合起来,以及采用淘汰策略来兜底。 定期删除策略:Redis 启用一个定时器定时监视所有的 key,判断key是否过期,过…

Linux安装Qt5.14.2

下载 qt 5.14.2下载网址 下载qt-opensource-linux-x64-5.14.2.run Linux系统下载.run文件(runfile文件),windows系统下载.exe文件,mac系统下载.dmg文件。 md5sums.txt中是各个文件对应的MD5校验码。 验证MD5校验码 md5sum是li…

Elasticsearch之深入聚合查询

1、正排索引 1.1 正排索引(doc values )和倒排索引 概念:从广义来说,doc values 本质上是一个序列化的 列式存储 。列式存储 适用于聚合、排序、脚本等操作,所有的数字、地理坐标、日期、IP 和不分词( no…

指针(初阶1)

一.指针是什么 通俗的讲,指针就是地址,其存在的意义就像宾馆房间的序号一样是为了更好的管理空间。 如下图: 如上图所示,指针就是指向内存中的一块空间,也就相当于地址 二.一个指针的大小是多少 之前我们学习过&#x…

数据结构之ArrayList与顺序表(下)

找往期文章包括但不限于本期文章中不懂的知识点: 个人主页:我要学编程(ಥ_ಥ)-CSDN博客 所属专栏:数据结构(Java版) 目录 ArrayList的具体使用 118. 杨辉三角 扑克洗牌算法 接上篇:数据结构之ArrayLis…

【Python列表解锁】:掌握序列精髓,驾驭动态数据集合

文章目录 🚀一、列表🌈二、常规操作💥增💥删💥改💥查 ⭐三、补充操作 🚀一、列表 列表是一个能够存储多个同一或不同元素的序列 列表:list ---- [] 列表属于序列类型(容器…

【Java面试】十二、Kafka相关

文章目录 1、Kafka如何保证消息不丢失1.1 生产者发消息到Brocker丢失:设置异步发送1.2 消息在Broker存储时丢失:发送确认机制1.3 消费者从Brocker接收消息丢失1.4 同步 异步组合提交偏移量 2、Kafka如何保证消费的顺序性3、Kafka高可用机制3.1 集群模式…

深度搜索算法2(c++)

红与黑 题目描述 有一间长方形的房子,地上铺了红色、黑色两种颜色的正方形瓷砖。你站在其中一块黑色的瓷砖上,只能向相邻的黑 色瓷砖移动。请写一个程序,计算你总共能够到达多少块黑色的瓷砖。 输入 包括多组数据。每组数据的第一行是两个…