对计量经济学初学者而言,OLS原理的矩阵表示通常令人“发怵”。其原因主要在于,至少在财经类课程体系中,关于矩阵微分的先行课程是缺失的。鉴于计量经济学的进阶课程大多采用矩阵语言,笔者认为有必要专文论述如何“搞掂”关于OLS原理的矩阵方法,以降低后续学习的门槛。
一、从OLS的基本原理谈起
对于多元回归模型(1):OLS原理就是,选择参数估计值以使得残差平方和最小,即:若定义目标函数为Q,则由上述最优化问题的一阶条件可形成一个包括k+1个正规方程的方程组。 求解上述正规方程组(3),即获得各个参数的OLS估计量。现在若我们引入向量与矩阵定义:则多元回归模型(1)可表示为:最优化问题(2)可表示为:正规方程组(3)可表示为:二、矩阵微分规则的引出与应用
我们考察式(6)。在这里,与0是k+1维列向量。用式(6)来描述正规方程组(3),看似十分平凡,但其实隐含了一个关于矩阵微分的一般规则:一个标量对一个m维列向量求导,等价于该标量对这个m维列向量中的每一个元素求导,其求导结果是一个m维列向量。这是一个简单而重要的规则,接下来我们将反复利用此规则。最优化问题(5)的目标函数Q可进一步展开成:由于标量Q只可能被分解成标量,式(7)中最后一个等号右边的四项均为标量,并且有:根据式(8),我们需依次解决四个问题:(一)
标量,其不是中任何元素的函数。因此,有:从形式上看,式(9)与我们在《微积分》课程中所熟悉的微分规则是一致的,其中为常数,为变量。这里的0是标量,而式(9)中的0是k+1维列向量。(二)
由于为标量,而为k+1维列向量,我们可迅速判断为k+1维行向量。若定义:,则。显然有:从形式上看,式(10)与我们在《微积分》课程中所熟悉的微分规则是一致的。关键的差别在于,在式(10)中,不能同那样,被直接置于等号右边——为了满足矩阵微分规则,我们还需对其进行转置处理,以使其变为一个列向量。(三)
敏锐的读者会发现,由于标量的转置等于标量本身,即有:故有:当然,我们还可将标量中的因式定义为列向量,从而有:。因此,。从形式上看,式(12)与我们在《微积分》课程中所熟悉的微分规则是一致的。重要的是,在这里,能同那样,被直接置于等号右边。如此处理满足矩阵微分规则,原因在于是一个列向量。(四)
现在我们碰到了棘手的问题——在中,出现了两次。但非常幸运的是,对问题(一)、(二)与(三)的讨论已暗示,这个求导结果也应该与传统的微分规则具有一定的一致性。关于函数积的微分规则表明:参照式(13)中第二个等号右边的表达式,我们可以猜测:在这里,我们很容易注意到:为列向量;为行向量。为了满足矩阵微分规则,我们需要对行向量取转置,以将其转化为列向量。在回答问题(一)、(二)与(三)时,我们对相应的矩阵微分规则进行了具体的验证。当然我们也可以验证式(14)是成立的,但由于比较复杂,在此略去。三、OLS估计量的“三步”记忆法及启示将式(9)、(10)、(12)、(14)带入式(8),并结合式(6),有:进而有:假定的逆存在,则有:(一)“三步”记忆法
我们可通过如下“三步”来记忆式(17):Step1:。注意,等式两边左乘而不是。考虑矩阵的维数,显然是无意义的。Step2:。前提是存在。Step3:省略,则有。既然两者近似相等,那么就以作为的估计量。(二)启示
如果能省略,那么意味着。但这有何依据呢?为了回答此问题,我们来考察列向量:由式(18)可知,若式(19)成立,则省略就是比较合理的。那么,式(19)意味着什么呢?很容易发现,其意味着:第一,误差项的样本均值近似为零;第二,误差项与任何一个解释变量均近似地样本不相关。现在的问题是,上述两个结论成立吗?答案是,若“误差项期望值等于零”与“误差项与任意解释变量均不相关”这两大假定成立,则上述两个结论至少在大样本下是成立的。原因在于,这两大假定是两个总体矩条件,上述两个结论其实是相应的样本矩条件,而根据矩估计原理,样本矩是对总体矩的一致估计。根据上述讨论,我们可以获得两大启示:第一,给定上述两个假定成立,OLS估计本质上是矩估计的特例;第二,如果上述两个假定不成立,那么OLS估计量就不会是对真实参数向量比较“靠谱”的估计。反过来这意味着,上述两大假定成立,对于保证OLS估计量具有良好性质至关重要。四、如何保证存在?存在,表明是一个的满秩方阵,亦即×:。按照矩阵理论有:,故这进一步意味着,作为一个的矩阵,秩等于k+1,亦即必须列满秩。满足列满秩假定,意味着构成的k+1个列向量线性无关——这k+1个列向量中的任何一个向量,均不能是其余列向量的线性组合。若此假定被违背,则出现完全共线情况,此时不存在,OLS法失效。在此我们列举一个不满足列满秩假定的例子。对于模型(20):假设,则矩阵中的第一个列向量是后两个列向量的线性组合,故三个列向量完全共线,不具有列满秩性质。此时一个与原模型等价的新模型是:在这里,为任意常数。。现在我们不妨问这样一个问题,如果真能够将对与进行回归,那么回归结果所估计的到底是式(20)还是式(21)呢?显然,我们无法确定。用计量经济学术语来讲,就是当不满足列满秩假定时,模型(20)或者(21)是无法被识别的。值得指出的是,不满足列满秩假定的一个特殊例子是,样本容量小于待估计参数的数量。例如,对于模型(20),其有三个参数需要估计。假定我们仅有两个观测值,那么将是一个2×3的矩阵,其秩最大为2,故不满足列满秩假定。其实,从直觉上很容易理解,模型(20)的样本回归方程代表一个平面,而要确定一个平面,至少需要3个点(观测值)。五、回到一元线性回归模型对于一元回归模型(22):此时,矩阵由列向量与构成,矩列满秩假定成立表明:,其中为任意常数。亦即,变量的N次观测值不能为一个常数。对于一元线性回归模型,斜率估计量的公式为:显然,若变量的N次观测值为一个常数,则,而这是一个不定型。我们从直觉上很容易理解,当变量的N次观测值为一个常数时,由于缺乏对照,变量对的影响是根本无法被识别的。·END·