现若变量Y与x_1、x_2有回归模型:
Y=1+4x_1+3x_2。
我们可以采用因式分解法把上面模型中的4x_1分解成两部分的和,这样可以列出若干种分解方法,我们取其中两种,得到下列两种等价的形式:
Y=1+4x_1+3x_2=1+x_1+3x_1+3x_2, (2。2)
Y=1+4x_1+3x_2=1+8x_1-4x_1+3x_2。 (2。3)
将(2。1)式x_1=3x_2+2分别代入方程(2。2)中的3x_1和方程(2。3)中的4x_1,可以得到以下两个方程:
Y=1+x_1+3x_1=1+x_1+3(3x_2+2)+3x_2=7+x_1+12x_2, (2。4)
Y=1+8x_1-4x_1+3x_2=1+8x_1-(3x_2+2)+3x_2=7+8x_1-9x_2。 (2。5)
在(2。4)中,x_2的系数为12,表示Y与x_2成正比例关系,即正相关;而在(2。5)中,x_2的系数为-9,表示Y与x_2成负比例关系,即负相关。如此看来,同一个方程Y=1+4x_1+3x_2变换出的两个等价方程,由于不同的因式分解和替换,导致两个方程两种表面上矛盾的结果。文献综述
实际上,根据x_1=3x_2+2式中的x_1与x_2的共线性,x_1约相当于3x_2,在(2。4)减少了3x_1,即需要用9个x_2来补偿;而在(2。5)增加了4x_1,需要用12个x_2来抵消,以便保证两个方程的等价性,这样一来使得(2。5)中x_2的系数变为了负数。从上述分析看来,由于x_1与x_2的共线性,使得同一个方程有不同的表达形式,从而使得Y与x_2间的关系难以用系数解释。
2。1对复共线性关系的初步估计与识别
如果在实际应用中产生了如下情况之一,则可能是由于复共线性的存在而造成的,需作进一步的分析诊断[1]。
①增加(或减去)一个变量或增加(或剔除)一个观察值,回归系数发生了较大变化。
②实际经验中认为重要的自变量的回归系数检验不显著。
③回归系数的正负号与理论研究或经验相反。
④在相关矩阵中,自变量的相关系数较大。
⑤自变量回归系数可信区间范围较广等。
3 对复共线性本质的认识
复共线性可分为完全复共线性和近似复共线性(或称高度相关性),现在我们集中讨论复共线性的本质问题。复共线性普遍被认为是数据问题或者说是一种样本现象。我们认为,这种普遍认识不够全面,对复共线性本质的认识,至少可从以下几方面解解。
3。1 复共线性是由变量之间的性质引起的
这一认识沿袭了传统经济计量学对复共线性的认识,而现经济计量学否定了这一认识。我们认为这种否定还需斟酌。
首先,在完全共线情况下,例如研究消费C与总收入T、工资收入S和非劳动收入N之间的关系,设定模型为:
C=β_0+β_1 N+β_2 S+β_3 T+ε。 (3。1)
式中解释变量T=N+S恒成立。这种共线性的发生与数据取样多少、数据观察有无误差均无关系,因为复共线性完全是由变量间的性质引起的。
其次,在高度相关的情况下,比如研究税收额y与总产值x_1与增加值x_2、税率x_3之间的关系,设定模型为:
y=β_0+β_1 x_1+β_2 x_2+β_3 x_3+ε。 (3。2)
式中,两个重要的宏观经济总量指标,总产值 与增加值 必定高度相关,因为总产值x_1=c+v+m,增加值x_2=c_1+v+m,而c=c_1+c_2(c_1为固定资产折旧,c_2为原材料转移价值),这时不管数据以什么形式取得,数据取样是大是小,都会出现解释变量x_1与x_2高度相关。因此,变量之间的性质是导致复共线性的重要原因。