星星_品职助教 · 2021年02月07日
同学你好,
以Y=b0+b1X1+b2X2+ε为例,多重共线性指的是X1和X2之间存在强相关关系(所以应该去掉其中的一个)。
①t检验
如果对X1,和X2分别做t检验,会发现结果都是不显著(不能拒绝系数为0的原假设)。
这是因为X1和X2相关性很强,所以X1就可以被X2代替。所以检验b1时,发现X1这个变量没有存在的意义,t统计量算出来会非常小,检验结果无法拒绝原假设(相当于b1=0,即X1(或b1X1)可以不存在)。
同理,检验b2时也会发现X2这个变量没有存在的必要,b2对应的t统计量算也非常小
所以多重共线性会导致所有强相关的X对应的t检验都不显著。
②F检验
F检验的是方程“整体”是否成立,虽然X1和X2可以认为是同一个东西,但X1(或X2)还是可以解释Y的。所以方程作为整体是成立的,F检验显著。
(如果F检验不显著,那说明的是变量选错了,就不是多重共线性的问题了。)
③R-squared
R-squared表示方程对Y的解释力度,和第②点类似,由于Y还是可以被X1(或X2)解释的,所以R-squared也很高。
(同②,如果方程的R-squared很小,那还是变量选错的问题,不是多重共线性的问题)
所以多重共线性就导致t-test不显著,F-test显著,R-squared很大。