分享

互助问答第140期:关于多重共线性的问题

 新用户68639482 2020-04-07

尊敬的老师:

您好!

面板数据,模型中原有自变量x1和x2,引入交互项x1x2后(模型为y = a1x1+ a2x2+ a3x1x2,其中a1、a2、a3为自变量的系数):

(1)面板数据,在进行随机效应的计量后,首先进行多重共线性检验,若x2和x1x2的vif值大于10而x1的vif值小于10,则只对x2和交互项x1x2进行第(2)步去中心化的处理?x1不去中心化,保留原值即可?

(2)x2和x1x2的vif值大于10时,解决办法是令x2*=x2 –( x2的均值),然后将模型改为y = a1x1+ a2x2* + a3x1x2*,是这样构造模型以解决多重共线性的问题,对么?

(3)如果(2)的思路是正确的,当遇到自变量是lnx1、lnx2和lnx1lnx2时,若需要对自变量进行上述(2)的操作,是令x2*=lnx2 –(lnx2的均值),然后将模型改为y = a1lnx1 + a2x2* + a3(lnx1)x2*吗?即重点是令x*=lnx –(lnx的均值),而不是令x*=ln(x-(x的均值)),我的理解是正确的吧?

(4)我看到有的说去中心化是令新变量x*=(x – x的均值)/x的标准差,有的则只是令新变量x*=x – x的均值,请问哪种去中心化是正确的?以及对应的去中心化后生成新变量的stata命令是什么?

还有一个问题是:

(5)比如我的模型是y = a1x1+ a2x2+ a3x3 + a4x1x2+a5x1x3,其中a为自变量的系数。我发现如果只构造模型y = a1x1+ a2x2+ a3x3时,a1不显著,a2、a3显著,那么加入交互项时,能将模型写成这样的形式么:y = a2x2+ a3x3 + a4x1x2+a5x1x3,即构成交互项的元素必须都作为解释变量出现在模型中么?还是像我举得这个例子一样,可以去掉x1这个低次项?

感谢老师的解答,谢谢您!

五个问题本质上涉及三个问题:1、多重共线性;2、变量的标准化;3、对于系数不显著的变量的处理。下面依次说明。

首先,多重共线性只是一个现象,而不是问题。多重共线性并不能说明模型存在任何错误,所以不必然进行处理。如果依据理论,你应当控制一些变量且相应度量是准确的,即便存在多重共线性,也应当控制这些变量——毕竟遗漏重要变量的后果比多重共线性严重得多。其次,所谓去中心化或标准化更多是为了系数解释的需要。例如,自变量减去自己均值后,其系数就可解释为该自变量围绕均值变动时对因变量的影响;自变量减去均值后除以标准差(也即标准化),其系数含义就变为自变量围绕均值变动一个标准差时,对因变量的影响。如果想把变量之间关系刻画为标准差的变化,则可以在 reg 命令后加入 beta 选项。最后,一个模型应当包括哪些变量、不应当包括哪些变量,取决于理论,而不能依据事后其系数是否显著。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多