【原】互助问答第140期：关于多重共线性的问题

新用户68639482 2020-04-07

展开全文

尊敬的老师：

您好！

面板数据，模型中原有自变量x1和x2，引入交互项x1x2后（模型为y = a1x1+ a2x2+ a3x1x2，其中a1、a2、a3为自变量的系数）：

（1）面板数据，在进行随机效应的计量后，首先进行多重共线性检验，若x2和x1x2的vif值大于10而x1的vif值小于10，则只对x2和交互项x1x2进行第（2）步去中心化的处理？x1不去中心化，保留原值即可？

（2）x2和x1x2的vif值大于10时，解决办法是令x2*=x2 –( x2的均值)，然后将模型改为y = a1x1+ a2x2* + a3x1x2*，是这样构造模型以解决多重共线性的问题，对么？

（3）如果（2）的思路是正确的，当遇到自变量是lnx1、lnx2和lnx1lnx2时，若需要对自变量进行上述（2）的操作，是令x2*=lnx2 –(lnx2的均值)，然后将模型改为y = a1lnx1 + a2x2* + a3(lnx1)x2*吗？即重点是令x*=lnx –(lnx的均值)，而不是令x*=ln(x-(x的均值))，我的理解是正确的吧？

（4）我看到有的说去中心化是令新变量x*=(x – x的均值)/x的标准差，有的则只是令新变量x*=x – x的均值，请问哪种去中心化是正确的？以及对应的去中心化后生成新变量的stata命令是什么？

还有一个问题是：

（5）比如我的模型是y = a1x1+ a2x2+ a3x3 + a4x1x2+a5x1x3，其中a为自变量的系数。我发现如果只构造模型y = a1x1+ a2x2+ a3x3时，a1不显著，a2、a3显著，那么加入交互项时，能将模型写成这样的形式么：y = a2x2+ a3x3 + a4x1x2+a5x1x3，即构成交互项的元素必须都作为解释变量出现在模型中么？还是像我举得这个例子一样，可以去掉x1这个低次项?

感谢老师的解答，谢谢您！

五个问题本质上涉及三个问题：1、多重共线性；2、变量的标准化；3、对于系数不显著的变量的处理。下面依次说明。

首先，多重共线性只是一个现象，而不是问题。多重共线性并不能说明模型存在任何错误，所以不必然进行处理。如果依据理论，你应当控制一些变量且相应度量是准确的，即便存在多重共线性，也应当控制这些变量——毕竟遗漏重要变量的后果比多重共线性严重得多。其次，所谓去中心化或标准化更多是为了系数解释的需要。例如，自变量减去自己均值后，其系数就可解释为该自变量围绕均值变动时对因变量的影响；自变量减去均值后除以标准差（也即标准化），其系数含义就变为自变量围绕均值变动一个标准差时，对因变量的影响。如果想把变量之间关系刻画为标准差的变化，则可以在 reg 命令后加入 beta 选项。最后，一个模型应当包括哪些变量、不应当包括哪些变量，取决于理论，而不能依据事后其系数是否显著。