在进行多元回归分析时,两个自变量之间可能存在线性相关,所谓线性用数学公式表示如下 即两个自变量之间的关系是一条直线, 称之为共线性,当三个或以上自变量之间存在共线性时,称之为多重共线性,数据公式表示如下
那么如何来评判一个变量与其他变量是否存在共线性呢?从多重共线性的数学公式可以看出,符合多重共线性的自变量构成了一个线性方程。基于这个思想,对于每个自变量x,将其作为因变量,用线性回归拟合剩余的自变量和x之间的关系。 在线性回归中,拟合结果的好坏用R2来表示,可以想象,如果完全符合上述方程,即存在完全共线性的情况下,R2值最大,为1。实际情况中,虽然不会是完全共线性,但是也可以用R2来表征其线性关系的强弱,R2越大,说明线性关系越明确。 为了更加明确的衡量共线性,数学家利用R2构建了一个统计量,称之为方差膨胀因子,简写为VIF, 全称如下
计算公式如下 其中的1-R2也称之为容忍度 在R中,可以通过如下方式计算每个自变量的VIF值 也可以自己用公式来验证一下,代码如下 当得到各个自变量对应的VIF值之后,可以来筛选VIF值较大的自变量,在上述例子中,自变量 在进行多元回归时,自变量的多重共线性是必须要考虑的问题,可以根据自变量对应的方差膨胀因子 ·end· —如果喜欢,快分享给你的朋友们吧— 往期精彩
|
|