分享

[线性回归]什么是多重线性回归?

 liyu_sun 2015-12-18


前两篇文章,给大家介绍了《线性回归:从入门到进阶》的前三部分:什么是线性回归,如何确定最佳回归线,以及如何评价一个回归模型的效果。(关注“biostat”,回复关键词“Linear”可回顾)


今天我们用变异分解的视角,来实践一下从“简单回归”到“多重回归”的跨越。


目前文献中通过多重回归来分析数据,已经几乎成了常规。为何非要使用多重回归,可以参考小号之前发的一篇文章《混杂偏倚的三种常见校正方法》,在公众号“biostat”中回复关键词“混杂”可见。


首先,我们来比较一下“简单线性回归”与“多重线性回归”。他俩的差异,主要在于自变量的个数



命名真的是一件很棘手的事情,特别是在我们“迷信”的中国——感觉“大家”们都很喜欢把玩概念,却很少真正从现实中抽象概念。


好吧,上面这句话当小编没说过。



理解多重回归,我觉得还是从方差/变异的视角比较妥当。如果没听说过这个视角,可以回忆一下方差分析中变异的分解。很抱歉,小编先写了这篇回归,却没有先介绍方差分析等方法,不急,咱们慢慢来。


我们先从简单线性回归入手,看一下简单回归的机制:



这一团黑,就是我们要解决的问题。它代表了随机性,代表了方差,代表了变异


后面我们要使用澄澈的X,来澄清这团黑黑的Y。





之所以能让两个变量重叠,靠的就是他们之间的关系-线性相关关系-用回归方程表达的变量关系



提到“月老”~不禁想起双十一剁过的手~TAT~




覆盖的面积的比例,即为R方!


下面我们看一下Multiple的机制,尤其看一下,Multiple对R方的贡献!当然,Multiple的贡献不止于此,更重要的原因,请在小号“biostat”中回复关键词“混杂”!



上图中,因为多了一个X2,R方从0.25增加到了0.50!



上图中,这个“Multiple”的意思就很明显了,多个变量,多次,重叠~


是不是Multiple啊?^_^


举个实际中的例子看一下吧,使用Multiple的方法,可以更全面地看待问题:



同时考虑了语文、数学、外语、政治的多重影响,更好的解释学习能力Y的变异!



如上,我们成功地实现了简单线性回归到多重线性回归的跨越。理解了这些,就更容易理解进阶版的回归建模


进阶版的回归是啥样子呢?提示两个关键词:


  • Logistic回归

  • R (指向的是一篇广义线性模型的文章《广义线性模型--从R Formula谈起》)


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多