前两篇文章,给大家介绍了《线性回归:从入门到进阶》的前三部分:什么是线性回归,如何确定最佳回归线,以及如何评价一个回归模型的效果。(关注“biostat”,回复关键词“Linear”可回顾) 今天我们用变异分解的视角,来实践一下从“简单回归”到“多重回归”的跨越。 目前文献中通过多重回归来分析数据,已经几乎成了常规。为何非要使用多重回归,可以参考小号之前发的一篇文章《混杂偏倚的三种常见校正方法》,在公众号“biostat”中回复关键词“混杂”可见。 首先,我们来比较一下“简单线性回归”与“多重线性回归”。他俩的差异,主要在于自变量的个数! 命名真的是一件很棘手的事情,特别是在我们“迷信”的中国——感觉“大家”们都很喜欢把玩概念,却很少真正从现实中抽象概念。 好吧,上面这句话当小编没说过。 理解多重回归,我觉得还是从方差/变异的视角比较妥当。如果没听说过这个视角,可以回忆一下方差分析中变异的分解。很抱歉,小编先写了这篇回归,却没有先介绍方差分析等方法,不急,咱们慢慢来。 我们先从简单线性回归入手,看一下简单回归的机制: 这一团黑,就是我们要解决的问题。它代表了随机性,代表了方差,代表了变异! 后面我们要使用澄澈的X,来澄清这团黑黑的Y。 之所以能让两个变量重叠,靠的就是他们之间的关系-线性相关关系-用回归方程表达的变量关系! 提到“月老”~不禁想起双十一剁过的手~TAT~ 覆盖的面积的比例,即为R方! 下面我们看一下Multiple的机制,尤其看一下,Multiple对R方的贡献!当然,Multiple的贡献不止于此,更重要的原因,请在小号“biostat”中回复关键词“混杂”! 上图中,因为多了一个X2,R方从0.25增加到了0.50! 上图中,这个“Multiple”的意思就很明显了,多个变量,多次,重叠~ 是不是Multiple啊?^_^ 举个实际中的例子看一下吧,使用Multiple的方法,可以更全面地看待问题: 同时考虑了语文、数学、外语、政治的多重影响,更好的解释学习能力Y的变异! 如上,我们成功地实现了简单线性回归到多重线性回归的跨越。理解了这些,就更容易理解进阶版的回归建模。 进阶版的回归是啥样子呢?提示两个关键词:
|
|