分享

相关与回归-聊聊身高那些事儿(1)

 生物_医药_科研 2018-12-21

相关与回归-聊聊身高那些事儿


  今天我们要用到一个由数学家、生物学家Galton当年记录的数据。经后人整理成电子数据。Source:https://dataverse./dataset.xhtml?persistentId=doi:10.7910/DVN/T0HSJ1

恭敬的放上一张老爷子当年的手稿


我们先来一睹这个数据里面都包含了些什么

可以看到这个数据里面有父亲的身高,母亲的身高。孩子的性别,家庭孩子的个数。那么问题来了,这个数学家,遗传学家为什么要记录这些数据呢?


  其实人们很早就观察到父母的身高,可能会影响孩子的身高。但是身高呢,不仅又遗传决定,环境等因素对身高同样有影响,比如可能在一百个高父母中有一部分孩子因为营养不良而矮化,那么我们可以根据这些观测值否定父母身高对孩子身高的影响,又或者我们该怎么界定父母身高对孩子身高的影响的?是否有影响?影响程度可否量化?

还好,针对这一系列问题已经有统计学家们替我们做出了解答。那就是应用相关(Correlation)和回归的思想(Regression)。

 

  相关:相关的程度主要有三个参数决定

(1)   相关系数(coefficient between 1 and -1 )

(2)   符号(negative or postive)

(3)   绝对值大小(Magnitude)代表相关强度(即相关紧密程度)【大于0.75-相关性强,0.5左右相关性适中,0.3左右相关性弱,接近零则没有相关性。但是对于相关系数小的,不能简单等同于没有相关性,如一个抛物线,x与y明显相关,只是不符合线性模型。】


那么针对第一点相关系数,即反映两个变量相关性强弱,这里的相关系数我们都指的是:Pearson product-moment correlation coefficient [皮尔森积矩相关系数]

这个式子比较复杂,但是其实可以简单的解读为两个变量的变异,比上变量自身的变异。如果变量的变异比起自身的变异很高,我们认为由随机产生这种结果的概率极小,也就是相关性很强。

 

 

那么俗话说:妈矮矮一窝,爹矮矮一个。我们用这组数据来检验一下吧,似乎在古人的观念里,孩子的身高与母亲的相关性更高?真的是这样么?我们用这组数据来检验一下。

library(dplyr)

mother_kid<-x%>%select(mother,height,gender) #母亲身高对孩子身高

father_kid<-x%>%select(father,height,gender) #父亲身高对孩子身高

 #在这里我们要用到cor()函数来计算相关系数。同时请注意我设定了:

use='pairwise.complete.obs' 这个设定代表我让cor自动舍去空的值(NA)

可以看出,母亲和孩子身高的回归系数约为0.2,而父亲的约0.27。嗯,看来古人的表述并不是很正确。

 

回归分析(regression analysis)


那么相关性只能反应一组数据中两个变量相关的紧密程度,那么如果我们想要更多,比如我们想知道这种相关是否有普遍性?是否可以通过父母的身高对孩子身高进行预测?这时候相关分析显然无法满足我们了,这时候我们就需要回归分析。

 

PS一句闲话:回归分析、线性模型可以说是一个相当厉害的东西。他是机器学习(深度学习)的基础之一。之前打败李世石的alpha go就是基于回归分析的深度学习,现在的人脸识别技术则是基于clustering的深度学习。以后我也会专门写文章介绍机器学习。那么一个生物学家为什么需要深度学习呢?现在的数据都在几何式增长,生物数据也不例外。每天医疗、农业都会产生大量的数据。如果让人一项项调出来分析,这工作量巨大,效率极低。但是有了机器学习,我们只管提出生物学问题,剩下的交给机器解决就好了。

 

回归分析就要用到线性模型(linear model)

线性模型可以这么解释:

响应变量(response variable)= 斜率*解释变量(explanatory variable)+截距(noise)

那么这个线性模型是如何得到的呢?或者说凭什么两个变量之间的关系可以由这个模型进行诠释?这个模型是否有可推广性?

 

最后一个问题的答案显然不是的!并不是所有数据都符合线性模型的!那么为什么我们还要用线性模型呢,乔治“盒子”(hhhh)有一句话我觉得可以很完美的解释这个问题

 

第二个问题:什么样的数据适合用线性模型呢?这个只能靠经验,也就是我们要用肉眼观察。可以在数据散点图之中找到一条贯穿的直线的,那么我们就可以用线性模型进行尝试

 

最后一个问题:线性模型如何得到的(既斜率和截距),这样说到这个直线的来历了,那就是least squares estimate(中文水平有限实在不知如何翻译)

其本质就是将每一个值与预测值做差求平方和,再利用数学方法(最大释然)使其达到最小,那么就认为他与数据的偏差最小。

 

刚才说到了母亲的身高和孩子的身高,那么现在我们再来仔细看看

 

ggplot(mother_kid,aes(x=mother,y=height))+geom_point()+facet_wrap(~gender)

似乎随着母亲的身高的上升,孩子身高也在增加。那么我们怎么建立一个线性模型来描述他呢?

ggplot(mother_kid,aes(x=mother,y=height))+

  geom_point()+

  facet_wrap((~gender))+

  geom_smooth(method='lm',se=FALSE) #利用ggplot2中的smooth即可添加线性模型直线,method=“lm”中的lm就是指线性模型linear model,se=FALSE指不显示其方差,暂时用不着。



那么这只是在图形上显示,可是如果我想要我的模型是一个可以操作的对象。这时候就要用到lm函数,lm(formula,data)#formula就是指建立模型的样子,data就是我们的data

mother_fit<-lm(height~mother,data=mother_kid)>

summary(mother_fit) #查看

可以看到它的输出值,是一个class为lm的。还是很不好对其操作。所以我们要用到broom包

fitted.value() #返回所有预测值,自动去掉NA

residuals() #返回residual(观测值-预测值)

 

library(broom)

mother_fit %>%augment() #创建一个可以储存lm的dataframe

可以看到似乎多了几个值这些有什么用呢?怕大家消化不了我周六再讲吧。

 

 

最后再补充一个吧:

regression to the mean(趋中心回归)

 

这一个概念首先是由我们今天主角Sir Francis Galton提出的,他这个人也很有趣是一个数学家,也是一个遗传学家(应该叫proto-genetics)。这个趋中心回归想法的由来也相当有意思,大家都知道高斯推导正态分布时,用了一个有不同通道的板子,然后将很多的小球从上方倒下。发现小球的分布图型总是中间最多,两边最少。而趋中心回归,则是逆向思考:那么这些正态分布的小球是否可以回归到一个中心呢?

而作为遗传学家,他又将这个抽象的问题具像化到了生物学问题上。

如果一个孩子的父母都超过了该人种的平均身高,那么这个孩子的身高会像人种的平均值接近(低于父母),还是高于父母呢?

乍一看这个问题稀疏平常,但是如果你仔细想一下,就会发现Galton强大的洞察力和思考能力了。


那么这个趋中心回归定理对于设计生物学实验室有什么意义呢?


其实这个是生物学实验一定要设置对照组的根本来源。我们来假设一种情况:从一个有1000个相同年龄的人群中,选出100个经检测具有高发心脏病概率的人,对他们进行干预(饮食、运动、药物等),之后再对他们心脏病发病率进行测定。无论这种干预是否有效,他们心脏病发病率一定是下降的,这是因为他们(样本)的平均值回归了总体的平均值。所以这种实验设计是十分错误的!那么正确实验设计应该要遵循随机抽样和对照试验的原则,否则我们观测得到结论一定是不可靠的。虽然我在这里举的例子很简单,但其实一旦试验的环节和流程多了起来,这就变成一种很容易犯的错误(甚至于在一些SCI论文上都有)

 

在2015年纽约时代周刊评论“裙带关系”中就有这样子的一句话,虽然不是很准确。但是用通俗的语言解释了趋中心回归

 

'Regression to the mean is so powerful that once-in-a-generation talent basically never sires once-in-a-generation talent. It explains why Michael Jordan’s sons were middling college basketball players and Jakob Dylan wrote two good songs. It is why there are no American parent-child pairs among Hall of Fame players in any major professional sports league.'

 



    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多