【原】统计遗传学：第二章，统计分析概念

育种数据分析 2022-06-23 发布于河南

展开全文

大家好，我是飞哥。

前几天推荐了这本书，可以领取pdf和配套数据代码。这里，我将各个章节介绍一下，总结也是学习的过程。

引文部分是原书的谷歌翻译，正文部分是我的理解。

第一部分基础，分为六个章节，分别是：

第一章：基因组基础概念（这部分介绍过了，点击进入）
第二章：统计分析概念
第三章：基因型数据参数
第四章：GWAS分析
第五章：多基因效应
第六章：基因与环境互作

今天，介绍第二章的内容，统计分析概念，看一下目录：

主要内容

本章节包括：

基本的统计概念，包括方差、平均值，标准差，协方差，以及方差协方差矩阵
统计模型的基础框架，包括：无效假设、备择假设，显著性阈值
相关性和因果关系
因果模型
固定效应模型、随机效应模型和混合效应模型
理解过拟合

为何要学习统计学

❝
到目前为止，我们一直专注于掌握人类基因组的基本概念和基础。在转到更高级的主题，尤其是本书后面的应用统计章节之前，您还必须掌握一些核心统计概念。正如我们在开始时所指出的，这本书是在介绍性水平上写的，旨在迎合首次进入这一领域的各种研究人员群体。已经具备一些基本统计知识的读者一定会觉得本章介绍性太强。对于那些统计课程已经很长时间了，或者只是作为更大课程的一部分学习过统计的人，你可能会发现这一基本复习章节很有用。虽然本章中介绍的许多概念在非遗传数据分析中都很熟悉，但我们也特别强调了遗传数据分析特有的统计概念和问题。
本章的目的是为理解遗传数据分析所需的核心概念提供基本的入门知识。然后，我们将介绍您可能希望进一步研究的更高级主题。如果您有兴趣在更高的统计复杂度水平上应用这些技术，我们强烈鼓励读者使用更高级或更专业的教科书进一步阅读，其中一些我们在本章末尾的进一步阅读部分中提到。我们首先回顾了一些并非统计遗传数据分析所独有的基本统计概念，如中心趋势。然后，本章的大部分内容对统计模型的基础进行了解，并提供了相关概念的更新，如零假设和替代假设以及显著性阈值。然后，我们区分相关性和因果关系的概念，这在评估这些模型时是至关重要的。我们还引导读者了解各种类型的因果关系模型，包括直接和双向因果关系、加性和共同原因模型，以及共同调解和缓和（或互动）模型。接下来简要介绍了常用的固定效应、随机效应和混合模型之间的区别。最后，我们对复制、过度拟合进行了简短的讨论，然后提供了简短的总结。
❞

飞哥笔记：统计遗传学，不但要学习遗传学、分子生物学，更要学习统计学，通过统计参数去描述遗传学的一些特性，总结一些规律，是非常重要的。

基础统计概念

❝
因为我们知道读者可能来自不同的学科和背景，所以我们从介绍主要概念开始。如第1章所述，您经常会遇到术语表型（在这些统计模型中是因变量）和基因型（通常称为协变量、预测因子或自变量）。正如我们在后面的章节中所阐述的，这些变量可以根据其测量值采取不同的形式。这种测量反过来会影响我们选择的统计模型。例如，如果一个表型被测量为一个二元变量（1=疾病，0=无疾病），那么将使用逻辑或其他类似模型。然而，如果将表型作为连续或定量结果（例如身高）进行测量，则需要采用一个模型，该模型不仅可以捕获数据的逐渐规模，而且通常还可以捕获该测量值的分布。
❞

飞哥笔记：在统计遗传学中，很少有方差分析，都是回归分析，二分类性状是logistic模型，连续性状是一般线性模型或者混合线性模型。遗传力、遗传相关是根据方差组分计算，snp显著性是回归的显著性检验，多基因得分是预测的回归模型等等。

平均值、标准差和方差

这些参数，一般是指正态分布的连续性状：

样本方差的公式：

「R代码展示：」

模拟一个数据框，20个数据：

library(tidyverse)
dat = data.frame(ID = 1:20, y = rnorm(20)+100)
dat

计算平均值：

> mean1 = mean(dat$y);mean1
[1] 100.2073

计算方差：

> var1 = var(dat$y);var1
[1] 1.27476

计算标准差：

> sd1 = sd(dat$y);sd1
[1] 1.129053

方差的另一种计算方法：

> sum((dat$y - mean1)^2)/(20-1)
[1] 1.27476

方差协方差矩阵

X和Y的协方差表示为COV(X,Y)，X和X的协方差就是X的方差。

如果是有多个变量，用于表示他们的方差协方差矩阵，可以这样写，对角线为方差，非对角线为两两之间的协方差。

「R代码演示：」

y1和y1的协方差，与方差一致：

> cov(dat$y1,dat$y1)
[1] 0.9460778
> var1 = var(dat$y1);var1
[1] 0.9460778

y1，y2，y3的方差协方差矩阵，对角线为方差，非对角线为两两之间的协方差。

> cov(dat[,2:4])
            y1          y2         y3
y1  0.94607782 -0.07404345 -0.1165461
y2 -0.07404345  0.68879820  0.0776964
y3 -0.11654608  0.07769640  0.9165009
> cov(dat$y1,dat$y2)
[1] -0.07404345
> cov(dat$y1,dat$y3)
[1] -0.1165461

统计模型

回归模型

多基因评分：Polygenic score

如果y = a*x + b，a就是回归系数，b就是截距。

回归系数的计算方法：

注意，这里分母是x的方差。

R代码，可以看到两种方法，计算结果一致：

> lm(dat$y2 ~ dat$y1)

Call:
lm(formula = dat$y2 ~ dat$y1)

Coefficients:
(Intercept)       dat$y1  
  207.78619     -0.07826  

> cov(dat$y2,dat$y1)/var(dat$y1)
[1] -0.0782636

无效假设和显著性检验

❝
回归方法的目标通常是检验无效假设，这是一种统计检验，用于确定特定组之间没有显著差异。回想一下您之前的统计学入门课程，这指的是您的估计参数（β，β）等于零的情况。因此，另一种假设是当参数不等于零时。我们使用数据进行统计检验，如果零假设为真，则计算p值以确定统计显著性。简单地说，如果p值很小，则数据与零假设不一致。如果参数通过显著性阈值（例如，0.05,0.001），则无效假设将被拒绝，以支持替代假设。在统计显著性领域，有相当多的批评和激烈的讨论，主要围绕着这样一个事实，即结果往往只与无效假设相关。
❞

固定模型、随机模型和混合线性模型

❝
现在我们只讨论了固定效应模型，即协变量对表型结果的影响被建模为固定或样本中每单位协变量增加相同。因此，固定效应模型不同于随机效应模型或混合模型，其中部分或全部模型参数被视为随机变量。读者应该注意到，这些术语在生物统计学和计量经济学中的使用略有不同。安德鲁·盖尔曼（AndrewGelman）写了一篇优秀的博客，描述了这些差异。在计量经济学中，经常使用固定效应模型来确定层次或面板数据中包含的一系列特定变量。在生物统计学和遗传学文本中，“固定效应”是指人口平均效应“随机效应注意到子项特定效应的分布。这些随机受试者特定效应通常被视为未知的潜在变量。？2我们经常使用这些模型来控制所谓的未观察到的异质性。这里的假设通常是异质性是时间常数，与其他协变量无关。随机效应模型通常非常有用因为我们在数据中有个人的子集。这包括个体的子集或集群的变化，如家庭、学校、社区、城市、国家或医院。在检查纵向数据时，子集可以是个体的重复测量。或者，如果检查复发事件数据，子集可能是重复的疾病发作。因此，我们对随机效应进行建模，以解释数据中可能反过来影响主效应的子集。
混合线性模型模型包含固定和随机效应。它们通常用于在纵向小组研究中检查相同个体的重复测量或特定子集的测量。在本书涵盖的遗传学研究中，混合模型对于控制种群结构和估计遗传力很有用。
当将这些模型用于群体结构时，随机效应是由于个体之间的相关性而对基因型-表型关联的贡献。如前所述，个体之间的相关性是使用基因组关系矩阵（GRM）计算的。因此，混合模型可以解释样本中个体之间的遗传距离，从而控制由于遗传图谱差异和地理位置差异的关联而产生的潜在混淆。
正如我们在第一章遗传力一节中所讨论的，混合模型也常用于使用基于基因组的限制最大似然（GREML）估计SNP遗传力。这是一种方差分量估计的统计方法，用于量化表型遗传力的狭义加性贡献。这是特定于特定的遗传变异子集，通常仅限于MAF大于1%的位点。由于这个原因，它通常被称为“芯片”或“单核苷酸多态性”遗传力（或h2SNP，如第1章所述）。如前所述，随着全基因组数据的到来。研究人员能够超越使用双胞胎模型来检验无关个体之间的遗传相似性。用于进行该分析的软件是GCTA-全基因组复杂性状分析（见本章末尾的“混合模型分析软件”）。这些估计产生了表型或性状的遗传贡献的下限，而无需依赖于双胞胎或家族分析中经常受到限制的假设。简单地说，如果某一特定表型是可遗传的，那么遗传关系更密切的个体应该具有更相似的表型值。如果个体的遗传相关性不是相似表型值的指标，那么我们可以得出结论，特定表型可能不受遗传学的影响。在本书后面的第9章中，我们提供了一个如何使用GCTA并进行此类分析的示例。
❞

飞哥笔记：混合线性模型在动植物育种中经常使用，在人类统计遗传学中，估算遗传力时使用GREML方法估算方差组分计算遗传力，它使用基因型数据（SNP）构建的G矩阵放到混合线性模型中的随机因子里面，类似基因组选择中的GBLUP方法，人类中一般使用GCTA的方法进行估算，两者是等价的。

进行评估遗传力的软件：

GCTA：https:///software/gcta/#Overview
FastLMM：http://research.microsoft.com/en-us/um/redmond/projects/mscompbio/fastlmm/
GEMMA：http://www./software.html
MMM：http://www./mjxpirin/download.html.

还有其它动植物汇总用到的软估计：

R包：asreml，sommer，BGLR
ASReml，DMU，BLUPF90，HIBLUP等

结果重演和过拟合

❝
如果只使用一个数据集或样本进行分析，“您可能会遇到过度拟合的问题，这与在单独样本中复制结果的能力有关。
过度预测是指模型中的预测因子在特定数据或样本中的预测结果比在新的独立数据集中的预测结果更好的问题。
首先，过度拟合可能是多次测试的结果。这是因为我们的协变量和表型之间的关联违背了这样一个基本前提，即这种关联是真实群体效应和随机机会的结果。正如我们在第4章所描述的，这些技术的遗传变异是测试有时有数百万具有特定表型的遗传变异。那些拥有最大协会的组织更有可能做出比我们预期的更大的贡献，而不是偶然的。当研究人员试图在较小的样本中复制结果时，他们发现结果往往是较小的关联。这归因于一个事实，即最初过度预测模型的顶部结果及其效应估计（例如回归系数）大于或夸大了真实效应。事实上，任何具有多个协变量或预测因子的联合模型，如果只在单个样本上构建和测试，都会被过度拟合。
这是因为我们估计参数以优化模型与特定数据的拟合。因此，该模型在新的独立数据上表现不佳是合乎逻辑的。
在这本介绍性教科书中，我们无法描述所有应对过度装修的方法，这里只概述了其中的几个。一种是使用培训和验证数据集，现在更常用于解决这一复制问题。一种选择是在类似的独立数据集中重新测试该发现，以查看结果是否重复。另一种选择是将同一样本中的数据分割成一个训练和验证集，这一选择由于英国生物银行（拥有约50万个人）等大型数据集的发布而变得越来越流行。然后可以使用不同的数据划分重复此操作，以提高稳健性。
处理此问题的其他技术称为正则化或收缩方法。
收缩方法执行变量选择，以有效收缩参数，使预测值仍保留在模型中，但会收缩部分参数估计值。套索回归可用于执行变量选择和岭回归，以缩小参数估计。尽管它们远远超出了这篇介绍性文章的范围，但它们有效地惩罚了公式中的参数以进行优化。还有结合岭回归和套索回归的弹性网方法。在贝叶斯收缩方法中，惩罚被表示为先验概率。惩罚可以通过多种方式设定，例如惩罚大影响或将小影响缩小到零或接近零。选择取决于模型和分析。由于基本事实往往未知，因此应进行多重分析以进行测试，从而在独立数据和交叉验证中进行预测。这些方法在遗传学中越来越普遍，感兴趣的读者应该参考更先进的资料。
❞

飞哥笔记：构建模型，过拟合现象经常出现，比如你在一个群体里面挖掘GWAS位点，然后在这个群体里面使用显著性的SNP预测，发现准确性很高，但是在其它群体里面就很低或者没有效果，这就是过拟合的典型表现。解决方法是可以扩大样本量，在大样本中进行建模，强健型会好一点，另外就是选择其它算法，里面有惩罚项，比如岭回归和LASSO回归等

分割线

大家好，我是邓飞，一个持续分享的数据分析师，这里我将自己公众号的干货内容挑重点罗列一下，方便大家阅读和使用。

5，书籍及配套代码领取--统计遗传分析导论

6，统计遗传学：第一章，基因组基础概念