N种策略组合才能填上GWAS分析中的最大坑

生物_医药_科研 2018-12-15

展开全文

近日，广东省人民医院钟诗龙教授团队在临床药理学权威期刊《Clinical Pharmacology & Therapeutics》（IF=7.268）上发表文章《A genome-wide association study identifies novel genetic loci that modify antiplatelet effects and pharmacokinetics of clopidogrel》，基迪奥生物作为合作方也参与了文章数据分析和解读。在本篇技术贴，我们将分享这项研究背后的干货。

在这篇文章中，钟诗龙教授团队围绕在样本量不足导致候选基因显著性不足的情况下，如何有效挖掘候选基因进行了有效地探索，相信对大家类似的研究有所参考。

背景

微效基因挖掘

基因组关联分析（GWAS）已经是应用非常普遍的功能基因筛查方法了。GWAS分析有两大坑：

坑1：关联分析的结果是假阳性（有结果，但结果是错的）；

坑2：目标性状多基因控制，每个基因效应太弱，结果中找不到显著相关的位点（干脆没结果）。

应对以上两大坑，我们可以采取的常见方法包括：

扩大样本量，提高检验功效。
优化表型鉴定的体系。
提高表型鉴定的精度；
采用多维度的方法对表型进行评估，例如代谢组。
充分利用先验信息。
使用候选基因或已知内参基因的方法，合理减低阈值。
注意统计模型的控制和优化。
校正群体结构、系统关系、离群样本的影响；
计算其他因素，例如：性别，作息习惯，年龄等因素的影响。
采用多阶段法验证候选基因。
阶段I：使用宽松的阈值获得获选候选位点；
阶段II~n：在独立群体进行验证。
采用gene based/pathway based 关联分析的方法，提高检验功效。
加入更多组学数据联合分析，例如，转录组、表观基因组。

在这篇文章中，由于研究特性的限制难以提高样本量（心血管药物动力学研究难以在短期内同时获得大量病例），作者使用了以上方法中的2、3、4、5点，也实现中低效应候选基因的有效挖掘。

文章研究背景

血栓形成（血小板凝集），是心血管疾病发生发展的重要因素。目前，对血小板凝集的通路研究已经较为透彻。不同类型的心血管药物，例如，阿司匹林（无所不能的万能神药）、氯吡格雷，实际上都是对血小板凝集通路的不同阶段进行阻断或抑制，从而减少心血管血栓形成的概率。

图1 已被人类研究得较为透彻的血小板凝集通路

其中，氯吡格雷就是一种使用最为广泛的药物。但氯吡格雷有个特点：该药物摄入时的状态本身为非活性物质，必须通过人体的一系列转化（图2）才能最终变为活性物质，起到抑制血小板的凝集的作用。那么问题来了，由于不同个体遗传背景不同，例如与药物代谢相关酶酶活不同，于是对氯吡格雷的代谢转化能力也不同。这个代谢差异性，对心血管患者来说是很危险的不确定性：同样的氯吡格雷摄入量，对某些人可能是过量摄入从而导致容易内出血；而对其他人则可能是用药不足，从而提高了心血管疾病复发的风险。

图2 氯吡格雷在人体内的代谢转化过程

那么本项目研究的使命来了（研究目的）：我们的目标是没有蛀牙！哦不，弄错了。本研究的目标是：找到中国人群中与氯吡格雷代谢相关的常见基因突变，以便为精准用药提供依据。

文章研究思路

图3 文章研究思路

关联分析的文章本身从结构上看，逻辑都非常简单：确定样本 → 关联分析 → 找候选位点 → 验证候选关联位点 → 讨论升华文章高度。妥妥的套路，所以这篇文章从表面上看也是这个套路，但套路背后却是有很多的细节。但由于我们是合作方，和钟教授有大量交流和探讨，了解大部分文章作者不会和你分享这些细节，今天我们就和你剖析这文章背后的细节。

文章中填坑的若干细节

多维度的表型测定——包括代谢组

在关联分析类的研究中，表型的准确定义和测定是常常被大家忽略的问题。

1）表型的定义

我们通常说的表型往往是感性的描述，例如这个人很聪明，这个人体质很好。但感性的描述，必须要变为严谨的可良好量化的指标，才能使关联分析成为可能。

2）表型的测定

相比基因型的测定，表型测定实际上有更大的误差。所以，当结果不理想的时候，大家务必要回头分析是否是表型测定有问题。

再来看看这个项目。

在这个项目中，在研究的不同阶段，我们测定了患者的多种指标（图4中的红框）只为了描述患者的一个性状：氯吡格雷用药后的治疗效果。因为药效本身是复杂性状，这些不同指标实际上是描述药效的不同方面，有一定的互补效果，从而让研究更加全面。

其中一个表型就是H4浓度，属于代谢组指标。H4是氯吡格雷代谢后的活性物质，其就是直观反映了机体对氯吡格雷的代谢能力。

在初次的关联分析结果中，H4的结果非常诡异。最后作者发现是H4代谢组数据中有部分异常样本（H4丰度非常高）。最后翻看质谱仪峰图原始数据后，作者才发现是质谱分析软件自动读峰时，部分样本有较大偏差所致（不是每台电脑都是阿尔法狗）。在手工校正这些错误后，这些问题就游刃而解了。

图4 患者指标测定

关联分析没有显著结果该怎么办？

这是个非常关键的问题。对于任何研究，没有显著的结果就意味着你出海绕了一圈，然后拉着空网就回来了，浪费了大量人力物力，而没有结果。

在初次关联分析中，如果按照经典Bonferroni校正（图5 横虚线），1个显著位点也没有。因为Bonferoni实在太严厉了。

如果你想理解多重检验校正的详细原理，可以登录我们的Omicshare论坛：

第11期在线交流“谈谈RNA-seq和GWAS中的P value和Q value”【视频】

http://www./forum/thread-173-1-12.html

那么，是否意味着这项研究就可以领便当了呢？当然NO。

如果你也曾经面对过这样的情况，那么你需要认识两点：

确认所有的数据和分析是正确的；
理解P value不是万能神药，应该是我们玩耍P value，而不是让P value玩耍我们。

尤其在统计学被滥用的今天，认识第二点非常重要。P value只是帮助我们从海量数据中，筛选那些可以优先进一步挖掘的候选位点/基因的一个重要指标。P value本身受使用的数学模型以及样本数的影响非常大。P value显著只能说明这是个真实关联位点的概率更大，但P value显著并不等于这个位点的相关性是确认无误的（可能是假阳性），P value不显著也不等同与这个位点就是无关的位点（可能假阴性）。

图5 指标PRU第一阶段关联分析的结果

回到这篇文章，首先要确认自己的研究是正确的，那么就需要和前人的研究结果进行比较。CYP2C19是已知的与氯吡格雷代谢效果相关的一个催化酶。在欧美人群的一个研究中这个位点非常显著（图6右），与本研究差了8个数量级。但两次研究这个位点对表型的贡献率（R2）都相似（约为12%），且都是所有位点中最显著的位点之一。由于R2受样本量大小影响较小，P value受样本量影响较大，而本研究阶段I的样本量与前人研究样本量差异较大（115 vs 420），我们推测p value的差异是样本量的差异引起的。

图6 本研究与前人研究结果的比较

初步认定了，P value显著性不足是样本量不足引起的。那么，正如上文所说，P value只是帮助我们筛选候选基因的参考，并非是必须死守的铁律。在样本不足的情况下，经典的Bonferroni校正已经过于严厉，那么该怎么做呢？

找到其他标准，降低阈值；
对候选基因务必进行后期的验证。

先看第一点，降低阈值。在这篇文章里，降低阈值采用了两种思路，本质上是使用了先验信息——即如果已知某些基因有很大概率与研究的性状相关，那么这些基因成为候选基因的概率就更大，那么对于这些基因的阈值就可以适当降低。这篇文章分别采用了两种策略：

以已知的功能基因作为内参，设定P value阈值
CYP2C19是已知的被广泛认可的与氯吡格雷代谢相关的基因，这个基因在本研究中的P value ≈1×10E-4。所以以CYP2C19为标准，即如果某个SNP的p value小于10E-4则认为是潜在候选基因。
候选基因关联分析的思路
氯吡格雷作为一种代谢物，其在体内的运转都是与ADME基因相关（ADME对应吸收、分布、代谢、排泄），那么这类基因很大概率就是与氯吡格雷的代谢相关。作者从pharmgkb 数据库下载了数百个已报到的ADME相关基因，对这类基因使用了更宽松的阈值（PPRU<>H4<>）

使用以上两个标准，我们筛选获得了18个候选SNP。

如何提高结果的可靠性

单次关联分析实验的结果本身有很大可能是假阳性，为了降低假阳性的可能，我们必须注意以下事项：

（1）注意群体结构的影响

在植物学研究中，由于群体结果影响非常严重，所以我们需要使用协变量对群体结构的因素进行校正（Q矩阵和K矩阵），这个我们在OS课堂第九期也讨论过这个问题：

第9期在线交流“全基因组关联分析（GWAS）技术交流”【视频】

http://www./forum/thread-130-1-12.html

但这里，由于是人类样本群体结构不是很严重，所以这篇文章只是通过PCA分析去除了3个离群样本。

（2）注意其他环境因素的影响

很多性状不是纯粹受基因型的影响，环境因素的影响也很大。这里研究的是心血管类的疾病，治疗效果本身受环境因素影响很大。如果完全忽略环境效应，则会丢失大量信息。所以，在得到候选基因后，作者又采用多元回归分析的方式重新分析了各候选基因以及环境因素，发现除了基因型，性别、年龄、治疗方式（CCB）对氯吡格雷的用药效果也有很大影响。

（3）后续多阶段的独立验证

目前，很大一部分关联分析的文章都有很大的弊病——缺乏多阶段的独立验证。由于自然群体本身受随机漂变等不可控因素的影响，单次关联分析的阳性结果完全可能是假阳性。为了证明得到候选基因是可靠的，一个简单的标准就是：实验结果可重复（貌似韩春雨老师的实验至今没有重复出来）。这就是多阶段关联分析的主要目的：在stage I（初始群体）得到候选基因后，在其他的独立群体里面这些候选位点的显著性必须是可重复的，才能说明结果的可靠性。

另外，多阶段关联分析还有两个优点：

哪怕stage I得到的候选位点显著性不强，但在后续的群体中可以重复验证，也可以说明结果是可靠的。所以在这篇文章中，审稿人并没有对stage I选用的阈值较低提出任何异议。
在stage II以及后续的群体中，只对候选位点进行检测，可以降低成本。所以在研究经费有限的情况下，可以考虑采用“小样本全基因组分析 + 大样本候选位点分析”的策略，来降低成本。

在以上文章的数据整理过程中，也使用到了多种不同层面的生物信息知识。如果你想知道掌握生物学信息学需要优先学习哪类知识，也可以从论坛下载PPT，参考我们对生信学习的若干建议：

【PPT公布】OmicShare广州线下技术沙龙第一期

http://www./forum/thread-1910-1-12.html