分享

这才叫数据挖掘:31,499个RNAseq公共数据分析建模型

 生物_医药_科研 2019-08-03

Improving the diagnostic yield of exome-sequencing by predicting gene–phenotype associations using large-scale gene expression analysis

通过使用大规模基因表达分析预测基因-表型关联来提高外显子测序的诊断率

期刊:Nature Communications;影响因子:11.878

发表单位:格罗宁根大学医学中心


导  读

 

    随着越来越多地使用全外显子组测序(WES)和全基因组测序(WGS)来诊断疑似遗传疾病的患者,诊断率正在稳步提高。虽然许多基因与孟德尔疾病有关,但基因组测序的诊断率仍然不是很高,从8%到70%不等。现有的方法在识别以前未知的疾病-基因关联方面的能力通常是有限的,本文提出来一种新的分析诊断外显子数据的方法来帮助提高疾病诊断率。


摘  要

 

由于对致病基因的不完全了解,外显子和基因组测序的诊断率仍然很低。为了改善这一状况,我们使用来自31,499个样本的RNA-seq数据来预测哪些基因产生特定疾病表型,并开发基因网络辅助诊断优化(GeneNetwork Assisted Diagnostic Optimization,GADO)。我们声明,这种无偏见的方法,不依赖于对单个基因的特定认知,在识别以前未知的致病基因关联,以及标记先前错误地疾病相关的基因方面都是有效的。GADO可以通过提供HPO表型和包含候选变异的基因列表在www.genenetwork.nl上运行。最后,将GADO应用于61名外显子测序分析未产生遗传诊断的患者队列中,产生了10例可能的致病基因。


结  果

 

1    使用GADO进行基因优先排序

    我们已经开发了GADO,一种可以执行基因优先排序的方法,它使用在患者中观察到的表型列表(使用HPO表型描述)作为输入。结合候选基因列表(即含有稀有和可能具有破坏性变异的基因),GADO报告了一个排序的基因列表,其中最可能的基因位于顶部(图1a)。这些基因优先顺序是基于对特定的HPO表型的候选基因的预测参与。这些预测是通过分析来自31,499个样本的公共RNA-seq数据做出的(图1b),产生每个HPO表型的基因优先级的Z值。这些预测仅基于观察到的注释到某一HPO表型的基因与其他基因的协同调节。这使得也有可能对目前缺乏任何生物注释的基因进行优先排序。


2    公共RNA-seq数据采集和质控

为了预测基因和HPO表型关联的功能,下载了欧洲核苷酸档案(ENA)中公开获得的所有人类样本RNA-seq数据。通过使用Kallisto对基因表达进行定量,并且去除了有限数量的映射读数的样品。相关矩阵上的主成分分析(PCA)用于去除低质量样品并去除错误注释为RNA-seq但被证明是DNA-seq的样品。最后,纳入31,499个样本,并对56,435个基因(其中22,375个是蛋白质编码基因)的基因表达水平进行了定量。

虽然这些样本是在许多不同的实验室中生成的,但我们之前观察到,在纠正技术偏差后,可以将这些样本整合到单个表达数据集中。我们通过使用t-分布随机领域嵌入(t-SNE)可视化数据来验证我们的数据集也是如此。我们基于细胞类型或组织标记样品,并且我们观察到样品基于细胞类型或组织来源聚在一起(图2)。技术偏差,例如是否使用了单端测序或配对末端测序,没有产生错误的聚类,这表明这种异质数据集可用于确定基因之间的协同调节,因此可作为预测基因功能的基础。


3    基因HPO关联和基因功能的预测

为了预测HPO表型关联和推定的基因功能(图1b),我们使用公共RNA-seq数据,应用了我们之前开发并应用于公共表达微阵列的共调节方法。我们的方法使用主成分分析来识别一组描述基因之间共调节的成分。虽然基因之间的一些共调节是由在特定组织中特异性表达的基因对(即组织特异性表达)决定的,但这种共调节中相当大程度上反映了参与相同生物学通路的基因对。

我们将该预测方法应用于HPO基因集以及Reactome,KEGG通路,基因本体论(GO)分子功能(MF),GO生物过程(BP)和GO细胞组分(CC)基因集。对于至少10个基因注释的8,657个基因组中的5,088个(59%),基因功能预测具有显著的预测能力。对于具有至少10个注释的基因的8,657个基因组,中值预测能力(表示为曲线下面积(AUC))在0.73(HPO)至0.87(Reactome)之间。

4    使用带注释的HPO表型对已知致病基因进行优先排序

我们将每个HPO表型的优先级Z值组合在一起,以生成整体优先级Z值,从而解释患者的全部特征。GADO使用这些组合的优先级Z值来优先考虑候选基因:基因的组合优先级Z值越高,它就越有可能解释患者的表型。

由于许多HPO表型注释的基因少于10个,并且由于我们无法对某些HPO表型做出重要预测,因此某些HPO表型不适合用于基因优先级排序。为了克服这个问题,我们利用了HPO表型的结构:每个表型至少有一个亲本HPO表型,它描述了更通用的表型,也分配了更多的基因。因此,如果不能使用HPO表型,GADO将为合适的亲本表型提出建议。

为了对我们的优先级排序方法进行基准测试,我们使用了OMIM数据库。由于采用了留一法,我们可以直接测试我们的方法能够根据这些疾病的注释表型对OMIM中列出的致病的基因进行追溯评分。对于每个OMIM致病基因(n = 3,382),我们使用相关的疾病表型(平均每个基因15个HPO表型)作为GADO的输入。我们发现GADO将49%的疾病中的致病基因排在前5%(图3a)。然而,在临床实践中,仅记录患者的一部分特征并不少见。因此,我们重复此分析,同时随机选择每种疾病最多5个HPO表型。我们发现,这与使用所有HPO表型相比,GADO评分保持稳定且具有强相关性(Pearson相关系数r = 0.86)。

5    基因可预测性得分解释了表现差异

对于OMIM中的一些疾病,GADO无法预测基因 - 表型组合,正如接近0或低于0的优先级Z值所示(图3a)。例如,已知SLC6A3中的变异引起婴儿型帕金森病-肌张力障碍(MIM 613135),但是GADO无法预测与该基因相关的与帕金森病 - 肌张力障碍相关的注释HPO表型。然而,这可能是由于SLC6A3在除特定脑区以外的大多数组织中的非常低的表达水平。

为了更好地理解为什么我们无法预测所有基因的HPO表型,我们使用了Reactome,GO和KEGG优先级Z值。这些数据库共同包含数千个基因集。由于这些数据库描述了如此广泛的生物学内容,我们假设如果一个基因没有显示这些数据库中任何基因集的任何预测信号,那么基因共表达对该基因可能是没有信息的。为了量化这一点,我们计算了每个基因,Reactome,GO和KEGG基因组的路径优先级Z值分布的平均偏度。我们将这个平均值用作每个基因的“基因可预测性得分”,不依赖于该基因是否已知在任何疾病或通路中发挥作用(图3c)。然后我们确定这些“基因可预测性评分”是否与基于HPO的OMIM疾病优先级Z值相关,并发现基因可预测性得分和GADO识别已知致病基因的能力之间存在很强的相关性(r:0.54,p值:1.14×10-332)(图3c)。

 

6    证据有限情况下对致病基因进行优先排序

我们使用了由Strande等人系统研究的一组致病基因来确定这些基因存在的证据负担,并用一组反驳的基因补充这个列表。我们观察到GADO优先级Z值与这一证据负担有关:与具有更多支持证据的基因(Spearman  p值:1.01×10-4)相比,被驳斥的基因和证据有限的基因具有显著更低的优先级Z值(图3b)。我们的优先级Z值也与基因中的等位基因在ClinVar中被报告为具有致病性或可能致病性的次数相关(r:0.14, p值:1.67×10-23)(图3d),表明如果许多独立提交的疾病涉及同一基因,那么该基因更可能是真正致病的基因。这可以通过ExAC错义约束评分(表示基因中错义变异消耗的指标)与提交ClinVar的数量(r:0.12 ,p值:8.81×10-17)之间的显著相关性得到证实。有趣的是,我们没有观察到我们的优先级Z值与ExAC错义约束之间的相关性。使用我们的优先级Z值和ExAC约束来解释ClinVar提交的数量的线性模型显著优于仅使用ExAC约束来预测ClinVar中致病性或可能致病性的数量(r:0.21  vs.  r:0.12,ANOVA p值:1.24×10-34)。这表明GADO对于预测基因参与疾病是有用的,独立于ClinVar和ExAC。

已知引起心肌病的一组基因根据文献中关于这些基因参与心肌病的证据量进行评分。在此,我们再次观察到证据有限的基因具有较低的优先级Z值(spearman,p值:8.71×10-4),表明这些可能反映假阳性关联。

我们担心这种假阳性结合会对我们的基因-表型预测产生不利影响。为了确定这一点,我们在每个HPO表型中随机添加了10%的基因,并重新计算了预测结果。然后我们观察到我们的预测是稳健的,并且AUC值(表明基因共调节可以在多大程度上预测基因-表型关联)与原始AUC值非常相似(Pearson相关性r = 0.97)。

7    使用具有真实表型的案例对GADO进行基准测试

GADO使用了所有注释的HPO表型来注释疾病,然而,在实践中,患者可能仅呈现有限数量的疾病注释特征。为了进行真实反映临床实践的验证,我们使用了83名已知基因诊断患者的外显子测序数据。在进行遗传学诊断之前,我们使用了他们的医疗记录中列出的表型特征。对于每位患者,我们的外显子组测序管道GAVIN返回了55个可能致病基因的中位数,这些基因具有罕见且预计有害的变异。然后我们运行了GADO并观察到对于其中41%的患者,实际的致病基因排在前3位(83名患者的中位数为6.5)。使用严格的阈值(优先级Z值≥5),我们也用于优先处理未解决的病例,选择强候选基因,我们确定17个病例(20%)的致病基因,而平均每位患者只需要随访一个变异(范围0-5)。

在临床实践中GADO无法准确预测每种已知的基因-HPO组合,因此,这些已知的基因-HPO组合中的一些可能具不高的Z值。为了确保GADO也适用于目前已知的疾病相关基因变异的病例,我们调整了我们的预测矩阵,以确保基因的已知HPO-表型关联也被优先排序。这并不影响GADO优先处理新致病基因的能力,而是仅仅有助于已知致病基因的优先排序,但确保GADO网站的用户将这些已知的疾病表型视为排名靠前的基因。通过这样做,与Exomiser相比,我们实现了类似的优先级排序性能(图4a)。对于这种比较,我们使用两种方法对Exomiser选择的平均663种变异进行排名。对于Exomiser,我们使用默认的“组合优先级”策略,该策略基于变异得分和基因得分,而在GADO中,我们仅使用优先级Z值。虽然我们的致病基因中位数与Exomiser相比更好(GADO:12.5 vs. Exomiser:21),但另一方面,Exomiser能够将更多基因排在前3位(Exomiser:28 vs. GADO:14)。

8    HPO表型的聚类

除了基于患者表型对潜在致病基因进行排序之外,GADO还可用于根据预测与这些HPO表型相关的基因对HPO表型进行聚类。这有助于识别经常一起出现的症状对,以及很少同时出现的症状。在一个被诊断患有糖原贮积病(GSD)的患者中,由SLC37A4(MIM 602671)和扩张型心肌病(DCM)中的复合杂合变异引起的GSD Ib型可能由TTN中的截短变异(MIM 188840)引起,与GSD相关的HPO表型 Ib型('leu-kopenia(白细胞减少症)'(HP:0001882)和'inflammation of the large intestine(大肠炎)'(HP:0002037))聚集在一起,而心肌病(HP:0001638)与这些特定功能弱相关(图4b)。

9    重新分析以前未解决的案件

为了评估GADO发现以前未知致病基因的能力,我们将其应用于61名怀疑患有孟德尔疾病但未接受基因诊断的患者的数据。所有患者之前都进行过基因检测。在10个案例中,我们确定了与OMIM或其他数据库中与疾病无关的基因的变异,但我们可以找到相关文献,或者我们获得了证明其疾病相关性的功能证据。例如,我们鉴定了两例DCM患者,其OBSCN基因(MiM 608616)中含有罕见的复合杂合变异,被预测为具有损害性。在文献中,OBSCN中的遗传变异,即编码遮蔽蛋白,与肥大性CMDCM相关。此外,遮蔽蛋白是一种已知的titin(TTN)的相互作用伙伴,这是一种众所周知的DCM相关蛋白。另一个例子来自患有鱼鳞病脱皮综合症的患者,这是由FLG2中的破坏性变异(MIM 616284)引起。我们最近公布了这个案例,我们使用αGADO对这个基因进行了优先排序。

我们将GADOExomiserENDEAVORToppGene之前未解决的案例上进行了比较,我们观察到,GADO更有效地优先考虑可能的致病基因。


讨  论

 

本文提出了一种分析诊断外显子数据的方法(GADO),该方法利用一系列来自组织和细胞类型的RNA-seq数据,并使用基因共调节来预测基因功能和疾病注释。与现有的方法相比,GADO研究的是基于参与其他疾病而预测会导致某种HPO特征的基因,这是一点很新颖的。

   本文研究思路:

    1) 收集公共RNA-seq数据,对数据质控2)预测HPO表型关联和基因功能3)对已知或未知致病基因进行排序;4)使用基因可测性评分来解释GADO的差异表现;5)HPO表型聚类;6)使用GADO预测致病基因,并做出验证;7)重新分析未解决案例,并与其他方法进行比较。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多