分享

把RNA跟基因型、疾病联系起来

 生物_医药_科研 2019-03-04

https://www./post/How_are_SNPs_eQTLs_and_genes_related

eQTL不只是SNP,还有insertion、deletion。

本文内容预告:

  • 去哪查基因的eQTL?GTEx项目介绍

  • 怎样用GTEx数据?用GTExPortal在线查询、R包recount2

  • enhancing GTEx:挖掘genotype、gene expression、disease的关系

  • 把GTEx数据用到自己的研究中,半小时出图


哪里有基因的eQTL信息呢?

分析基因表达跟基因型的关系,要用到朋友圈刷屏的GTEx项目:4篇Nature齐发,旨在全面破解基因调控密码    ——BioArt

GTEx收集了来自960个人,超过2万samples(2017年4月GTEx会议Conclusion里的数据),53种tissue;做RNA-seq;鉴定了673个trans-eQTLs at 10% genome-wide FDR(出自Lior Pachter的blog)。POSTAR也整合了GTEx数据

访问dbGaP,签订协议后,就可以下载GTEx数据

https://www.ncbi.nlm./gap

GTEx的RNA-seq是用怎样的流程处理的

GTEx的pipeline已上传到Github:

https://github.com/broadinstitute/gtex-pipeline/tree/master/rnaseq


怎样用GTEx研究我的基因?

有工具:

  • 在线查询

  • R包recount2

在线工具:GTExPortal

https://www./home/

界面人性化,要搜什么,一目了然,用法不要太简单

例如,搜TP53有哪些eQTL,在哪个组织中检测出来

TP53有哪些eGene (Genes with a significant eQTL)

在IGV里查看附近eQTL分布情况

R包recount2

来自useR! International R User 2017 Conference的recount2介绍视频,由这篇Nature Biotechnology的第三作者讲述,https://ussels/。

下面转载生信技能树对GTEx和recount2的介绍:不测基因组也能推测你的身高体重等表型    ——韩悠阳 

通过表型预测提高公共RNA-seq表达数据的价值

TCGA是于2005年启动的通过基因组测序和生物信息学涵盖与癌症响应的基因突变的计划。TCGA引用了高通量基因组测序技术来提高对癌症的基因基础的理解来提升诊断、处理和预防癌症的能力。

GTEx是基因型-组织表达研究联盟,主要是通过血液淋巴母细胞系的研究以及容易获取的组织(例如脂肪或皮肤)的离体研究,来了解人类基因表达的遗传学机制。

SRA是一个生物信息学数据库,能够提供公开的DNA测序数据,尤其是高通量测序得到的1000个碱基对以内长度的短序列。

Rail-RNA是作者团队之前建立的基于云计算的能够一次性切割的比对器。

亮点:

  1. 作者使用三个数据库中的数据进行机器学习训练,分析准确率后,证实了训练得到的预测器进行标记后的表型数据能够进一步被研究过程所利用。

  2. (预测的表型是用R包phenopredict生成的,可以用recount中的add_predictions()函数进行调用。)

  3. 预测器已经标记过在recount2包中的样本数据,可以随时调用,有助于recount2包中的数据在进一步研究中发现新的研究方向。

方法:

  1. 作者选择了全部的表达区域,正则化后组成涵盖矩阵

  2. 而后选择GTEx作为基础训练集,如有缺失用SRA补足

  3. 用以上两个数据集的其他标记好的数据做测试集、用TCGA数据做测试集、用剩余的两个数据集的数据做测试集

  4. 计算预测器的准确度

被标注后的数据已经被作者包括在recount2包中,可以随时调用

摘要

背景:可公开获取的基因组数据是研究正常人类变异和疾病的宝贵资源,但是这些数据并没有被很好的标记或者注释。这些可公开获取数据的表型信息的缺失严重影响了在处理生物学问题研究上的利用。

结果:我们开发了一种在计算机上(in silico,在计算机上)进行表型鉴定的方式来预测关键注释的缺失,直接使用全基因组测量、良好注释的基因组和表行数据,这些都来自于数据联盟比如TCGA和GTEx作为训练集。我们应用70000个RNA-seq样本的在机的表型观察数据,这些数据是我们最近实施的recount2计划中一部分的普通Pipeline方法得到的。

我们通过基因表达数据来建立和评价对于生物表型(性别、组织、样本源)和实验条件(测序策略)的预测器。我们证明这些预测能够被用来研究跨样本性质的公共基因组数据,选择有特殊性质的基因组计划,并通过预测表型展开下游分析。

进行表型预测的方法可以通过R语言中的phenopredict包(https://github.com/leekgroup/phenopredict)和用recount2包(https:///packages/release/bioc/ html/recount.html)可以在网址获得。

结论:对大量公共数据集施加影响而生成的超过70000个人类样本的表型标记完好的表达数据后,表达数据能够用以一个此前无法使用的规模上。

只需要转录组数据就可以预测表型,不一定需要基因组数据,可以大大提高公共数据的利用率!


接下来,启动了eGTEx项目,把GTEx跟ENCODE数据结合起来挖掘。

eGTEx要搞什么事情?

eGTEx,即enhancing GTEx,相当于GTEx项目的延伸,要建立基因型、基因表达和疾病的联系。整合分析以下各层面的数据:

涉及多个层面的调控:

  • 染色质开放区:DNase-seq

  • 组蛋白修饰:ChIP-seq

  • DNA甲基化:WGBS

  • 等位基因特异表达:mmPCR-seq

  • 转录后RNA修饰:m6A-seq

  • 蛋白质组:MS、targeted array

  • 体细胞变异:Exome-seq、RNA-seq、SNP array

  • 端粒长度:液相蛋白芯片。

GTEx为研究genetics、DNA expression、illness关系的机制带来曙光

  • 有助于糖尿病、心血管疾病、癌症、自闭症的研究和个体化用药

  • 有助于DNA结构和功能的研究

Manolis Kellis近几年也在做这个事:

本文是不是也开启了你的思路?

GTEx发表了那么多篇paper,引用GTEx数据时,该引哪篇

Lior Pachter写了blog专门论述了这件事,https://liorpachter./2017/10/12/how-to-cite-the-gtex-project/

感谢GTEx项目中tissue的捐献者及其家人。


怎样把GTEx数据用到自己的研究中?

TCGA的normal数量太少怎么办?

小丫画图群众筹的两套画图包带你顺利解决以上两个问题:

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多