通过表型预测提高公共RNA-seq表达数据的价值TCGA是于2005年启动的通过基因组测序和生物信息学涵盖与癌症响应的基因突变的计划。TCGA引用了高通量基因组测序技术来提高对癌症的基因基础的理解来提升诊断、处理和预防癌症的能力。 GTEx是基因型-组织表达研究联盟,主要是通过血液淋巴母细胞系的研究以及容易获取的组织(例如脂肪或皮肤)的离体研究,来了解人类基因表达的遗传学机制。 SRA是一个生物信息学数据库,能够提供公开的DNA测序数据,尤其是高通量测序得到的1000个碱基对以内长度的短序列。 Rail-RNA是作者团队之前建立的基于云计算的能够一次性切割的比对器。 亮点:
方法:
被标注后的数据已经被作者包括在recount2包中,可以随时调用 摘要: 背景:可公开获取的基因组数据是研究正常人类变异和疾病的宝贵资源,但是这些数据并没有被很好的标记或者注释。这些可公开获取数据的表型信息的缺失严重影响了在处理生物学问题研究上的利用。 结果:我们开发了一种在计算机上(in silico,在计算机上)进行表型鉴定的方式来预测关键注释的缺失,直接使用全基因组测量、良好注释的基因组和表行数据,这些都来自于数据联盟比如TCGA和GTEx作为训练集。我们应用70000个RNA-seq样本的在机的表型观察数据,这些数据是我们最近实施的recount2计划中一部分的普通Pipeline方法得到的。 我们通过基因表达数据来建立和评价对于生物表型(性别、组织、样本源)和实验条件(测序策略)的预测器。我们证明这些预测能够被用来研究跨样本性质的公共基因组数据,选择有特殊性质的基因组计划,并通过预测表型展开下游分析。 进行表型预测的方法可以通过R语言中的phenopredict包(https://github.com/leekgroup/phenopredict)和用recount2包(https:///packages/release/bioc/ html/recount.html)可以在网址获得。 结论:对大量公共数据集施加影响而生成的超过70000个人类样本的表型标记完好的表达数据后,表达数据能够用以一个此前无法使用的规模上。 只需要转录组数据就可以预测表型,不一定需要基因组数据,可以大大提高公共数据的利用率! 猜你喜欢 菜鸟入门 数据分析 ChIP-seq(上)| ChIP-seq(下)| RNA-seq WGS,WES,RNA-seq组与ChIP-seq之间的异同 编程实践 直播基因组分析
|
|