分享

不测基因组也能推测你的身高体重等表型

 微笑如酒 2017-06-25

通过表型预测提高公共RNA-seq表达数据的价值

TCGA是于2005年启动的通过基因组测序和生物信息学涵盖与癌症响应的基因突变的计划。TCGA引用了高通量基因组测序技术来提高对癌症的基因基础的理解来提升诊断、处理和预防癌症的能力。

GTEx是基因型-组织表达研究联盟,主要是通过血液淋巴母细胞系的研究以及容易获取的组织(例如脂肪或皮肤)的离体研究,来了解人类基因表达的遗传学机制。

SRA是一个生物信息学数据库,能够提供公开的DNA测序数据,尤其是高通量测序得到的1000个碱基对以内长度的短序列。

Rail-RNA是作者团队之前建立的基于云计算的能够一次性切割的比对器。

亮点:

  1. 作者使用三个数据库中的数据进行机器学习训练,分析准确率后,证实了训练得到的预测器进行标记后的表型数据能够进一步被研究过程所利用。

  2. (预测的表型是用R包phenopredict生成的,可以用recount中的add_predictions()函数进行调用。)

  3. 预测器已经标记过在recount2包中的样本数据,可以随时调用,有助于recount2包中的数据在进一步研究中发现新的研究方向。

方法:

  1. 作者选择了全部的表达区域,正则化后组成涵盖矩阵

  2. 而后选择GTEx作为基础训练集,如有缺失用SRA补足

  3. 用以上两个数据集的其他标记好的数据做测试集、用TCGA数据做测试集、用剩余的两个数据集的数据做测试集

  4. 计算预测器的准确度

被标注后的数据已经被作者包括在recount2包中,可以随时调用

摘要

背景:可公开获取的基因组数据是研究正常人类变异和疾病的宝贵资源,但是这些数据并没有被很好的标记或者注释。这些可公开获取数据的表型信息的缺失严重影响了在处理生物学问题研究上的利用。

结果:我们开发了一种在计算机上(in silico,在计算机上)进行表型鉴定的方式来预测关键注释的缺失,直接使用全基因组测量、良好注释的基因组和表行数据,这些都来自于数据联盟比如TCGA和GTEx作为训练集。我们应用70000个RNA-seq样本的在机的表型观察数据,这些数据是我们最近实施的recount2计划中一部分的普通Pipeline方法得到的。

我们通过基因表达数据来建立和评价对于生物表型(性别、组织、样本源)和实验条件(测序策略)的预测器。我们证明这些预测能够被用来研究跨样本性质的公共基因组数据,选择有特殊性质的基因组计划,并通过预测表型展开下游分析。

进行表型预测的方法可以通过R语言中的phenopredict包(https://github.com/leekgroup/phenopredict)和用recount2包(https:///packages/release/bioc/ html/recount.html)可以在网址获得。

结论:对大量公共数据集施加影响而生成的超过70000个人类样本的表型标记完好的表达数据后,表达数据能够用以一个此前无法使用的规模上。

只需要转录组数据就可以预测表型,不一定需要基因组数据,可以大大提高公共数据的利用率!


猜你喜欢

工作资讯 | 学习课程 | 好书分享


菜鸟入门

Linux | Perl | R语言


数据分析

ChIP-seq(上)ChIP-seq(下)RNA-seq

WGS,WES,RNA-seq组与ChIP-seq之间的异同


编程实践

第0题 | 探索人类基因组序列


直播基因组分析

我的基因组 | 解惑帖

一个标准的基因检测报告目录

生信技能树


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多