分享

从TCGA表达矩阵中分别提取mRNA和lncRNA

 生物_医药_科研 2020-04-02

 今天是生信星球陪你的第581天


   大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~

   就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~

   这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我!

花花写于2020-3-29

01.需求

TCGA的RNA-seq数据使用的geneid是ensembl id,里面不仅有mRNA,也有非编码基因和其他类型。
所以,如何从TCGA得到的表达矩阵中分别提取出mRNA和lncRNA的表达量呢?

02.思路

1.找到TCGA数据对应的参考基因组版本。
2.下载该版本的参考基因组注释文件,找到mRNA和lncRNA对应的ensembl id
3.在表达矩阵中筛选。

03.动起来

1.找参考基因组版本

gdc首页的support


about the data - GDC Reference Files

可以看到,使用的参考基因组版本是genecode的v22。(版本很多,这个是14年的版本了)

2.找区分类型的列

在gtf文件里并不是直接分出了lncRNA,需要找gtf文件里对biotype的说明,不看不知道,一看发现这是一个很长的表格。


其中对lncRNA的说明是:

Generic long non-coding RNA biotype that replaced the following biotypes: 3prime_overlapping_ncRNA, antisense, bidirectional_promoter_lncRNA, lincRNA, macro_lncRNA, non_coding, processed_transcript, sense_intronic and sense_overlapping.

所以,将genetype里这些类型对应的行挑出来,就是lncRNA了。mRNA则相对简单,选出proteincoding 对应的行即可。

然后与表达矩阵行名进行匹配替换,就可以分别得到lncRNA和mRNA的矩阵了。

鼓励自己学习探索,思路有了,先试试能否自己做出来。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多